Novi Kurniawan : TBI Pertemuan Ketujuh, latent Semantic Indexing

Latent Semantic Indexing

Latent Semantic Indexing (LSI) adalah model temu kembali yang mampu memecahkan macalah sinomim. Dengan menggunakan Singular Value Decomposition (SVD) pada sebuah term dengan menggunakan matrik frekuensi term dari  dokumen. Dimensi transformasi ruang di-reduce dengan cara memilih nilai singular (singular value)

Atau

Metode Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata.

Pada umumnya, dokumen dikatakan relevan dengan query apabila dokumen :

(1) Memuat kata atau kalimat yang sama dengan query atau

(2) Memuat kata atau kalimat yang bermakna sama dengan query.

Sebagai contoh, terdapat query satu kata yaitu “sulit”. Pada point 1, informasi yang memuat kata “susah” atau “sukar” dinilai tidak relevan karena informasi yang relevan adalah informasi yang memuat kata “sulit”. Sedangkan pada point 2, informasi yang memuat kata “susah” atau “sukar” dinilai relevan karena “susah” atau “sukar” bermakna sama dengan “sulit”.

Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen. Pada proses sebelah kiri, query diproses melalui operasi teks, kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata-dokumen (terms-documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.

Latent Semantic Indexing menggunakan teknik Singular Value Decomposition (SVD) untuk mendekomposisikan matriks term dokumen. Dengan mengurangi ruang term dan dokumen menjadi dimensi yang lebih kecil, SVD menampakkan hubungan yang mendasari term dan dokumen dalam semua kombinasi yang memungkinkan dan membuang noise yang ada pada ruang vektor. Keunggulan metode Singular Value Decomposition yaitu hasil akurasi yang cukup baik tetapi terdapat masalah dalam penyimpanan.

Proses pencarian dengan metode LSI pada sistem ini menerima masukan berupa sebuah keyword yang akan dicari pada dokumen. Pada proses pencarian dengan metode LSI kata-kata yang unik pada setiap dokumen akan direpresentasikan sebagai baris matriks dan dokumen-dokumen akan direpresentasikan sebagai kolom matriks. Nilai dari matriks tersebut adalah banyaknya kemunculan sebuah kata di setiap dokumen yang akan dibandingkan.

 

Keuntungan Latent Semantic Indexing

Keuntungan menggunakan model LSI adalah model ini fully automatic dan tidak menggunakan language expertise, akibatnya panjang vektor dokumen menjadi lebih pendek. Dengan membandingkan Model LSI dengan multidimensional scaling, ternyata ruang dokumen (document space) dengan model LSI lebih optimal pada saat menggunakan inner product similarity function demikian juga dengan menggunakan ukuran kesamaan lainnya.

 

Langkah-Langkah LSI

Text Preprocessing

Preprocessing adalah proses normalisasi teks sehingga informasi yang dimuat merupakan bagian yang padat dan ringkas namun tetap merepresentasikan informasi yang termuat didalamnya

Term-document Matrix

Setelah melalui stopwords removal dan stemming, matriks term-document dibangun dengan menempatkan kata hasil proses stemming (term) ke dalam baris. Matriks ini disebut term-document matrix

Singular Value Decomposition

Singular Value Decomposition (SVD) adalah salah satu teknik reduksi dimensi yang bermanfaat untuk memperkecil nilai kompleksitas dalam pemrosesan term-document matrix

Cosine Similarity Measurement

Cosine similarity digunakan untuk menghitung nilai kosinus sudut antara vektor dokumen dengan vektor kueri.

 

File Presentasi Bisa Download Disini atau Disini

 

Referensi