KIKI INDAH S : Materi Latent Semantic Indexing

Metode Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam  IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata.

Latent Semantic Indexing adalah sebuah metode baru dalam algoritma search engine yang sedang dikembangkan Google Corporation. Dengan metode ini, Google menganalisis kata kunci dengan cara baru, bukan lagi berdasarkan pencocokkan kata secara leksikal. Kata yang dicari tidak hanya kata kuncinya saja seperti pada algoritma pada umumnya, tetapi kata-kata yang berhubungan dengan kata kunci juga dicari.

Tujuan dari LSI adalah mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekumpulan objek yang berhubungan.

Alur proses dari metode latent semantic indexing

  1. Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen.
  2. Pada proses sebelah kiri,  query diproses melalui operasi teks, kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi  nilai singular dari koleksi dokumen.
  3. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks katadokumen (terms-documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.

 

Konsep Metode Latent Semantic Indexing (LSI)

  1. Konsep Latent Semantic Indexing (LSI) merupakan metode IR yang membangun struktur koleksi dokumen dalam bentuk ruang vektor dengan menggunakan teknik aljabar linier, yaitu singular value decomposition.
  2. Salah satu model IR system yang paling awal adalah model boolean. Model boolean merepresentasikan dokumen sebagai suatu himpunan kata-kunci (set of keywords). Sedangkan query direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR, dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari model boolean adalah himpunan dokumen yang relevan.

 

Kesimpulan

  1. Metode LSI menghasilkan performansi yang lebih baik daripada metode vektor dalam IR system karena metode LSI memasukkan faktor polisemi dan sinonim dalam komputasi metode LSI. Faktor polisemi dan sinonim diperhitungkan ketika proses pembentukan vektor kata-vektor kata untuk ruang kolom dari matriks kata-dokumen.
  2. Metode Latent Semantic Indexing (LSI), sangat bermanfaat untuk digunakan pada search engine, karena dengan metode ini search engine dapat mencari dokumen yang diinginkan oleh pengguna dengan lebih akurat. Hal ini terbukti pada search engine Google yang mampu menghasilkan pencarian yang akurat dengan pemanfaatan waktu yang lebih sedikit.

 

DOWNLOAD MATERI

Referensi

  1. HENDRA BUNYAMIN, 2005. [ INFORMATION RETRIEVAL  SYSTEM   DENGAN METODE LATENT SEMANTIC INDEXING ]
  2. Edward Ferdian, Rian Hadisaputra, Nurkholis Madjid, 2005. [ PENERAPAN METODE LATENT SEMANTIC INDEXING PADA SEARCH ENGINE ]