Asfan Syaiful Umam – Model Latent Semantic Indexing (LSI)

Pengertian

  1. Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata.
  2. LSI merupakan sebuah metode automotic indexing dan retrival dengan memanfaatkan semantic structure (struktur asosiasi terms dengan dokumen) yang secara implisit terdapat dalam suatu dokumen yang relevan dengan trems dalam query.

Metode Latent Semantic Indexing (LSI)

  1. Metode LSI mengansumsikan bahwa terdapat sebuah latent semantic structure, yaitu sebuah struktur semantik yang tersembunyi (latent) dalam setiap dokumen, yang tidak jelas karena keberagaman pemakaian kata dalam penulisan dokumen tersebut (noise).
  2. LSI menggunakan teknik-teknik statistik untuk mendapatkan latent structure dan menghilangkan noise yang ada.
  3. Dan deskripsi dari terms dan dokumen-dokumen berdasarkan latent semantic structure digunakan untuk proses indexing dan retrival.

Contoh Implementasi

Pada 28 Desember 2006 Google mengajukan aplikasi penemuan baru berjudul “Mendeteksi spam dokumen dalam frase pencarian informasi berdasarkan sistem”. Penemunya adalah Anna Lynn Patterson (Insinyur Google), dan kutipannya dalam bahasa Indonesia :
“Sebuah sistem pencarian informasi menggunakan frase untuk mengindeks, mengambil, mengatur dan menjelaskan dokumen. Frase yang teridentifikasi memprediksi kehadiran frasa lain dalam dokumen. Dokumen yang terindeks sesuai dengan frase. Sebuah dokumen spam diidentifikasi berdasarkan pada jumlah frase terkait dalam dokumen.“

Artinya:
Penemuan ini membuat algoritma mesin pencari akan mengindeks dan menilai “relevansi” dari halaman web, untuk menentukan kehadiran frase yang berhubungan dengan isi pokok dari suatu halaman web. Jadi Ide dari konsep LSI adalah untuk mengumpulkan data yang mirip (relevan) konseptual dalam makna dan konteks, untuk permintaan pencarian yang dimasukkan oleh para pencari di Search Engine. Latent semantic analisis (LSA), mengotomatiskan proses mengkategorikan dokumen hampir seperti cara yang manusia lakukan. Teks yang dipilih mungkin tidak memiliki kata-kata atau kalimat yang sama.

Alur proses metode Latent Semantic Indexing (LSI)

Alur proses metode Latent Semantic Indexing (LSI) dapat diilustrasikan dalam gambar berikut:

Alur proses:

  1. Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen.
  2. Pada proses sebelah kiri, query diproses melalui operasi teks, kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector).
  3. Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen.
  4. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata dokumen (terms-documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen.
  5. Hasil dekomposisi disimpan dalam collection index.
  6. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index.
    Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.

Referensi

Muhammad, Sukmawati, dan Beta Noranita. SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN MENGGUNALAN METODE LATENT SEMANTIC INDEXING. Jurnal Masyarakat Informatika, Volume 3, Nomor 5, ISSN 2086-4930.
Hendra Bunyamin. INFORMATION RETRIVAL SYSTEM DENGAN METODE LATENT SEMANTIC INDEXING. TESIS Karya tulis untuk memperoleh gelar Magister Institut Teknoligi Bandung.

Download ppt