TBI Latent Semantic Indexing : Dian Santosa

Latent Semantic Indexing

sebuah metode baru dalam algoritma search engine yang sedang dikembangkan Google Corporation. Dengan metode ini, Google menganalisis kata kunci dengan cara baru, bukan lagi berdasarkan pencocokkan kata secara leksikal. Kata yang dicari tidak hanya kata kuncinya saja seperti pada algoritma pada umumnya, tetapi kata-kata yang berhubungan dengan kata kunci juga dicari.

Metode Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata.

Tujuan LSI

mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekunpulan objek yang berhubungan.

Konsep LSI

  • Text Operations pada Query dan Document Collection.

Query dari pengguna dan koleksi dokumen dikenakan proses text operations. Proses text operations meliputi,

  • Matrix Creation.

Hasil text operations yang dikenakan pada koleksi dokumen dikenakan proses matrix creation.

  • SVD Decomposition.
  • Query Vector Creation.

Vektor query, q dibentuk seperti membangun sebuah kolom dari matriks kata-dokumen

Alur Proses

dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen. Pada proses sebelah kiri, query diproses melalui operasi teks, 17 kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks katadokumen (terms-documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna.

PPT bisa di unduh

DOWNLOAD

Sumber :

 

http://informatika.stei.itb.ac.id/~rinaldi.munir/Stmik/Makalah/MakalahStmik37.pdf

http://informatika.stei.itb.ac.id/~rinaldi.munir/Stmik/Makalah/MakalahStmik37.pdf

http://id.affdu.com/latent-semantic-indexing.html

Http://hbunyamin.itmaranatha.org/Papers/TESIS_hendra_final.pdf