Anjas Eko P – Tugas TBI 5 – Konsep dan Prinsip Serta Algoritma Dalam Model Latent Semantic Indexing

Tugas 5 TBI

 

Nama Kelompok :

Yogi Arif Gunawan S (14.11.0148)
M. Bintang Ariviano (14.11.0151)
Kabul Agus P (14.11.0152)
Lendy Wilyan P (14.11.0154)
Andreana Ferdinand (14.11.0155)
Hendra Irawan (14.11.0156)
Anjas Eko P (14.11.0157)

 

1. Pengertian Algoritma LSI (Latent Semantic Indexing)

Metode temu kembali yang sudah berkembang sebelumnya tidak mampu menangani masalah sinomin dan polysemi. Sinomim adalah kata yang berbeda namun memiliki makna yang sama. Misalnya pengguna menggunakan kata yang berbeda untuk mencari objek yang sama, sebagai contoh kata “car” dan “automobile”. Polysemi adalah kata yang sama, namun memiliki makna yang berbeda, sebagai contoh kata “jaguar” bisa bermakna tipe kendaraan atau nama binatang.

Latent Semantic Indexing (LSI) adalah model temu kembali yang mampu memecahkan macalah sinomim. Dengan menggunakan Singular Value Decomposition (SVD) pada sebuah term dengan menggunakan matrik frekuensi term dari dokumen. Dimensi transformasi ruang direduce dengan cara memilih nilai singular (singular value).

2. Keuntungan Menggunakan Algoritma Latent Semantic Indexing

Keuntungan menggunakan model LSI adalah model ini fully automatic dan tidak menggunakan language expertise, akibatnya panjang vektor dokumen menjadi lebih pendek. Dengan membandingkan Model LSI dengan multidimensional scaling, ternyata ruang dokumen (document space) dengan model LSI lebih optimal pada saat menggunakan inner product similarity function demikian juga dengan menggunakan ukuran kesamaan lainnya.

3. Metode Latent Semantic Indexing

Metode Latent Semantic Indexing (LSI) adalah metode yang diimplementasikan di dalam IR system dalam mencari dan menemukan informasi berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah dokumen bukan hanya makna kata per kata.

Secara keseluruhan alur proses metode Lantent Semantic Indexing (LSI) dapat diilustrasikan dalam gambar berikut :

Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu :

Kolom sebelah kiri yaitu query dan kolom sebelah kanan yaitu, koleksi dokumen. Pada proses sebelah kiri, query diproses melalui operasi teks, kemudian vector query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata dokumen (terms documents matrix) dibentuk, selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata dokumen. Hasil dekomposisi disimpan dalam collection index. Proses ranking dilakukan dengan menghitung relevansi antara vektor queryterpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna. Dalam subbab-subbab berikutnya dibahas mengenai konsep aljabar linier elementer yang mendasari metode.

4. Kelebihan dari Pengindeksan Semantik Latent

Terkadang beberapa pengguna mesin pencari menggunakan keyword yang kurang atau tidak tepat dalam pencarian, karena disebabkan pengetahuan mengenai kosa kata yang sesuai.Oleh sebab itu, menggunakan perkiraan kata yang mungkin dapat membuat informasi bebeda dengan yang dikehendaki, jika proses pencarian mengikuti pola. Akan tetapi, dengan Latent Semantic Indexing memfasilitasi teknik pengambilan dari konten konseptual terkait dan bahkan jika permintaan pencarian tidak menggunakan kata-kata yang ‘benar’.

Perlu diketahui bahwa sejumlah besar kata memiliki beberapa arti atau makna. Jadi, jika pencari menggunakan banyak kata-kata atau kalimatnya panjang, mereka dapat mengurangi kemungkinan mendapatkan informasi yang tepat dengan kebutuhan. Tetapi dengan LSI membantu dalam penyaringan kata-kata yang tidak perlu dari data dan mencoba untuk sampai pada makna rata-rata (sesuai), mendekati arti sesungguhnya dari permintaan pencarian.

5. Contoh Penerapan Algoritma Latent Semantic Indexing Pada Search Engine Milik Google

Latent Semantic Indexing adalah sebuah metode baru dalam algoritma search engine yang sedang dikembangkan Google Corporation. Dengan metode ini, Google menganalisis kata kunci dengan cara baru, bukan lagi berdasarkan pencocokkan kata secara leksikal. Kata yang dicari tidak hanya kata kuncinya saja seperti pada algoritma pada umumnya, tetapi kata-kata yang berhubungan dengan kata kunci juga dicari.

6. Tujuan Latent Semantic Indexing

Tujuan dari LSI adalah mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekunpulan objek yang berhubungan

7. Sumber

http://zero-fisip.web.unair.ac.id/artikel_detail-68838-Digilibigilib:%20Sistem%20Temu%20Kembali%20Informasi.html

http://hbunyamin.itmaranatha.org/Papers/TESIS_hendra_final.pdf

https://ads.id/forums/index.php?threads/sekilas-info-latent-semantic-indexing.37982/

http://informatika.stei.itb.ac.id/~rinaldi.munir/Stmik/Makalah/MakalahStmik37.pdf

8. Download

File Presentasi