- Latent Semantic Indexing (LSI)
Latent Semantic Indexing (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang disebut dekomposisi nilai singular (SVD) untuk mengidentifikasi pola-pola dalam hubungan antara istilah dan konsep yang terkandung dalam koleksi terstruktur dari teks. LSI didasarkan pada prinsip bahwa kata-kata yang digunakan dalam konteks yang sama cenderung memiliki makna yang sama.
LSI juga digunakan untuk melakukan kategorisasi dokumen secara otomatis, LSI menggunakan teknik aljabar linear untuk mempelajari kelerasi konseptual dalam kumpulan teks, secara umum, prosesnya meliputi pembuatan matrik kata dokumen berbobot, melakukan dekomposisi nilai singular pada matrik, dan menggunakan matrik untuk mengidentifikasi konsep-konsep yang terkandung di dalam teks.
- Konsep Latent Semantic Indexing
Konsep Latent Semantic Indexing (LSI) merupakan metode IR yang membangun struktur koleksi dokumen dalam bentuk ruang vektor dengan menggunakan teknik aljabar linier, yaitu singular value decomposition. Secara umum, konsep LSI meliputi beberapa point seperti dilustrasikan pada gambar berikut yaitu:
1. Text Operations pada Query dan Document Collection.
Query dari pengguna dan koleksi dokumen dikenakan proses text operation. Proses text operation meliputi,
- Memparsing setiap kata darinkoleksi dokument,
- Membuang kata-kata yang merupakan stop words,
- Memsteaming kata-kata yang ada untuk proses selanjutnya.
2. Matrix Creation.
Hasil text operations yang dikenakan pada koleksi dokumen dikenakan proses matrix creation. Proses matrix creation meliputi,
- Menghitung frekuensi kemunculan dari kata,
- Membangun matriks kata dokumen, baris matrik menunjukan kata dan kolom matriks menunjukan dokumen.
3. SVD decomposition
- Matriks kata-dokumen yang terbentuk, A berukuran m x n selanjutnya dikenakan dekmosisi SVD (singular value decomposition) haso; SVD berupa 3 (tiga) buah matriks.
4. Query Vector Creation
Vektor query, q dibentuk membangun sebuah kolom kata-dokumen.
Contoh vektor query, q adalah
Dengan q j , j=1,2,…,m adalah frekuensi kemunculan kata Tj pada Query.
5. Query Vector Mapping
6. Ranking
Ranking dari dokumen relevan ditentukan oleh besar sudut yang dibentuk oleh vektor query dan vektor dokumen, semakn kecil sudut yang dibentuk, semakin relevan query dengan dokumen misalkan Vr ditulis
D j , j =1, 2,K, n adalah vektor dokumen untuk dokumen ke- j.
7. Hasil akhir
3. Prinsip Latent Semantic Indexing
Latent Semantic Indexing (LSI) secara sederhana dengan cara mendeskripsikan proses algoritma yang digunakan oleh search engine untuk mengidentifikasi kata-kata yang berhubungan.
Menurut SEMPO, Latent semantic indexing menggunakan asosisasi kata untuk membantu search engine mengetahui apa yang ada di halaman web dengan lebih akurat. Pada dasarnyaLSI adalah sebuah prinsip algoritma yang digunakan serach engine untuk memproses persamaan kata atau sinonim dan memahami hubungan antar kata.
- Algoritma LSI
1. Algoritma LSI
Algoritma LSI Dilakukan beberapa tahapan untuk melakukan LSI pada dokumen latih dan dokumen uji,
- Tahap 1 : lakukan serangkaian praproses yang akan mengubah semua dokumen uji dan dokumen latih, masing-masing matriks A dan B.
- Tahap 2 : lakukan SVD pada matrik A menggunakan persamaan 1. Dengan pemilihan k-tertentu akan memperoleh Uk hasil reduksi k-rank.
- Tahap 3 : gunakan persamaan 6 untuk mendapatkan matrik tereduksi reoresentase dokumen latih.
Dengan demikian bahwa Persamaan 1 dan persamaan 6 dapat dituliskan dengan rumus sebagai berikut :
Persamaan 1
Dengan keterangan :
A = Matriks A : dari TDM pembobotan corpus
U = Matriks U hasil dekomposisi SVD matriks A
S = Matriks singular hasil dekomposisi SVD matriks A
VT = Matriks V transpose
Persamaan 6
Dengan Keterangan :
q’ = query vector representasi dari LSI
qT = transpose dari TDM dari pembobotan ternormalisasi TF-IDF query
Uk = reduksi dimensi k dari matriks U
Sk-1 = inverse dari reduksi dimensi k matriks S
2. Algoritma SVD
LSI menggunakan SVD (Singular Value Decomposition) untuk memodelkan asosiatif antara term. Ide dasar SVD adalah menerima kumpulan data dengan dimensi dan variabel tinggi serta mengurangi ke dalam ruang dimensi yang berukuran lebih kecil untuk menampakan lebih jelas sub struktur dari data asli dan mengurutkanya mulai dari bervariasi sampai dengan tidak bervariasi.
File Presentasi : LSI
Daftar Pustaka
M.Zudha Ghofur.Pengelompokan surat elektronik secara semantik, hirarki dan langsung pada basis data arsip email http://etd.repository.ugm.ac.id/index.php?mod=download&sub=DownloadFile&act=view&typ=html&id=73694&ftyp=potongan&potongan=S2-2014-279229-tableofcontent.pdf
Achmad ridok.2015.Pengklasifikasian dokumen berbahasa indonesia dengan pengindeksan berbasis lsi http://jtiik.ub.ac.id/index.php/jtiik/article/viewFile/136/pdf
Ydigital,2016,”Latent Semantic Index” http://ydigital.asia/ID/latent-semantic-indexing-tingkatkan-kualitas-keyword/ (diakses tanggal 27 mei 2017)
Metode-algoritma,2013,”Algoritma LSI(Latent Semantic Indexing)” http://www.metode-algoritma.com/2013/06/contoh-algoritma-lsi-latent-semantic.html (diakses tanggal 27 mei 2017)