Achmad Amar Ramadhan – Konsep Dan Prinsip Serta Algoritma Dalam Model Latent Semantic Indexing

PENGKLASIFIKASIAN DOKUMEN BERBAHASA INDONESIA DENGAN PENGINDEKSAN BERBASIS LSI

Achmad Ridok, Indriati

Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 2, No. 2, Oktober 2015, hlm. 87-95

 

General Idea

Pada penelitian ini pendekatan berbasis LSI (latent semantic indexing) digunakan pada KNN untuk mengklasifikasi dokumen berbahasa indonesia.  Metode klasifikasi yang akan dicobakan adalah metode KNN pada berbagai variasi k dan mempertimbangkan nilai ambang frekuensi masing-masing term.

 

Latent Semantic Indexing (LSI)

LSI adalah metode yang digunakan untuk mencari hubungan kata yang mempunyai makna atau semantik tersembunyi. Semantik tersembunyi ini dapat digunakan untuk mencari relasi antar kata berdasarkan makna. Dengan demikian LSI sangat bagus digunakan dalam hal sinonim, namun gagal untuk polisemi (bassil and semaan, 2012). Tujuan utama dari pengindekan LSI adalah untuk mengelompokkan termterm hasil ekstraksi dari dokumen latih dan dokumen uji berdasarkan kesamaan semantik antara term, sehingga termterm yang mempunyai kemiripan semantik dikumpulkan dalam satu kelompok.

LSI merupakan turunan dari teknik VSM yang dalam prosesnya memerlukan tiga tahap yang meliputi pembangunan term document matrix (TDM), pembobotan, dan hasil perangkingan dokumen yang relevan berdasarkan similaritas. LSI akan mereduksi dimensi TDM dari pembobotan matriks kata dan dokumen dengan menggunakan singular value decomposition (SVD)

 

Singular Value Decomposition (SVD)

SVD merupakan sebuah model perkiraan yang digunakan untuk LSA (latent semantic analysis), dimana komponen SVD dapat melakukan dekomposisi matriks sehingga didapatkan nilai dimensi yang lebih rendah (Peter et Al., 2009).

Algoritma Latent Semantic Indexing (LSI)

  1. Lakukan serangkaian praproses yang akan mengubah semua dokumen latih dan dokumen uji masing-masing menjadi matrik A dan B.
  2. Lakukan svd pada matrik a menggunakan persamaan 1. Dengan pemilihan k-rank tertentu akan diperoleh uk hasil reduksi k-rank.
  3. Gunakan persamaan 6 untuk mendapatkan matrik tereduksi representasi dokumen latih. Dalam hal ini q digantikan dengan matrik B sehingga

Proses Indeks Dengan LSI

Proses pengindeksan dengan LSI dilakukan dalam beberapa tahap sebagai berikut (Garcia, 2006):

  1. Gunakan algoritma LSI untuk mendapatkan matrik A’ dan B’ representasi masing-masing document latih dan dokumen uji tereduasi k-rank.
  2. Hitung cosine similaritas persamaan 7 antar dokumen latih dan dokumen uji hasil reduksi berdasarkan matrik tereduksi A’ dan B’, dalam hal ini X merepresentasikan dokumen uji dan dj representasi dokumen latih ke j.

ARSITEKTUR SISTEM

PENGEMBANGAN SISTEM

Berdasarkan Rancangan Sistem Di Atas, Selanjutnya Dikembangkan Sistem Pengklasifikasian Dokumen Dengan Metode KNN Berbasis LSI.

Rancangan tahap praprosesing

Tahap praprosesing tujuan utamanya mengubah representasi data dokumen teks menjadi representasi numerik yang siap untuk diolah lebih lanjut. Pada tahap ini secara umum dapat digambarkan menggunakan flowchart gambar 4 berikut :

Seluruh uji coba juga akan dievaluasi pada praproses stemming dan non stemming untuk mengetahui sensitifitas stemming pada kedua metode. Skenario sistem secara keseluruhan dapat digambarkan sabagaimana flowchart.

HASIL DAN PEMBAHASAN

Sistem dikembangkan dengan bahasa pemrograman java berbasis objek oriented yang disusun dalam class-class dan paket-paket. Organisasi paket-paket disusun sebagaimana pada gambar 6 berikut

Perbandingan waktu running antara stem dan non stem pada KNN LSI

Perbandingan F1 measure antara KNN dengan steming dan KNN tanpa stemming

Perbedaan waktu eksekusi antara KNN LSI dan KNN biasa

Perbandingan Antara KNN Non LSI Dan KNN LSI

KESIMPULAN

Berdasarkan hasil dan pembahasan sebagaimana pada bab 5 maka dapat ditarik beberapa kesimpulan : klasifikasi dokumen berbahasa indonesia dengan menggunakan KNN LSI lebih baik dari KNN non LSI, namun demikian kinerja hasil terbaik ditunjukkan pada KNN LSI non stemming pada threshould 2 sedangkan kinerja terbaik dari sisi waktu dicapai ketika sistem menggunakan KNN LSI dengan stemming pada threshould 5.

Daftar Pustaka

Achmad Ridok. Indriati. 2015.  PENGKLASIFIKASIAN DOKUMEN BERBAHASA INDONESIA DENGAN PENGINDEKSAN BERBASIS LSI .  Jurnal Teknologi Informasi dan Ilmu Komputer (JTIIK) Vol. 2, No. 2, Oktober 2015, hlm. 87-95.

File Presentasi bisa didownload ==>> Disini