Temu Kembali Informasi
Tahap pertama adalah preprocessing, di dalam tahap ini terdapat dua tahapan yaitu stop word dan stemming, akandihasilkan daftar kata atau term yang lebih compaq tetapi tetap mewakili dokumenyang sedang diproses. Daftar stop word disimpan di dalam suatu array sedangkan daftar stem dari suatu term disimpan di dalam sebuah tabel. Agar proses stemming berjalan cepat, terutama pada kondisi tidak terdapat perubahan daftar stem, lebih baik daftar stem diletakkan di dalam array
STOPWORD
Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google. Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.
STEMMING
Adalah proses untuk mencari kata dasar dari sebuah kata. Dengan
menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran(suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi yang baik dan benar.
INDEXING
Indexing merupakan sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai. Proses pengindeksan bisa secara manual ataupun secara otomatis. Dewasa ini, sistem pengindeksan secara manual mulai digantikan oleh sistem pengindeksan otomatis
Adapun tahapan dari pengindeksan adalah sebagai berikut :
- Parsing Dokumen yaitu proses pengambilan kata-kata dari kumpulan dokumen.
- Stoplist yaitu proses pembuangan kata buang seperti: tetapi, yaitu, sedangkan, dan sebagainya.
- Stemming yaitu proses penghilangan/ pemotongan dari suatu kata menjadi bentuk dasar. Kata “diadaptasikan” atau “beradaptasi” mejadi kata “adaptasi” sebagai istilah.
- Term Weighting dan Inverted File yaitu proses pemberian bobot pada istilah.
PEMBOBOTAN
Di aplikasi ini kami menggunakan algoritma TF-IDF untuk melakukan pembobotan pada setiap kata Pada algoritma TF/IDF digunakan rumus untuk menghitung bobot (W) masing masing dokumen terhadap kata kunci dengan rumus yaitu
dt dt t W = tf * IDF
Dimana:
d = dokumen ke-d
t = kata ke-t dari kata kunci
W = bobot dokumen ke-d terhadap kata ke-t
tf = banyaknya kata yang dicari pada sebuah dokumen
IDF = Inversed Document Frequency
IDF = log2 (D/df)
D = total dokumen
df = banyak dokumen yang mengandung kata yang dicari Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses sorting/pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, demikian sebaliknya. Contoh implementasi sederhana dari TF-IDF adalah sebagai berikut:
Kata kunci (kk) = pengetahuan logistik
Dokumen 1 (D1) = manajemen transaksi logistik
Dokumen 2 (D2) = pengetahuan antar individu
Dokumen 3 (D3) = dalam manajemen pengetahuan terdapat transfer pengetahuan
logistik Jadi jumlah dokumen (D) = 3
Setelah dilakukan tahap tokenizing dan proses filtering, maka kata antar pada dokumen 2 serta kata dalam dan terdapat pada dokumen 3 dihapus. Berikut ini adalah tabel perhitungan TF/IDF
HITUNG PANJANG VEKTOR
digunakan untuk menampilkan daftar panjang vektor dari setiap dokumen Di sini pengguna dapat memasukkan query dan menerima daftar dokumen yang relevan dengan query tersebut. Link Tampilkan Cache dapat digunakan untuk melihat daftar cache (nilai kemiripan dokumen dengan query) berdasarkan query yang telah dikirimkan ke sistem
HITUNG COSIN SIMILARITY
Adalah metode untuk menghitung kemiripan antar kata kunci yang kita cari dengan dokumen yang ada. Cosine similarity merupakan metode yang digunakan untuk menghitug tingkat kesamaan (similarity) antar dua buah objek.
Untuk tujuan klastering dokumen, fungsi yang baik adalah fungsi cosine similarity Untuk notasi himpunan digunakan rumus :
Dimana :
X Y adalah jumlah term yang ada pada
dokumen X dan yang ada pada
dokumen Y
X adalah jumlah term yang ada pada
dokumen X
Y adalah jumlah term yang ada pada
dokumen Y
Lihat Video Penjelasan di Youtube :