DWI NGAFIFUDIN-Materi Akhir Temu Balik Informasi

Temu Kembali Informasi

Tahap pertama adalah preprocessing, di dalam tahap ini terdapat dua tahapan yaitu stop word dan stemming, akandihasilkan daftar kata atau term yang lebih compaq tetapi tetap mewakili dokumenyang sedang diproses. Daftar stop word disimpan di dalam suatu array sedangkan daftar stem dari suatu term disimpan di dalam sebuah tabel. Agar proses stemming berjalan cepat, terutama pada kondisi tidak terdapat perubahan daftar stem, lebih baik daftar stem diletakkan di dalam array

STOPWORD

Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna.  Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google. Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”.  Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.

STEMMING

Adalah proses untuk mencari kata dasar dari sebuah kata. Dengan

menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran(suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi yang baik dan benar.

INDEXING

Indexing merupakan sebuah proses untuk melakukan pengindeksan terhadap kumpulan dokumen yang akan disediakan sebagai informasi kepada pemakai. Proses pengindeksan bisa secara manual ataupun secara otomatis. Dewasa ini, sistem pengindeksan secara manual mulai digantikan oleh sistem pengindeksan otomatis

Adapun tahapan dari pengindeksan adalah sebagai berikut :

  • Parsing Dokumen yaitu proses pengambilan kata-kata dari kumpulan dokumen.
  • Stoplist yaitu proses pembuangan kata buang seperti: tetapi, yaitu, sedangkan, dan sebagainya.
  • Stemming yaitu proses penghilangan/ pemotongan dari suatu kata menjadi bentuk dasar. Kata “diadaptasikan” atau “beradaptasi” mejadi kata “adaptasi” sebagai istilah.
  • Term Weighting dan Inverted File yaitu proses pemberian bobot pada istilah.

PEMBOBOTAN

Di aplikasi ini kami menggunakan algoritma TF-IDF untuk melakukan pembobotan pada setiap kata Pada algoritma TF/IDF digunakan rumus untuk menghitung bobot (W) masing masing dokumen terhadap kata kunci dengan rumus yaitu

                                            dt dt t W = tf * IDF

Dimana:

d = dokumen ke-d

t = kata ke-t dari kata kunci

W = bobot dokumen ke-d terhadap kata ke-t

tf = banyaknya kata yang dicari pada sebuah dokumen

IDF = Inversed Document Frequency

IDF = log2 (D/df)

D = total dokumen

df = banyak dokumen yang mengandung kata yang dicari Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan proses sorting/pengurutan dimana semakin besar nilai W, semakin besar tingkat similaritas dokumen tersebut terhadap kata kunci, demikian sebaliknya. Contoh implementasi sederhana dari TF-IDF adalah sebagai berikut:

Kata kunci (kk) = pengetahuan logistik

Dokumen 1 (D1) = manajemen transaksi logistik

Dokumen 2 (D2) = pengetahuan antar individu

Dokumen 3 (D3) = dalam manajemen pengetahuan terdapat transfer pengetahuan

logistik Jadi jumlah dokumen (D) = 3

Setelah dilakukan tahap tokenizing dan proses filtering, maka kata antar pada dokumen 2 serta kata dalam dan terdapat pada dokumen 3 dihapus. Berikut ini adalah tabel perhitungan TF/IDF

HITUNG PANJANG VEKTOR

digunakan untuk menampilkan daftar panjang vektor dari setiap dokumen Di sini pengguna dapat memasukkan query dan menerima daftar dokumen yang relevan dengan query tersebut. Link Tampilkan Cache dapat digunakan untuk melihat daftar cache (nilai kemiripan dokumen dengan query) berdasarkan query yang telah dikirimkan ke sistem

HITUNG COSIN SIMILARITY

Adalah metode untuk menghitung kemiripan antar kata kunci yang kita cari dengan dokumen yang ada. Cosine similarity merupakan metode yang digunakan untuk menghitug tingkat kesamaan (similarity) antar dua buah objek.

Untuk tujuan klastering dokumen, fungsi yang baik adalah fungsi cosine similarity Untuk notasi himpunan digunakan rumus :

Dimana :

X Y adalah jumlah term yang ada pada

dokumen X dan yang ada pada

dokumen Y

X adalah jumlah term yang ada pada

dokumen X

Y adalah jumlah term yang ada pada

dokumen Y

Download Presentasi

Download Project

Lihat Video Penjelasan di Youtube :

Part1

Part2

Part3