TBI18-TI15C-P6-VECTOR SPACE MODEL-EKO PRASETYO

Vector Space Models

Suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Selanjutnya akan dihitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci.

 

Sifat-sifat Vektor

1.Vektor dikatakan sama jika memiliki besar dan arah yang sama

2.Pengurangan vektor dapat  dilakukan dengan menjumlahkan dengan vektor negatif

3.Negatif dari suatu vektor memiliki besar yang sama namun berlawanan arah

 

Kelebihan

  1. Model yang sedeerhana karena merupakan aljabar linier
  2. Term Weight tidak biner
  3. Memungkinkan menghitung berkelanjutan secara bersamaan antara query dan dookumen
  4. Perengkingan dokumen lebih relevan
  5. Memungkinkan pencocokan parsial

Kekurangan

  1. Menghasilkan index yang beerdekatan
  2. Asumsi yang digunakan adalah independensi indexterm

 

Besar  vektor  dokumen  berasal  dari  bobot  kata  pada  dokumen. Pemberian bobot  pada  kata  dapat  dilakukan dengan  menghitung  jumlah  kemunclan  kata  atau term frequency.  Semakin  besar kemunculan  suatu  kata,  akan semakin  besar  pula  bobot  dari  kata  tersebut.

Terdapat beberapa metode untuk menghitung term frequency suatu kata, yaitu :

  1. raw tf, menghitung jumlah kemunculan termpada dokumen.
  2. .logaritmic tf
  3. binary tf, bobot dihitung berdasarkan ada atau tidak adanya termpada suatu dokumen yang direpresentasikan dengan nilai 0 atau 1
  4. augmented tfdilakukan dengan memperkecil jarak nilai tf

Contoh

Keyword: kpk dan icw

Dokumen 5 (D5): “ aktivis icw dianiaya aktivis icw, tama satya langkun, dianiaya oleh segerombolan orang yang tak dikenal di kawasan duren tiga, jakarta selatan, kamis dini hari.”

Dokumen 6 (D6) : “ cici tegal dipanggil kpk kpk akan memeriksa pelawak cici tegal dan pesinetron meidiana hutomo terkait dugaan korupsi pengadaan alat rontgen portable di kementerian kesehatan pada 2007.”

Dua dokumen berita tersebut akan melalui proses token untuk menghilangkan tanda baca, angka, dan lainnya. Kemudian dilakukan pembuangan kata-kata yang termasuk stoplist. Tabel 1. adalah hasil stoplist dari contoh dua dokumen berita untuk proses pencarian.

Tabel 1. Kata Stoplist Untuk Pencarian Pada D5 Dan D6

Tabel 2. Kemunculan Kata Pada Dokumen Pencarian Pada D5 Dan D6

Keterangan Tabel 2. adalah sebagai berikut:
q = jumlah term keyword
d = jumlah term dokumen
|q| = akar dari keyword
|d| = akar dari dokumen
tetha = sudut tetha
Maka dari perhitungan VSM, cosine D5 adalah 0.6172 sedangkan cosine D6 adalah 0.2774. Dari hasil akhir cosine tersebut maka dapat diketahui bahwa D5 memiliki tingkat similiritas lebih tinggi dibandingkan D6. Sehingga apabila diurut berdasarkan kemunculannya maka D5 kemudian disusul D6. Hasilnya akan terlihat pada Gambar 1.

 

Sumber

Pencarian dengan Metode Vektor Space Model (VSM)

http://informatika.stei.itb.ac.id/~rinaldi.munir/AljabarGeometri/2015-2016/Makalah-2015/Makalah-IF2123-2015-095.pdf

 

LinkDownload