Vector Space Models
Suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Query dan dokumen dianggap sebagai vektor-vektor pada ruang n-dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks. Selanjutnya akan dihitung nilai cosinus sudut dari dua vektor, yaitu W dari tiap dokumen dan W dari kata kunci.
Sifat-sifat Vektor
1.Vektor dikatakan sama jika memiliki besar dan arah yang sama
2.Pengurangan vektor dapat dilakukan dengan menjumlahkan dengan vektor negatif
3.Negatif dari suatu vektor memiliki besar yang sama namun berlawanan arah
Kelebihan
- Model yang sedeerhana karena merupakan aljabar linier
- Term Weight tidak biner
- Memungkinkan menghitung berkelanjutan secara bersamaan antara query dan dookumen
- Perengkingan dokumen lebih relevan
- Memungkinkan pencocokan parsial
Kekurangan
- Menghasilkan index yang beerdekatan
- Asumsi yang digunakan adalah independensi indexterm
Besar vektor dokumen berasal dari bobot kata pada dokumen. Pemberian bobot pada kata dapat dilakukan dengan menghitung jumlah kemunclan kata atau term frequency. Semakin besar kemunculan suatu kata, akan semakin besar pula bobot dari kata tersebut.
Terdapat beberapa metode untuk menghitung term frequency suatu kata, yaitu :
- raw tf, menghitung jumlah kemunculan termpada dokumen.
- .logaritmic tf
- binary tf, bobot dihitung berdasarkan ada atau tidak adanya termpada suatu dokumen yang direpresentasikan dengan nilai 0 atau 1
- augmented tfdilakukan dengan memperkecil jarak nilai tf
Contoh
Keyword: kpk dan icw
Dokumen 5 (D5): “ aktivis icw dianiaya aktivis icw, tama satya langkun, dianiaya oleh segerombolan orang yang tak dikenal di kawasan duren tiga, jakarta selatan, kamis dini hari.”
Dokumen 6 (D6) : “ cici tegal dipanggil kpk kpk akan memeriksa pelawak cici tegal dan pesinetron meidiana hutomo terkait dugaan korupsi pengadaan alat rontgen portable di kementerian kesehatan pada 2007.”
Dua dokumen berita tersebut akan melalui proses token untuk menghilangkan tanda baca, angka, dan lainnya. Kemudian dilakukan pembuangan kata-kata yang termasuk stoplist. Tabel 1. adalah hasil stoplist dari contoh dua dokumen berita untuk proses pencarian.
Tabel 1. Kata Stoplist Untuk Pencarian Pada D5 Dan D6
Tabel 2. Kemunculan Kata Pada Dokumen Pencarian Pada D5 Dan D6
Keterangan Tabel 2. adalah sebagai berikut:
q = jumlah term keyword
d = jumlah term dokumen
|q| = akar dari keyword
|d| = akar dari dokumen
tetha = sudut tetha
Maka dari perhitungan VSM, cosine D5 adalah 0.6172 sedangkan cosine D6 adalah 0.2774. Dari hasil akhir cosine tersebut maka dapat diketahui bahwa D5 memiliki tingkat similiritas lebih tinggi dibandingkan D6. Sehingga apabila diurut berdasarkan kemunculannya maka D5 kemudian disusul D6. Hasilnya akan terlihat pada Gambar 1.
Sumber
Pencarian dengan Metode Vektor Space Model (VSM)
http://informatika.stei.itb.ac.id/~rinaldi.munir/AljabarGeometri/2015-2016/Makalah-2015/Makalah-IF2123-2015-095.pdf