Anjas Eko P – Konsep Dasar Dan Metode Serta Model-Model Dalam TBI

A. Konsep Temu Balik Informasi

Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query. Dimana proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive. Proses indexing sendiri meliputi 2 proses, yaitu dokukmen  indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.

Tahap-tahap dalam proses indexing ialah:

  • Word Token / Parsing
  • Stopword Removal / filtering
  • Stemming
  • TF/IDF ( Term Frequency – Inversed Document Frequency )

 

  1. WORD TOKEN / PARSING

Tahap tokenizing disebut juga sebagai parsing yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercas.

  1. STOPWORD REMOVAL / FILTERING

Tahap Stopword Removal atau Filtering adalah proses penghapusan atau pembuangan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya. Atau merupakan tahap pengambilan kata-kata penting dari hasi token.

  1. STEMMING

Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar. Proses stemming dilakukan untuk mendapatkan hasil peringkat halaman informasi yang relevan.

  1. TF/IDF ( Term Frequency – Inversed Document Frequency )

Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency.

B. Model pada Temu Balik Informasi

1.Boolean query

Penelusuran model boolean adalah model penelusuran informasi dimana kita dapat membentuk query berdasarkan aturan boolean dan dikombinasikan dengan operator AND, OR, dan NOT serta menggunakan tanda kurung untuk menentukan scope operator.

Pada proses penelusuran model Boolean, setiap kata dirubah ke dalam ekspresi Boolean sehingga menghasilkan sebuah aturan binary yang disebut incidence matrix. Sehingga variabel nilai bobot istilah indeks selalu bersifat biner (dua pilihan), yaitu nol atau satu. Jika  nilainya satu maka model Boolean menyimpulkan bahwa dokumen relevan terhadap sebuah permintaan (query). Selebihnya, kalau bernilai nol maka dokumen dianggap tidak relevan.

Keuntungan menggunakan Model Boolean :

  • Model Boolean merupakan model sederhana yang menggunakan teori dasar himpunan sehingga mudah diimplementasikan.
  • Model Boolean dapat diperluas dengan menggunakan proximity operator dan wildcard operator.
  • Adanya pertimbangan biaya untuk mengubah software dan struktur database, terutama pada sistem komersil.

Kerugian menggunakan Model Boolean :

  • Model Boolean tidak menggunakan peringkat dokumen yang terambil. Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan boolean/query yang diberikan sehingga dokumen yang terambil bisa sangat banyak atau bisa sedikit. Akibatnya ada kesulitan dalam mengambil keputusan
  • Teori himpunan memang mudah, namun tidak demikian halnya dengan pernyataan Boolean yang bisa kompleks. Akibatnya pengguna harus memiliki pengetahuan banyak mengenai query dengan boolean agar pencarian menjadi efisien
  • Tidak bisa menyelesaikan partial matching pada query

Untuk mengatasi masalah ini, maka dikembangkan operasi pembobotan dokumen berdasarkan frekuensi kemunculan istilah (term) pada dokumen tersebut. Model Boolean juga dikombinasikan dengan content-based navigation dengan menggunakan konsep lattice, dimana shared term dari dokumen yang terambil sebelumnya digunakan untuk memperbaiki dan meng-expand query.

2.Vector query

Vector model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatuquery. Model ruang vektor dibuat berdasarkan pemikiran bahwa isi dari dokumen ditentukan oleh kata-kata yang digunakan dalam dokumen tersebut. Model ini menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query masing-masing ke dalam bentuk vektor. Tiap kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai salah satu elemen vektor

Keuntungan :

  • Efisien
  • Mudah dalam representasi
  • Dapat diimplementasikan pada document-matching

Kerugian :

  • Teoritical Frameworknya tidak jelas
  • Menghasilkan indeks yang berdekatan
  • Asumsi yang digunakan adalah independensi index term

 

3.Probabilitas

Model probabilistik mengasumsikan bahwa setiap dokumen dideskripsikan lewat “ada” atau “tidak ada”nya term indeks. Menggunakan pendugaan probabilistik untuk menentukan dokumen yang relevan dengan keyterm yang diberikan. Kinerjanya lebih efisien dibandingkan dengan model ruang vektor

 

File Presentasi : Download

 

Referensi

https://vajza.wordpress.com/2010/10/13/boolean-model/

https://liyantanto.wordpress.com/2011/06/28/pencarian-dengan-metode-vektor-space-model-vsm/

http://sugengpri.blog.undip.ac.id/files/2013/07/4.-MODEL-TBIE.pdf

http://informationretrievalsystem.blogspot.co.id/2012/07/sistem-temu-kembali-informasi.html