Cahya Aditya P – Konsep dan Model Temu Balik Informasi

Konsep dan Model Temu Balik Informasi

Pembahasan kali ini kami akan membahas Konsep dan Model Temu Balik Informasi, berikut ini pembahasan yang akan kami sampaikan diantaranya :

Seperti apa Konsep dalam Temu Balik Informas kemudian Tahapan – tahapan dalam proses indexing,
didalam tahapan – tahapan dalam proses indexing terdapat beberapa point yang akan kami bahas dari Word Token / Parsing, Stopword Removal / filtering, Stemming, TF/IDF ( Term Frequency – Inversed Document Frequency ), kemudian dalam Model Temu Balik Informasi ada beberapa point juga yang akan kami bahas Model Boolean, Vector Space Model, Probabilistic pembahasan dari point tersebut mencangkup keuntungan, kerugian dari point yang disebutkan tadi. Dibawah ini adalah pembahasan yang lebih detail.

 

A. Konsep dalam Temu Balik Informasi

Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query.

Dimana proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive.

Proses indexing sendiri meliputi 2 proses, yaitu dokukmen  indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.

 

Tahap-tahap dalam proses indexing ialah

  1. Word Token / Parsing
  2. Stopword Removal / filtering
  3. Stemming
  4. TF/IDF ( Term Frequency – Inversed Document Frequency )

 

1. Word Token / Parsing

Tahap tokenizing disebut juga sebagai parsing Yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercas.

 

2. Stopword Removal / filtering

Tahap Stopword Removal atau Filtering adalah Proses penghapusan atau pembuangan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya.

Atau merupakan tahap pengambilan kata-kata penting dari hasi token.

 

3. Stemming

Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.

Proses stemming dilakukan untuk mendapatkan  hasil peringkat halaman informasi yang relevan.

 

4. TF/IDF ( Term Frequency – Inversed Document Frequency )

Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency.

 

B. Model dalam Temu Balik Informasi

Model dalam temu balik informasi terbagi menjadi 3 bagian :

  1. Model Boolean
  2. Vector Space Model
  3. Probabilistic

 

1. Model Boolean

  • Merupakan model yang paling sederhana
  • Berdasarkan teori himpunan dan aljabar Boolean
  • Model ini menggunakan operator boolean yaitu AND, OR atau NOT
  • Metode ini merupakan metode yang paling sering digunakan pada mesin penelusur ( search  engine) karena kecepatannya

Keuntungan Model Boolean

  • Merupakan model sederhana sehingga mudah diimplementasikan
  • Berguna bagi pengguna yang tidak memiliki pengetahuan banyak mengenai formulasi kueri
  • Efisien

Kerugian Model Boolean

  • Tidak ada peringkat dokumen
  • Tidak mendukung partial matching
  • Secara keseluruhan tergantung kepada definisi keyterm dan pembobotan
  • Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan boolean/kueri yang diberikan

 

C. Model Ruang Vektor

  • Model vektor berdasarkan keyterm
  • Model vektor mendukung partial matching dan penentuan peringkat dokumen

Konsep Model Ruang Vektor

  • Model ruang vektor dibuat berdasarkan pemikiran bahwa isi dari dokumen ditentukan oleh kata-kata yang digunakan dalam dokumen tersebut.
  • Model ini menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query masing-masing ke dalam bentuk vektor.
  • Tiap kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai salah satu elemen vektor

Keuntungan & Kerugian Model Ruang Vektor

Keuntungan

  • Efisien
  • Mudah dalam representasi
  • Dapat diimplementasikan pada document-matching

Kerugian

  • Teoritical Frameworknya tidak jelas
  • Menghasilkan indeks  yang berdekatan
  • Asumsi yang digunakan adalah independensi index term

 

Sumber :

http://informationretrievalsystem.blogspot.co.id/2012/07/sistem-temu-kembali-informasi.html

http://sugengpri.blog.undip.ac.id/file/2013/07/4.-MODEL-TBIE.pdf

File Presentasi : https://drive.google.com/file/d/0B12H5woWdXxMMlpKWlN5UUVKNVU/view?usp=sharing