Konsep dan Model Temu Balik Informasi
Pembahasan kali ini kami akan membahas Konsep dan Model Temu Balik Informasi, berikut ini pembahasan yang akan kami sampaikan diantaranya :
Seperti apa Konsep dalam Temu Balik Informas kemudian Tahapan – tahapan dalam proses indexing,
didalam tahapan – tahapan dalam proses indexing terdapat beberapa point yang akan kami bahas dari Word Token / Parsing, Stopword Removal / filtering, Stemming, TF/IDF ( Term Frequency – Inversed Document Frequency ), kemudian dalam Model Temu Balik Informasi ada beberapa point juga yang akan kami bahas Model Boolean, Vector Space Model, Probabilistic pembahasan dari point tersebut mencangkup keuntungan, kerugian dari point yang disebutkan tadi. Dibawah ini adalah pembahasan yang lebih detail.
A. Konsep dalam Temu Balik Informasi
Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query.
Dimana proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive.
Proses indexing sendiri meliputi 2 proses, yaitu dokukmen indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.
Tahap-tahap dalam proses indexing ialah
- Word Token / Parsing
- Stopword Removal / filtering
- Stemming
- TF/IDF ( Term Frequency – Inversed Document Frequency )
1. Word Token / Parsing
Tahap tokenizing disebut juga sebagai parsing Yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercas.
2. Stopword Removal / filtering
Tahap Stopword Removal atau Filtering adalah Proses penghapusan atau pembuangan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya.
Atau merupakan tahap pengambilan kata-kata penting dari hasi token.
3. Stemming
Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.
Proses stemming dilakukan untuk mendapatkan hasil peringkat halaman informasi yang relevan.
4. TF/IDF ( Term Frequency – Inversed Document Frequency )
Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency.
B. Model dalam Temu Balik Informasi
Model dalam temu balik informasi terbagi menjadi 3 bagian :
- Model Boolean
- Vector Space Model
- Probabilistic
1. Model Boolean
- Merupakan model yang paling sederhana
- Berdasarkan teori himpunan dan aljabar Boolean
- Model ini menggunakan operator boolean yaitu AND, OR atau NOT
- Metode ini merupakan metode yang paling sering digunakan pada mesin penelusur ( search engine) karena kecepatannya
Keuntungan Model Boolean
- Merupakan model sederhana sehingga mudah diimplementasikan
- Berguna bagi pengguna yang tidak memiliki pengetahuan banyak mengenai formulasi kueri
- Efisien
Kerugian Model Boolean
- Tidak ada peringkat dokumen
- Tidak mendukung partial matching
- Secara keseluruhan tergantung kepada definisi keyterm dan pembobotan
- Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan boolean/kueri yang diberikan
C. Model Ruang Vektor
- Model vektor berdasarkan keyterm
- Model vektor mendukung partial matching dan penentuan peringkat dokumen
Konsep Model Ruang Vektor
- Model ruang vektor dibuat berdasarkan pemikiran bahwa isi dari dokumen ditentukan oleh kata-kata yang digunakan dalam dokumen tersebut.
- Model ini menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query masing-masing ke dalam bentuk vektor.
- Tiap kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai salah satu elemen vektor
Keuntungan & Kerugian Model Ruang Vektor
Keuntungan
- Efisien
- Mudah dalam representasi
- Dapat diimplementasikan pada document-matching
Kerugian
- Teoritical Frameworknya tidak jelas
- Menghasilkan indeks yang berdekatan
- Asumsi yang digunakan adalah independensi index term
Sumber :
http://informationretrievalsystem.blogspot.co.id/2012/07/sistem-temu-kembali-informasi.html
http://sugengpri.blog.undip.ac.id/file/2013/07/4.-MODEL-TBIE.pdf
File Presentasi : https://drive.google.com/file/d/0B12H5woWdXxMMlpKWlN5UUVKNVU/view?usp=sharing