Cahya Aditya P – Konsep dan Model Temu Balik Informasi

Konsep dan Model Temu Balik Informasi

Pembahasan kali ini kami akan membahas Konsep dan Model Temu Balik Informasi, berikut ini pembahasan yang akan kami sampaikan diantaranya :

Seperti apa Konsep dalam Temu Balik Informas kemudian Tahapan – tahapan dalam proses indexing,
didalam tahapan – tahapan dalam proses indexing terdapat beberapa point yang akan kami bahas dari Word Token / Parsing, Stopword Removal / filtering, Stemming, TF/IDF ( Term Frequency – Inversed Document Frequency ), kemudian dalam Model Temu Balik Informasi ada beberapa point juga yang akan kami bahas Model Boolean, Vector Space Model, Probabilistic pembahasan dari point tersebut mencangkup keuntungan, kerugian dari point yang disebutkan tadi. Dibawah ini adalah pembahasan yang lebih detail.

A. Konsep dalam Temu Balik Informasi

Konsep dasar dalam Information Retrieval System terdiri dari Indexing, Searching dan perengkingan relevansi keyword query.

Dimana proses indexing dilakukan untuk membentuk database index terhadap koleksi dokumen yang dimasukkan, atau dengan kata lain, indexing merupakan proses persiapan yang dilakukan terhadap dokumen sehingga dokumen siap untuk retrive.

Proses indexing sendiri meliputi 2 proses, yaitu dokukmen indexing dan term indexing. Dari term indexing akan dihasilkan koleksi kata yang akan digunakan untuk meningkatkan performansi pencarian pada tahap selanjutnya.

Tahap-tahap dalam proses indexing ialah

Word Token / Parsing
Stopword Removal / filtering
Stemming
TF/IDF ( Term Frequency – Inversed Document Frequency )

1. Word Token / Parsing

Tahap tokenizing disebut juga sebagai parsing Yaitu pengambilan kata-kata (term) dari kumpulan dokumen menjadi kumpulan term dengan cara menghapus karakter tanda baca yang terdapat pada dokumen dan mengubah kumpulan term menjadi lowercas.

2. Stopword Removal / filtering

Tahap Stopword Removal atau Filtering adalah Proses penghapusan atau pembuangan kata-kata yang sering ditampilkan dalam dokumen seperti: and, or, not, tetapi, yang, sedangkan dan sebagainya.

Atau merupakan tahap pengambilan kata-kata penting dari hasi token.

3. Stemming

Proses stemming adalah proses pembuangan prefix dan sufix suatu kata bentukan menjadi kata dasar.

Proses stemming dilakukan untuk mendapatkan hasil peringkat halaman informasi yang relevan.

4. TF/IDF ( Term Frequency – Inversed Document Frequency )

Metode TF/IDF adalah merupakan suatu metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency dan inverse document frequency.

B. Model dalam Temu Balik Informasi

Model dalam temu balik informasi terbagi menjadi 3 bagian :

Model Boolean
Vector Space Model
Probabilistic

1. Model Boolean

Merupakan model yang paling sederhana
Berdasarkan teori himpunan dan aljabar Boolean
Model ini menggunakan operator boolean yaitu AND, OR atau NOT
Metode ini merupakan metode yang paling sering digunakan pada mesin penelusur ( search engine) karena kecepatannya

Keuntungan Model Boolean

Merupakan model sederhana sehingga mudah diimplementasikan
Berguna bagi pengguna yang tidak memiliki pengetahuan banyak mengenai formulasi kueri
Efisien

Kerugian Model Boolean

Tidak ada peringkat dokumen
Tidak mendukung partial matching
Secara keseluruhan tergantung kepada definisi keyterm dan pembobotan
Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan boolean/kueri yang diberikan

C. Model Ruang Vektor

Model vektor berdasarkan keyterm
Model vektor mendukung partial matching dan penentuan peringkat dokumen

Konsep Model Ruang Vektor

Model ruang vektor dibuat berdasarkan pemikiran bahwa isi dari dokumen ditentukan oleh kata-kata yang digunakan dalam dokumen tersebut.
Model ini menentukan kemiripan (similarity) antara dokumen dengan query dengan cara merepresentasikan dokumen dan query masing-masing ke dalam bentuk vektor.
Tiap kata yang ditemukan pada dokumen dan query diberi bobot dan disimpan sebagai salah satu elemen vektor

Keuntungan & Kerugian Model Ruang Vektor

Keuntungan

Efisien
Mudah dalam representasi
Dapat diimplementasikan pada document-matching

Kerugian

Teoritical Frameworknya tidak jelas
Menghasilkan indeks yang berdekatan
Asumsi yang digunakan adalah independensi index term

Sumber :

http://informationretrievalsystem.blogspot.co.id/2012/07/sistem-temu-kembali-informasi.html

http://sugengpri.blog.undip.ac.id/file/2013/07/4.-MODEL-TBIE.pdf

File Presentasi : https://drive.google.com/file/d/0B12H5woWdXxMMlpKWlN5UUVKNVU/view?usp=sharing

Temu Balik Informasi

Tags: Kerugian Model Boolean, Keuntungan & Kerugian Model Ruang Vektor, Keuntungan Model Boolean, Konsep dalam Temu Balik Informasi, Konsep dan Model Temu Balik Informasi, Konsep Model Ruang Vektor, Model dalam Temu Balik Informasi, Model Ruang Vektor, Tahapan - tahapan dalam proses indexing

Hirup Motekar

Cahya Aditya P – Konsep dan Model Temu Balik Informasi

Leave a Reply Cancel reply

Recent Posts

Recent Comments

Archives

Categories

Meta

Hirup Motekar

Recent Posts

KULIAH ONLINE PEMROGRAMAN MOBILE 1 – PERTEMUAN 6

RENCANA PERKULIAHAN

KULIAH ONLINE PEMROGRAMAN MOBILE 1 – PERTEMUAN 4

RENCANA PERKULIAHAN

Contact Info