Anggota Kelompok :
- Ana Rofiqoh
- Ahmad Yahya Asy-Syidqie
- Dodi Taruna B
- Fadhel Widya R
- Rizky Arif Fauzi
- Reza Agus A.P
Model probabilistic memodelkan setiap kata dalam sebuah dokumen sebagai jawaban dari setiap kata dalam query yang ingin dicari. Setiap kata dalam query dianggap pasti akan memiliki kata yang sama dalam dokumen.
– Dengan kalimat lain, setiap kata dalam query diinisialisasi memiliki kemungkinan pasti ada dengan dokumen yang tersedia dan setiap kemungkinan tersebut akan diindeks yang disebut dengan term frequency sesuai banyaknya kata pada sebuah dokumen yang dikenal dengan istilah inverted document frequency (idf) sebagai acuan perankingan dokumen yang akan ditampilkan. Hal ini menjelaskan bahwa kemampuan lain dari model ini selain mampu melakukan perangkingan I-2 dokumen, model ini juga mampu melakukan partial matching query dengan dokumen yang dianggap sesuai. (Fuhr,1992)
didefinisikan sebagai tindakan, metode dan prosedur untuk menemukan kembali data yang tersimpan, kemudian menyediakan informasi mengenai subyek yang dibutuhkan.
– Tindakan tersebut mencakup text indexing, inquiry analysis, dan relevance analysis. Data mencakup teks, tabel, gambar, ucapan, video, dan lainnya serta informasi termasuk pengetahuan terkait yang dibutuhkan untuk mendukung penyelesaian masalah dan akuisisi pengetahuan (Cios dkk, 2007).
– Tujuan utama dalam information retrieval adalah memenuhi kebutuhan informasi pengguna (user) dengan me-retrieve semua dokumen yang relevan, dan tidak me-retrieve dokumen yang tidak relevan. Dalam sistem IR digunakan fungsi heuristik untuk mendapatkan dokumen-dokumen yang relevan dengan query pengguna sehingga dokumen-dokumen tersebut dapat ditampilkan terurut berdasarkan nilai relevansinya terhadap query (perangkingan dokumen).
Model probabilistik adalah model sistem temu kembali informasi yang mengurutkan dokumen dalam urutan menurun terhadap peluang relevansi sebuah dokumen terhadap informasi yang dibutuhkan.
– Beberapa model yang juga dikembangkan berdasarkan perhitungan probabilistik yaitu, Binary Independence Model, model Okapi BM25, dan Bayesian Network Model (Manning dkk, 2009).
Konsep penerapan model dengan metode probabilistic binary independence
– Koleksi Dokumen (Corpus)
– Text Operation terhadap koleksi dokumen
– Tokenisasi yaitu proses pemisahan kata.
Tokenisasi yang dilakukan akan menghasilkan potongan kata IV-3 tunggal (term) yang nantinya akan diindeks. Dalam proses ini juga dilakukan penghapusan karakter-karakter tertentu, yaitu tanda baca serta mengubah semua kata (term) ke bentuk huruf kecil (lowercase).
– Linguistic preprocessing.
Penghapusan stop-words. dimana term/kata-kata yang dianggap umum akan diabaikan dalam proses indexing, Karena itu, term tersebut dihapus dari dalam dokumen.
– stopword adalah kata-kata buang yang tidak akan digunakan sebagai istilah indeks. Stopword sangat diperlukan dalam sistem temu kembali informasi karena kata-kata penghubung yang diinputkan pada query dianggap tidak perlu karena hanya akan memperlambat kinerja sistem.
– Stemming
Pada tahapan ini dilakukan stemming, menghilangkan imbuhan pada kata yang berimbuhan.
– Indexing
Dalam tahapan ini, dilakukan proses pengindeksan dokumen terhadap setiap kosa kata yang muncul (hasil tahapan text operation) dengan membuat inverted index. Setiap kosa kata didaftarkan (dictionary) dan didefinisikan di dokumen mana kata tersebut muncul (postings).
– Pembobotan Kata (Term) Hasil Indexing
Seluruh kosa kata yang telah diperoleh dari hasil proses indexing diberikan nilai bobot, pada analisa tugas akhir ini, pembobotan yang dilakukan adalah memberikan nilai 1 dan 0 pada masing-masing term pada query dan juga pada koleksi dokumen
– Pembobotan Kata Pada Query
Pembobotan kata pada query menggunakan pembobotan Biner yaitu 1 dan 0, 1 berarti ada dan 0 berarti tidak.
– Perhitungan Nilai Kerelevanan Dokumen Terhadap Query dan Perangkingan Dokumen
Link youtube :
https://www.youtube.com/watch?v=NiSMRtJNkiU&feature=youtu.be