Pemodelan Sistem Temu Kembali (Boolean dan Advanced Boolean)
Model Boolean dalam sistem temu kembali merupakan model yang paling sederhana. Model ini berdasarkan teori himpunan dan aljabar Boolean. Dokumen adalah himpunan dari istilah (term) dan kueri adalah pernyataan Boolean yang ditulis pada term. Dokumen diprediksi apakah relevan atau tidak. Model ini menggunakan operator boolean. Istilah (term) dalam sebuah kueri dihubungkan dengan menggunakan operator AND, OR atau NOT. Metode ini merupakan metode yang paling sering digunakan pada`mesin penelusur (search engine) karena kecepatannya.
Keuntungan menggunakan model Boolean :
- Model Boolean merupakan model sederhana yang menggunakan teori dasar himpunan sehingga mudah diimplementasikan.
- Model Boolean dapat diperluas dengan menggunakan proximity operator dan wildcard operator.
- Adanya pertimbangan biaya untuk mengubah software dan struktur database, terutama pada sistem komersil.
Kerugian menggunakan Model boolean :
- Model Boolean tidak menggunakan peringkat dokumen yang terambil. Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan boolean/kueri yang diberikan Sehingga dokumen yang terambil bisa sangat banyak atau bisa sedikit. Akibatnya ada kesulitan dalam mengambil keputusan.
- Teori himpunan memang mudah, namun tidak demikian halnya dengan pernyataan Boolean yang bisa kompleks. Akibatnya pengguna harus memiliki pengetahuan banyak mengenai kueri dengan boolean agar pencarian menjadi efisien.
- Tidak bisa menyelesaikan partial matching pada kueri
Untuk mengatasi masalah ini, maka dikembangkan operasi pembobotan dokumen berdasarkan frekuensi kemunculan istilah (term) pada dokumen tersebut. Model Boolean juga dikombinasikan dengan content based navigation dengan menggunakan konsep lattice, dimana shared term dari dokumen yang terambil sebelumnya digunakan untuk memperbaiki dan mengexpand kueri.
Dalam pengerjaan operator boolean (AND, NOT, OR) ada urutan pengerjaannya (Operator precedence). Urutannya adalah:
–() Prioritas yang berada dalam tanda kurung
–NOT
Digunakan untuk mempersempit hasil pencarian atau meniadakan deskriptor lain lain. Contoh: Filsafat NOT Islam Artinya mesin penelusur akan mencari dokumen yang mengandung kata Filsafat, tetapi tidak mengandung kata Islam.
–AND
Digunakan untuk mempersempit hasil pencarian atau digunakan agar kedua deskriptor harus ada dalam satu dokumen yang ditemukan. Contoh: Filsafat AND Islam Artinya mesin akan menelusur dokumen yang mengandung kata filsafat dan islam di dalamnya.
–OR
Digunakan untuk memperluas hasil pencarian atau digunakan agar supaya kedua deskriptor terdapat pada dokumen yang diindeks. Contoh: Filsafat OR Islam Artinya mesin penelusur akan mencari dokumen yang mengandung salah satu kata atau kedua kata tersebut.
-Kombinasi Logical AND, OR, NOT :
Dapat mengkombinasikan satu pernyataan kedalam penelusur yang kompleks. Contoh marketing AND library OR information centre NOT profit organization. Artinya kita ingin mendapatkan dokumen yang mengandung unsur marketing dan perpustakaan tanpa unsur pusat informasi dan bukan untuk organisasi non profit.
Model Boolean dibagi menjadi 2 yaitu :
- Model Himpunan Fuzzy
Misalkan U adalah himpunan semesta. Fuzzy subset dari U dikarakteristikkan dengan fungsi keanggotaan (membership function) A, dimana :
μA : U → [0,1]
setiap uU dipetakan kedalam nilai biner [0,1], atau μA : U → [0,1]. Dengan demikian setiap elemen diberikan nilai biner yang mengindikasikan nilai keanggotaan elemen didalam himpunan.
Pada sistem temu kembali, model himpunan fuzzy merupakan perluasan dari model Boolean retrieval. Ada beberapa perluasan yang diperoleh dengan menggunakan model himpunan fuzzy :
- Partially matching, berdasarkan term-term correlation matrix
- Direpresentasikan seperti thesaurus
- Melakukan perhitungan berdasarkan perbandingan antara dokumen yang mengandung pasangan term (pair of terms) dengan jumlah dokumen yang mengandung term tersebut.
- Model Extended Boolean
Prinsip utama dari teknik Extended Boolean adalah :
- Dokumen direpresentasikan dalam ruang term berdimensi n
- Koordinat x, y dan z ditentukan dengan menggunakan bobot term
- Tergantung pada conjunction atau disjunction :
- i. Menentukan vektor jarak dari (0,0)
- ii. Menentukan vektor jarak dari (1,0)
- iii. Menggunakan konsep p-norm
- iv. Perluasan karakteristik dari extended boolean
- v. Menghitung jarak.
Permasalahan dalam IR :
Misalkan kita ingin mencari dari cerita-cerita karangan shakespeare yang mengandung kata Brutus AND Caesar AND NOT Calpurnia. Salah satu cara adalah dengan membaca semua teks yang ada dari awal sampai akhir. Komputer juga bisa disuruh melakukan hal ini (menggantikan manusia). Proses ini disebut grepping. grepping biasanya dilakukan di linux. Grep merupakan perintah pada sistem Linux untuk melakukan pencarian terhadap string yang terdapat pada sebuah file. Grep melakukan pencarian terhadap sebuah baris pada file text yang mempunyai sebuah kesamaan atau beberapa expresi regular. Melihat kemajuan komputer jaman sekarang, grepping bisa jadi solusi yang baik. tetapi, kalau sudah berbicara soal ribuan dokumen, kita perlu melakukan sesuatu yang lebih baik. akhirnya sistem dituntut untuk :
– memiliki kecepatan dalam pemrosesan dokumen yang jumlahnya sangat banyak.
– Fleksibilitas.
– Perangkingan.
Sumber
https://putuandreaswaranu.wordpress.com/2015/03/10/pemodelan-sistem-temu-kembali-informasi-boolean/
https://1204505080unud.wordpress.com/2015/03/10/boolean-retrieval-model/
http://repositori.uin-alauddin.ac.id/1952/1/Sulpiani%20Saidul.pdf