TBI18-TI15B-P4-BOOLEAN MODEL-NOVIANTO

Boolean Model

 

                Model Boolean adalah model penelusuran informasi dimana kita dapat membentuk query berdasarkan aturan Boolean dan dikombinasikan dengan operator AND, OR, dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Model Boolean ini berdasarkan teori himpunan dan aljabar Boolean.

                Dokumen adalah himpunan dari istilah (term) dan query adalah pernyataan Boolean yang ditulis pada term. Istilah (term) dalam sebuah query dihubungkan dengan menggunakan operator AND, OR atau NOT. Pada proses penelusuran model Boolean, setiap kata dirubah ke dalam ekspresi Boolean sehingga menghasilkan sebuah aturan binary yang disebut incidence matrix. Sehingga variabel nilai bobot istilah indeks selalu bersifat biner (dua pilihan), yaitu nol atau satu. Jika  nilainya satu maka model Boolean menyimpulkan bahwa dokumen relevan terhadap sebuah permintaan (query). Selebihnya, kalau bernilai nol maka dokumen dianggap tidak relevan.

 

Untuk dapat melakukan proses penelusuran Booelan, keberadaan inverted index sangat diperlukan, karena index ini akan sangat membantu dalam proses penelusuran yang efektif.

 

Keuntungan menggunakan model Boolean :

Model Boolean merupakan model sederhana yang menggunakan teori dasar himpunan sehingga mudah diimplementasikan.

Model Boolean dapat diperluas dengan menggunakan proximity operator dan wildcard operator.

Adanya pertimbangan biaya untuk mengubah software dan struktur database, terutama pada sistem komersil.

Kerugian menggunakan Model boolean :

Model Boolean tidak menggunakan peringkat  dokumen yang terambil. Dokumen yang terambil hanya dokumen yang benar-benar sesuai dengan pernyataan boolean/kueri yang diberikan Sehingga dokumen yang terambil bisa sangat banyak atau bisa sedikit. Akibatnya ada kesulitan dalam mengambil keputusan.

Teori himpunan memang mudah, namun tidak demikian halnya dengan pernyataan Boolean yang bisa kompleks. Akibatnya pengguna harus memiliki pengetahuan banyak mengenai kueri dengan boolean agar pencarian menjadi efisien.

Tidak bisa menyelesaikan partial matching pada kueri

 

Model Boolean dibagi menjadi 2 yaitu :

  1. Model Himpunan Fuzzy

Misalkan U adalah himpunan semesta. Fuzzy subset dari U dikarakteristikkan dengan fungsi keanggotaan (membership function) mA, dimana :

μA : U → [0,1]

setiap uÎU dipetakan kedalam nilai biner [0,1], atau μA : U → [0,1]. Dengan demikian setiap elemen diberikan nilai biner yang mengindikasikan nilai keanggotaan elemen didalam himpunan.

Pada sistem temu kembali, model himpunan fuzzy merupakan perluasan dari model Boolean retrieval. Ada beberapa perluasan yang diperoleh dengan menggunakan model himpunan fuzzy :

Partially matching, berdasarkan term-term correlation matrix

Direpresentasikan seperti thesaurus

Melakukan perhitungan berdasarkan perbandingan antara dokumen yang mengandung pasangan term (pair of terms) dengan jumlah dokumen yang mengandung term tersebut.

 

  1. Model Extended Boolean

Extended Boolean Model Boolean model merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar. Boolean model merepresentasikan dokumen sebagai suatu himpunyan kata kunci (set of keywords). Query direpresentasikan sebagai ekspresi boolean. Query dalam ekspresi boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR, dan NOT serta menggunakan tanda kurung untuk menentukan scope operator. Hasil pencarian dokumen dari
model boolean adalah himpunan dokumen yang relevan (Baetza – Yates dan Riberio – Neto, 1998). Karena sifatnya yang sederhana, boolean model saat ini masih dipergunakan oleh sistem IR modern, antara lain oleh www.google.com. Kekurangan model boolean diperbaiki oleh VSM dan extended boolean model yang mampu menghasilkan dokumen – dokumen terurut berdasarkan kesesuaian query. Extended boolean model merupakan lanjutan dari boolean model dengan menggabungkan karakateristik dari vector space model dengan sifat – sifat aljabar boolean dan peringkat kesamaan antara query dan dokumen berdasarkan p-norm model (Salton, 1989). Cara ini dikatakan
sebagai alternatif dari model klasik boolean model. Algoritma extended boolean model (EBM) pada dasarnya merupakan model pengembangan model vektor. Model vektor memberikan nilai kepada kata atau frasa yang terdapat pada dokumen indeks dimana kata tersebut mempunyai asosiasi dengan kata yang ada dalam user query (Baetza – Yates dan Riberio – Neto, 1998). Nilai ini disebut sebagai bobot dari kata atau frasa yang terdapat dalam dokumen. Bobot ini kemudian digunakan untuk membuat derajat kemiripan antara tiap dokumen yang disimpan dalam text database dan query yang diberikan oleh user.

Dalam EBM, bobot kata dalam dokumen harus dalam interval 0 sampai 1. Oleh karena itu bobot harus dinormalisasi (Salton, 1989). Perhitungan bobot dalam EBM dihitung menggunakan persamaan sebagai berikut:
Dimana:


  • i,j merupakan bobot kata i pada dokumen j.
    tfi,j merupakan frekuensi kata i pada dokumen j.
    tfmax i,j merupakan frekuensi maksimum kata i dalam dokumen j.
    idfi merupakan nilai idf dari kata i dalam koleksi.
    idfmax i merupakan nilai maksimum idf kata i dalam koleksi.
    P-Norm model memberikan gagasan untuk memasukkan nilai p,
    yaitu nilai yang menunjukkan keketatan pada operator.

Referensi

http://zero-fisip.web.unair.ac.id/artikel_detail-68838-Digilib-Digilib:%20Sistem%20Temu%20Kembali%20Informasi.html

https://vajza.wordpress.com/2010/10/13/boolean-model/

https://id.123dok.com/document/download/qvlml3ry#_=_

Download presentasi : Disini