DianRestiani – Pertemuan 2 (Permodelan Temu Balik Informasi)

1. Konsep dan Metode dalam Temu Balik Informasi

  • KonsepInformation Retrival adalah sebuah proses untuk menemukan kembali informasi yang dibutuhkan dari sebuah sistem penyimpanan dan penelusuran informasi.Sistem temu balik informasi mensyaratkan ada kebutuhan informasi dari pengguna, ada dokumen atau rekod yang berisi informasi yang diorganisasikan dalam sebuah sistem yang memudahkan temu balik informasi dan strategi penelusuran yang tepat sehingga dokumen yang sesuai dengan kebutuhan dapat ditemukan kembali.

konsep

  • Metode

1.2.1Metode Vector Space Retrieval Model

Adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query. Query dan dokumen dianggap sebagai vector – vector pada ruang n-dimensi, dimana t adalah jumlah dari seluruh term yang ada dalam leksikon. Leksikon adalah daftar semua term yang ada dalam indeks.

Pada metode ini merupakan solusi atas permasalahan yang dihadapi jika menggunakan algoritma TF/IDF karena pada algoritma TF/IDF terdapat kemungkinan antar dokumen memiliki bobot yang sama sehingga ambigu untuk diurutkan. (http://informationretrievalsystem.blogspot.co.id/2012/07/pencarian-dengan-metode-vektor-space.html)

1.2.2 Metode Term Frequency Inverse Document Frequence (TF-IDF)

Adalah suatu cara untuk memberikan bobot hubungan suatu kata (term) terhadap dokumen (Robertson, 2005). Dalam metode ini terdapat 2 konsep untuk perhitungan bobot, yaitu : Frekuensi kemunculan sebuah kata didalam sebuah dokumen tertentu dan inverse frekuensi dokumen yang mengandung kata tersebut.

Mengenai efektivitas kinerja dari sebuah search engine selalu dikaitkan dengan tingkat relevansi hasil pencarian. Untuk menemukan dokumen yang relevan, metode pembobotan TF-IDF memberikan bobot lebih kepada istilah yang lebih penting. Istilah yang lebih penting yang dimaksud adalah istilah yang jika muncul pada sebuah dokumen maka dokumen tersebut dapat dianggap relevan dengan query.

TF adalah algoritma pembobotan heuristik yang menentukan bobot dokumen berdasarkan kemunculan term (istilah). Semakin sering sebuah istilah muncul, semakin tinggi bobot dokumen untuk istilah tersebut, dan sebaliknya. Terdapat empat buah algoritma TF yaitu Raw TF, Logarithmic TF, Binary TF, Augmented TF. Dalam penelitian ini digunakan algoritma Raw TF. Raw TF diperoleh dari perhitungan frekuensi kemunculan suatu istilah pada dokumen. IDF merupakan banyaknya istilah tertentu dalam keseluruhan dokumen, dapat dihitung dengan persamaan:

idf

n = jumlah seluruh dokumen

nj = jumlah dokumen yang mempunyai istilah j

Dokumen-dokumen yang ditampilkan oleh sistem temu balik informasi harus memenuhi persyaratan recall, precision dan NIAP (Non Interpolated Average Precision). Recall didefinisikan dengan menemukan seluruh dokumen yang relevan dalam koleksi dokumen.

recall

Nilai recall tertinggi adalah 1, yang berarti seluruh dokumen dalam koleksi berhasil ditemukan. Precision didefinisikan dengan menemukan hanya dokumen yang relevan saja dalam koleksi.

precision

Nilai precision tertinggi adalah 1, yang berarti seluruh dokumen yang ditemukan adalah relevan. NIAP adalah penggabungan dari recall dan precision.

niap

Di mana n menunjukkan jumlah dokumen yang dicari hingga seluruh dokumen relevan ditemukan. Nilai NIAP tertinggi adalah 1, yang berarti seluruhdokumen relevan berhasil ditemukan dengan seluruh dokumen relevan tersebut ditempatkan pada urutan teratas dalam hasil pencarian. Nilai NIAP akan digunakan untuk mengecek kebenaran hasil pencarian dari perangkat lunak yang dibangun. (http://download.portalgaruda.org/article.php?article=112004&val=2313)

1.2.3 Metode Phrasal translation dan query expansion

Phrasal translation berbasiskan basis data frase dan kata yang telah didefinisikan terlebih dahulu. Ketika frase ditranslasikan basis data mencari frase dalam bahasa Inggris. Jika ketemu maka mengeluarkan arti kata dalam bahasa Indonesia yang berbentuk frase juga. Jika lebih dari satu yang ditemukan maka ditambahkan ke query. (http://p2m.polibatam.ac.id/wp-content/uploads/2012/05/Ari-Wibowo-Peningkatan-Performansi-Sistem-Temu-Balik-Informasi.pdf)

2. Permodelan Temu Balik Informasi

(https://www.scribd.com/document/82696928/IR-Models)

Menentukan dokumen yang relevan dengan dokumen yang tidak relevan berdasarkan query yang dimasukkan.

2.1 Model klasik Temu Balik Informasi

Terdiri dari :

2.1.1 Model Boolean

Merupakan model yang paling sederhana yang berdasarkan teori himpunan dan aljabar Boolean dan metode yang paling sering digunakan pada mesin penelusur (search engine) karena keepatannya. Pernyataan yang ditulis dalam model ini merupakan himpunan dari istilah (term) dan query. Istilah (term) dalam sebuah query dihubungkan menggunakan operator AND, OR atau NOT.

Pada proses penelusuran model Boolean, setiap kata dirubah ke dalam ekspresi Boolean sehingga menghasilkan aturan binary yang disebut incidence matrix. Sehingga variable nilai bobot istilah indeks selalu bersifat biner (dua pilihan), yaitu nol dan satu. Jika nilainya satu maka model ini menyimpulkan bahwa dokumen relevan terhadap sebuah permintaan (query). Selebihnya jika bernilai nol maka dokumen dianggap tidak relevan.

Keuntungan menggunakan model Boolean :

  • Model Boolean merupakan model yang sederhana dan mudah untuk diimplementasikan
  • Konsep yang terstruktur
  • Adanya pertimbangan biaya untuk mengubah software dan struktur database, terutama pada system komersil

Kerugian menggunakan model Boolean : (https://informatikalogi.com/sistem-temu-kembali-informasi/ )

  • Hasil pencarian dokumen berupa himpunan sehingga tidak dapat dikenali dokumen – dokumen yang paling relevan atau agak relevan (partial match)
  • Query dalam ekspresi Boolean dapat menyulitkan pengguna yang tidak mengerti tentang ekspresi Boolean
  • Semua istilah berbobot atau sukar mengurutkan dokumen

2.1.2 Model vector space

Merupakan model system temu balik informasi yang mempresentasikan dokumen dan query dalam bentuk vector dimensional.

Keuntungan menggunakan model vector space :

  • Sangat efisien : menggunakan metode matrik sparse, menggunakan aljabar linear yang sederhana dan mudah dibuktikan
  • Fleksibel : digunakan dalam resolusi query, menggunakan kesamaan dokumen (document to document similarity), dan menggunakkan kluster
  • Sangat popular dan sering digunakan

Kerugian menggunakan model vector space :

  • Teoritical framework tidak jelas
  • Menghasilkan indeks yang berdekatan
  • Asumsi yang digunakan adalah independensi index term

Prosedur model ruang vector dapat dikelompokkan menjadi 3 tahap yaitu :

  1. Pengindeks-an dokumen

Beberapa kata dalam sebuah dokumen tidak menggambarkan isi dari dokumen tersebut, seperti kata the, is. Kata – kata tersebut dikenal dengan kata – kata buangan. Dengan menggunakan automatic document indexing, kata – kata tersebut dihilangkan dari dokumen

Pembuatan indeks tersebut dapat berdasarkan :

  • Frekuensi kemunculan istilah dalam sebuah dokumen
  • Metode non linguistic : probabilistic indexing
  1. Pembobotan indeks, untuk menghasilkan dokumen yang relevan

Ada 3 faktor utama dalam pembobotan yaitu :

  • Term frequency factor
  • Collection frequency factor
  • Length normalization factor

Ketiga factor diatas dikalikan untuk menghasilkan bobot istilah

3. Memberikan peringkat dokumen berdasarkan ukuran kesamaan (similarity measure)

2.1.3 Model Probabilistik

Dalam model probabilistik, bobot istilah dianggap sebagai nilai peluang. Jika istilah muncul dalam suatu dokumen maka nilai bobotnya 1 jika sebaliknya maka 0. Istilah kueri, dibobot dengan 1 untuk masing-masing istilah. Karena nilai bobotnya 1 atau 0, hal ini sering dinggap sebagai kelemahan cara pembobotan ini, karena menghilangkan faktor frekuensi istilah.

Karakteristik model probabilistik :

  1. Melakukan pendugaan page relevansi dengan menggunakan probabilistic
  2. Mempunyai teoritical framework yang jelas, yaitu berdasarkan prinsip static, relevansi dokumen data diupdate, adanya feed back / timbal balik dari user
  3. Query dapat menghasilkan jawaban yang benar, menggunakan indeks term, pendugaan awal, menggunakan initial hasil dan feed back dari user dapat memperbaiki probabilitas dari relevansi

Tujuan model probabilistic : Untuk menentukan kemungkinan dari relevansi berdasarkan query yang diberikan

Contoh mesin pencarian yang menggunakan model probabilistic :

a. Bing

bing

b. Google

google

2.1.4 Model Terstruktur

(http://eprints.uad.ac.id/3115/1/BROWSING DAN SEARCHING d ALAM TKI.pdf )

  • Non Overlapping List :

Yaitu system yang menggunakan model ini akan membagi – bagi dokumen sebagai wilayah teks tertentu misalnya dengan mengikuti struktur dokumen (bab, sub-bab), judul, sub-judul, gambar, foto, tabel, dst) kemudian untuk masing – masing wilayah ini dilakukan pengindeksan yang tidak saling menindih (non overlapping)

  • Proximal nodes

Yaitu model yang menggunakan beberapa struktur yang menggunakan beberapa struktur indeks yang memiliki hirarki independen terhadap sebuah dokumen. Masing – masing dari indeks ini merujuk ke struktur dokumen (bab, sub-bab, judul, sub judul, gambar, foto, tabel, dst) yang dinamakan nodes. Pada masing – masing node inilah ada rujukan ke bagian dari dokumen yang mengandung teks tertentu

Download

TBI-Kelompok Dian Restiani

 

 

Referensi

http://informationretrievalsystem.blogspot.co.id/2012/07/pencarian-dengan-metode-vektor-space.html

http://download.portalgaruda.org/article.php?article=112004&val=2313

http://p2m.polibatam.ac.id/wp-content/uploads/2012/05/Ari-Wibowo-Peningkatan-Performansi-Sistem-Temu-Balik-Informasi.pdf

https://www.scribd.com/document/82696928/IR-Models

http://eprints.uad.ac.id/3115/1/BROWSING DAN SEARCHING d ALAM TKI.pdf

https://informatikalogi.com/sistem-temu-kembali-informasi/

http://shoima93.blogspot.co.id/2013/04/temu-balik-informasi-model probabilistik.

htmlhttps://vajza.wordpress.com/2010/10/13/boolean-model/

https://putuandreaswaranu.wordpress.com/2015/03/10/pemodelan-sistem-temu-kembali-informasi-boolean/