MODEL FUZZY INFROMATION RETRIEVAL
INFORMATION RETRIEVAL
Information Retrieval (IR) :cabang dari ilmu komputer yang meliputi penyimpanan, pemeliharaan dan pencarian informasi dengan data dalam jumlah besar.Data-data tersebut dapat berupa teks, video, gambar, multimedia dan lain-lain.(Snasel, Abraham, Owais, Platos, Kromes, 2008).
MODEL Information Retrieval
- Boolean
Suatu cara dalam mengekspresikan keinginan pemakai ke sebuah kueri dengan mamakai operator-operator Boolean yaitu : “and”, “or”, dan “not”.
- Vektor
Strategi pencarian dokumen yang mendekati kondisi queri, pola bobot mengurutkan dokumen berdasarkan derajat kesamaan pada queri
(Rubens, 2006)
Komponen Information Retrieval
- Representasi query menggambarkan permintaan informasi user
- Representasi dokumen menggambarkan koleksi teks
- Fungsi Ranking merangking dokumen menurut relevansinya (Oussalah dan Elitgani, 2005)
FUZZY INFORMATION RETRIEVAL
Saat ini dikembangkan model baru IR yang berbasis fuzzy untuk digunakan dalam pengambilan informasi (Oussalah dan Eltigani, 2005).
Model IR dengan teori fuzzy atau menggunakan logika fuzzy mulai dikembangkan oleh beberapa peneliti. Teori ini dikembangkan sekitar akhir dan dirangkum oleh Salton (Grossman dan Frieder, 2004).
Sistem IR mencari dokumen berdasarkan query yang diberikan. Dokumen dan query adalah contoh dari bahasa natural. Bahasa ini seringkali ambigu dan tidak pasti. Sulit untuk menentukan sesuatu yang ambigu dan tidak pasti dalam logika crisp (Rubens,2006).
Logika fuzzy berdasar pada teori yang berhubungan dengan class dari obyek dengan batasan yang tidak jelas dengan keanggotaan berdasarkan derajat. Dokumen, query dan karakteristiknya dapat dengan mudah dilihat sebagai class granular dari obyek dengan batasan yang tidak jelas dan keanggotaan fuzzy di banyak aspek (Rubens,2006).
Logika fuzzy adalah sistem logika yang merupakan perluasan logika multi value. Menggunakan logika fuzzy memberikan keuntungan dari metode Boolean saat mengatasi kekurangan. Model logika fuzzy menyediakan framework yang mudah dimengerti untuk pengguna awam dari sistem IR. Dokumen yang didapat dari query dievaluasi dengan aturan Fuzzy Inference System (FIS) yang memiliki semantik yang tepat (Rubens, 2006)
FUZZY SET FUZZY SET(Himpunan fuzzy)
himpunan dari pasangan terurut A = {(x, µa(x)) : x€X)}. Dimana X adalah himpunan semesta dari obyek dan µa(x) adalah nilai keanggotaan suatu obyek x dalam A yang berada dalam interval tertutup [0,1].
FUZZY RELATION
Fuzzy relation dijelaskan sebagai sebuah metode untuk menggambarkan hubungan antara dua objek (kata) yang berbeda.
Dalam kasus IR adalah kata yang berbeda. Contohnya kata ‘fuzzy’ dan ‘neural network’ adalah dua kata yang berbeda tapi jika terdapat lebih dari satu dokumen yang memiliki dua kata tersebut maka bisa jadi keduanya ada hubungan. (Darmadi dkk, 2006).
Aturan Fuzzy untuk mencari dokumen
- Jika term index menunjuk pada judul dokumen maka diberikan nilai yang paling tinggi
- Jika menunjuk pada daftar keyword pada dokumen, maka dokumen tersebut diberi nilai tertinggi kedua.
- Jika pada Bab atau subbab maka diberi nilai tertinggi ketiga.
- Jika ditemukan pada bagian isi yang berhuruf tebal maka hubungannya secara virtual akan diperluas
- Jika sebuah quantifier ditemukan maka index yang berhubungan dengan quanifier itu akan dialokasikan frekuensi lebih atau kurang berdasarkan sifat alami quantifier dengan cara mengalikan fi,j (1) dengan kuantitas tetap (Oussalah dan Elitgani, 2005)
Algoritma pencarian dokumen
- Rentangkan dokumen dan bangun representasi index yang dari semua dokumen
- Tulis ulang query dari representasi index
- Aplikasikan dengan p>0 dan dan µ(dj) ditentukan oleh
- untuk mengkalkulasi himpunan fuzzy µ(dj), untuk j = 1 to n.
- Tentukan µq menggunakan
- Tentukan kesamaan Sim(dj,q) untuk j = 1 to n menurut
- dan urutkan kesamaan menurut (Oussalah dan Elitgani, 2005).
- PENERAPAN EFISIENSI LOGIKA FUZZY BERBASIS SISTEM RETRIEVAL
- HIMPUNAN FUZZY
Teori himpunan fuzzy dapat digunakan untuk Memanipulasi pengetahuan di basis. Harapannya adalah bahwa istilah yang diindeks dapat meningkatkan kualitas dokumen yang diambil membawa yang paling relevan dan lebih Secara semantik berhubungan dengan Query awal. Pencarian teks lengkap adalah masih bentuk pencarian yang paling populer dan sangat berguna mengambil dokumen yang kami tahu kata kunci pencarian untuk. Memang pencarian teks lengkap tidak cocok untuknya menemukan dokumen yang relevan tentang topik tertentu di konteks tugas yang diberikan.
Lucene melakukan pencarian fuzzy dalam dua langkah:
- Lucene mencari token yang tersimpan dalam database yang ada mirip dengan token permintaan. Untuk menentukan apakah token ada mirip, Lucene menghitung jarak edit (juga disebut Sebagai Levenshtein Distance) dari token query token yang tersimpan dalam database.
- Lucene menggunakan token serupa yang ditemukannya sebagai token query baru untuk diambil dokumen yang relevan.
Percobaan telah dilakukan pada pengumpulan data TREC Ohsumed. Koleksi test ini adalah diciptakan untuk membantu penelitian pencarian kembali. Relevansi dokumen menggunakan kesamaan fuzzy adalah dibandingkan dengan QREL yang disediakan di situs web Ohsumed.
- MODEL RETRIEVAL INFORMASI BOOLEAN
Visualisasi proses sistem Retrieval Informasi.
Sistem IR tradisional mengasumsikan bahwa Queri pengguna dapat dilakukan tepatnya dicirikan dengan istilah indeks. Namun, asumsi ini tidak sesuai karena fakta bahwa Queri pengguna mungkin mengandung ketidak jelasan. Alasan untuk ketidak jelasan yang terkandung dalam Queri pengguna adalah pengguna mungkin tidak tahu banyak tentang subjek yang dia cari atau mungkin tidak terbiasa dengan pencarian informasi sistem.
Masalah pencarian informasi Relevansi
Relasional nilai query pengguna yang diberikan ke dokumen dalam Database. Relevansi dokumen biasanya didasarkan pada algoritma peringkat dokumen algoritma ini mendefinisikan seberapa relevan sebuah dokumen dengan permintaan pengguna dengan menggunakan fungsi yang mendefinisikan hubungan antara query yang diberikan dan dokumen yang dikumpulkan dalam indeks. Evaluasi dari umpan balik yang diberikan oleh sistem pencarian informasi adalah masalah lain dengan pencarian informasi. Perilaku itu Dari sistem mungkin tidak memenuhi harapan pengguna atau dokumen yang dikembalikan dari sistem mungkin tidak semuanya relevan dengan query.
SISTEM RETRIEVAL INFORMASI FUZZY
Fuzzy Logic
Fuzzy Logic pada dasarnya merupakan pendekatan logika yang memungkinkan nilai kebenaran antara yang harus didefinisikan antara evaluasi konvensional yang benar dan yang salah. Pengertian seperti agak keras atau keren bisa dirumuskan matematis dan diproses oleh komputer .
Fuzzy Sets
Fuzzy Sets set yang elemennya memiliki derajat keanggotaan. Dalam teori himpunan klasik, sebuah elemen juga tidak termasuk dalam himpunan. Namun, himpunan fuzzy teori memungkinkan penilaian bertahap keanggotaan elemen dalam satu set ini dijelaskan dengan bantuan fungsi keanggotaan dinilai dalam interval nyata.
Teknik yang ada
Masalah pencarian string fuzzy dapat dirumuskan sebagai berikut: “Temukan dalam teks atau kamus dengan ukuran semua kata yang cocok dengan kata yang diberikan atau mulai dengan yang diberikan Kata), dengan mempertimbangkan kemungkinan perbedaan (Kesalahan). ”
Metode pengambilan fuzzy di implementasikan mirip dengan metode Fuzzy dengan berbagai parameter. Parameter yang ditentukan adalah:
- Istilah query: Query string yang ditentukan oleh pengguna dikonversi ke istilah Query yang kemudian dicari Indeks yang dihasilkan.
- Ketidak jelasan: Perbedaan yang diperbolehkan antara Kata kunci dan istilah query yang akan diambil.
- Panjang Affix: Maksimal mungkin Panjang karakter Umum untuk query dan kata kunci.
- Parameter untuk menganalisa dan mengevaluasi kinerja IR Sistem:
- Precision
Ini adalah sebagian kecil dari dokumen yang relevan di antara Seluruh dokumen yang diambil Praktis itu memberi ketepatan Hasil.
- Recall
Sebagian dari dokumen yang diambil dan relevan Di antara semua dokumen yang relevan didefinisikan sebagai recall. Pada dasarnya, ini memberikan pertanggungan hasil.
Precision-Recall Curve : Kurva ini didasarkan pada nilai presisi dan Ingat di mana sumbu x ditarik dan sumbu y adalah Presisi. Alih-alih menggunakan presisi dan daya ingat di Setiap posisi peringkat, kurva biasanya diplot Menggunakan 11 tingkat recall standar 0%, 10%, 20% ……….. 100%. Apalagi nilai kemiripan rata-rata dokumen untuk Kueri individual dan jumlah rata-rata yang diambil Dokumen yang relevan juga bisa dijadikan parameter untuk Periksa kinerja Sistem IR.
Download file presentasi : MODEL FUZZY INFROMATION RETRIEVAL
DAFTAR PUSTAKA
Darmadi, B.A, Intan R., Lim, R., 2006, Aplikasi Search Engine Paper / Karya Ilmiah Berbasis WEB dengan Metode Fuzzy Relation,
Grossman, D.A, Frieder, O. 2004, Information Retrieval : Algorithms and Heuristics 2nd Edition, Springer, Netherland
Oussalah, M. and Eltigani, 2005, A., Personalized Information Retrieval System in The Framework of Fuzzy Logic, EUSFLAT-LFA 2005
Rubens, N.O, 2006, The Application of Fuzzy Logic to The Construction of the Ranking Function of Information Retrieval, Computer Modelling and New Technologies, 2006, Vol.10, No.1, 20-27, Transport and Telecommunication Institute, Lomonosov 1, LV-1019, Riga, Latvia
https://slideplayer.info/slide/3773837/