Implementation of an efficient Fuzzy Logic based Information Retrieval System

Himpunan Fuzzy

Teori himpunan fuzzy dapat digunakan untuk Memanipulasi pengetahuan di basis. Harapannya adalah bahwa istilah yang diindeks dapat meningkatkan kualitas dokumen yang diambil membawa yang paling relevan dan lebih Secara semantik berhubungan dengan Query awal. Pencarian teks lengkap adalah masih bentuk pencarian yang paling populer dan sangat berguna mengambil dokumen yang kami tahu kata kunci pencarian untuk. Memang pencarian teks lengkap tidak cocok untuknya menemukan dokumen yang relevan tentang topik tertentu di konteks tugas yang diberikan.

Lucene melakukan pencarian fuzzy dalam dua langkah:

  1. Lucene mencari token yang tersimpan dalam database yang ada mirip dengan token permintaan. Untuk menentukan apakah token ada mirip, Lucene menghitung jarak edit (juga disebut Sebagai Levenshtein Distance) dari token query token yang tersimpan dalam database.
  2. Lucene menggunakan token serupa yang ditemukannya sebagai token query baru untuk diambil dokumen yang relevan.

Percobaan telah dilakukan pada pengumpulan data TREC Ohsumed. Koleksi test ini adalah diciptakan untuk membantu penelitian pencarian kembali. Relevansi dokumen menggunakan kesamaan fuzzy adalah dibandingkan dengan QREL yang disediakan di situs web Ohsumed.

MODEL RETRIEVAL INFORMASI BOOLEAN

Model IR Boolean mengasumsikan pengguna permintaan. Tidak ada ruang untuk ketidak jelasan.

    Visualisasi proses sistem Retrieval Informasi.

Sistem IR tradisional mengasumsikan bahwa Queri pengguna dapat dilakukan tepatnya dicirikan dengan istilah indeks. Namun, asumsi ini tidak sesuai karena fakta bahwa Queri pengguna mungkin mengandung ketidak jelasan. Alasan untuk ketidak jelasan yang terkandung dalam Queri pengguna adalah pengguna mungkin tidak tahu banyak tentang subjek yang dia cari atau mungkin tidak terbiasa dengan pencarian informasi sistem.

Masalah pencarian informasi Relevansi

Relasional nilai query pengguna yang diberikan ke dokumen dalam Database. Relevansi dokumen biasanya didasarkan pada algoritma peringkat dokumen algoritma ini mendefinisikan seberapa relevan sebuah dokumen dengan permintaan pengguna dengan menggunakan fungsi yang mendefinisikan hubungan antara query yang diberikan dan dokumen yang dikumpulkan dalam indeks. Evaluasi dari umpan balik yang diberikan oleh sistem pencarian informasi adalah masalah lain dengan pencarian informasi. Perilaku itu Dari sistem mungkin tidak memenuhi harapan pengguna atau dokumen yang dikembalikan dari sistem mungkin tidak semuanya relevan dengan query.

SISTEM RETRIEVAL INFORMASI FUZZY

Fuzzy Logic

Fuzzy Logic pada dasarnya merupakan pendekatan logika yang memungkinkan nilai kebenaran antara yang harus didefinisikan antara evaluasi konvensional yang benar dan yang salah. Pengertian seperti agak keras atau keren bisa dirumuskan matematis dan diproses oleh komputer .

Fuzzy Sets

Fuzzy Sets set yang elemennya memiliki derajat keanggotaan. Dalam teori himpunan klasik, sebuah elemen juga tidak termasuk dalam himpunan. Namun, himpunan fuzzy teori memungkinkan penilaian bertahap keanggotaan elemen dalam satu set ini dijelaskan dengan bantuan fungsi keanggotaan dinilai dalam interval nyata.

Teknik yang ada

Masalah pencarian string fuzzy dapat dirumuskan sebagai berikut: “Temukan dalam teks atau kamus dengan ukuran semua kata yang cocok dengan kata yang diberikan atau mulai dengan yang diberikan Kata), dengan mempertimbangkan kemungkinan perbedaan (Kesalahan). ”

Metode pengambilan fuzzy di implementasikan mirip dengan metode Fuzzy dengan berbagai parameter. Parameter yang ditentukan adalah:

  1. Istilah query: Query string yang ditentukan oleh pengguna dikonversi ke istilah Query yang kemudian dicari Indeks yang dihasilkan.
  2. Ketidak jelasan: Perbedaan yang diperbolehkan antara Kata kunci dan istilah query yang akan diambil.
  3. Panjang Affix: Maksimal mungkin Panjang karakter Umum untuk query dan kata kunci.

Parameter untuk menganalisa dan mengevaluasi kinerja IR Sistem:

  1. Precision
    Ini adalah sebagian kecil dari dokumen yang relevan di antara Seluruh dokumen yang diambil Praktis itu memberi ketepatan Hasil.
  2. Recall
    Sebagian dari dokumen yang diambil dan relevan Di antara semua dokumen yang relevan didefinisikan sebagai recall. Pada dasarnya, ini memberikan pertanggungan hasil.
  3. Precision-Recall Curve : Kurva ini didasarkan pada nilai presisi dan Ingat di mana sumbu x ditarik dan sumbu y adalah Presisi. Alih-alih menggunakan presisi dan daya ingat di Setiap posisi peringkat, kurva biasanya diplot Menggunakan 11 tingkat recall standar   0%, 10%, 20% ……….. 100%. Apalagi nilai kemiripan rata-rata dokumen untuk   Kueri individual dan jumlah rata-rata yang diambil Dokumen yang relevan juga bisa dijadikan parameter untuk Periksa kinerja Sistem IR.

Kesimpulan

Percobaan yang dilakukan pada pengumpulan data TREC Ohsumed menggunakan Apache Lucene membuktikan keunggulan dari ukuran yang diusulkan. Ini adalah teknik baru yang memiliki kelebihan dibandingkan sistem Informasi retrieval lainnya karena dapat menangani pertanyaan pengguna yang tidak jelas dan tidak tepat. Kinerja teknik yang diusulkan dibandingkan dengan kemiripan berbasis kosinus mengukur pada dataset TREC hasil menunjukkan bahwa teknik pengukuran kesamaan yang diusulkan berdasarkan logika fuzzy, lebih baik dari pada teknik pengukuran kesamaan berbasis kosinus untuk menangani pertanyaan yang samar, tidak pasti dan tidak tepat. Wawasan yang diberikan oleh model ini memperjelas bahwa gagasan menggambarkan situasi yang diketahui melalui informasi yang tidak tepat, tidak pasti, dan samar dengan cara yang tidak menggantikan atau diganti, namun justru melengkapi pandangan yang dihasilkan oleh pendekatan lain.