Teori pendukung
SISTEM TEMU KEMBALI INFORMASI
Sistem temu kembali informasi berasal dari kata Information Retrieval System (IRS).Temu kembali informasi adalah sebuah media layanan bagi pengguna untuk memperoleh informasi atau sumber informasi yang dibutuhkan oleh pengguna. Sistem temu kembali informasi merupakan sistem informasi yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai. Sistem temu kembali informasi berfungsi sebagai perantara kebutuhan informasi pengguna dengan sumber informasi yang tersedia. Pengertian yang sama mengenai sistem temu kembali informasi menurut Sulistyo-Basuki sistem temu kembali informasi adalah kegiatan yang bertujuan untuk menyediakan dan memasok informasi bagi pemakai sebagai jawaban atas permintaan atau berdasarkan kebutuhan pemakai. Dapat dinyatakan bahwa sistem temu kembali informasi memiliki fungsi dalam menyediakan kebutuhan informasi sesuai dengan kebutuhan dan permintaan penggunanya.
TOKENISASI, STOPWORD, DAN STEMMING
Dalam sistem temu kembali informasi (Search engine, pencarian, Information retrieval), dokumen yang diretreive akan melalui proses indexing sebelum dicocokkan dengan query. Beberapa tahapan dalam indexing diantaranya adalah Tokenisasi, Pembuangan stopwords, dan pemotongan imbuhan (stemming).
Tokenisasi
Adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token – token / bagian – bagian tertentu.
Sebagai contoh, tokenisasi dari kalimat “Aku baru saja makan bakso pedas” menghasilkan enam token, yakni:
“Aku”, “baru”, “saja”, “makan”, “bakso”, “pedas”.
Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca. Tokenisasi seringkali dipakai dalam ilmu linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut.
Stop words
Adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval. Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.
Stemmming
Merupakan salah satu proses dari pembuatan sistem temu kembali, dimana proses stemming akan dilakukan setelah proses filtering. Proses stemming ini membuat term yang ada pada tabel filtering menjadi kata dasar, dengan menghilankan semua imbuhan yang ada pada kata tersebut ( imbuhan meng-, me-, kan-, di- , i, pe, peng-, a-, dll.).
Indeks Dokumen
Indeks adalah daftar istilah atau kata (list of terms). Dokumen yang dimasukkan/disimpan dalam database diwakili oleh indeks, Indeks itu disebut indeks dokumen. Fungsinya adalah representasi subyek dari sebuah dokumen. Indeks memiliki tiga jenis yaitu :
Indeks subyek adalah menentukan subyek dokumen pada istilah mana/apa yang menjadi representasi subyek dari sebuah dokumen.
Indeks pengarang adalah mementukan nama pengarang mana yang menjadi representasi dari suatu karya.
Indeks bebas adalah menjadikan seluruh kata/istilah yang terdapat pada sebuah dokumen menjadi sebuah representasi dari dokumen, terkecuali stopword. Stopword adalah kata yang tidak di indeks seperti : yang, that, meskipun, di, ke, dan lain-lain atau seluruh kata sandang/partikel.
Tahap-tahap dalam proses indexing ialah:
Word Token / Parsing
Stopword Removal / filtering
Stemming
TF/IDF ( Term Frequency – Inversed Document Frequency ).
PEMBOBOTAN TF-IDF
Tf-Idf adalah perhitungan yang menggambarkan seberapa pentingnya kata (term) dalam sebuah dokumen dan korpus. Proses ini digunakan untuk menilai bobot relevansi term dari sebuah dokumen terhadap seluruh dokumen dalam korpus. Termfrequency adalah ukuran seringnya kemunculan sebuah term dalam sebuah dokumen dan juga dalam seluruh dokumen di dalam korpus. Term frequency ini dihitung menggunakan persamaan (1) dengan adalah term frequency ke-i dan adalah frekuensi kemunculan term ke-i dalam dokumen ke-j. Sedangkan inverse document frequency adalah logaritma dari rasio jumlah seluruh dokumen dalam korpus dengan jumlah dokumen yang memiliki term yang dimaksud seperti yang dituliskan secara matematis pada persamaan (2). Nilai didapatkan dengan mengalikan keduanya yang diformulasikan pada persamaan (3).
HITUNG PANJANG VEKTOR
Hitung panjang vector ini digunakan untuk menampilkan daftar panjang vektor dari setiap dokumen Di sini pengguna dapat memasukkan query dan menerima daftar dokumen yang relevan dengan query tersebut. Link Tampilkan Cache dapat digunakan untuk melihat daftar cache (nilai kemiripan dokumen dengan query) berdasarkan query yang telah dikirimkan ke sistem.
TAMPILKAN INDEX
Digunakan untuk menampilkan daftar kata dari setiap document . si pengguna dapat melihat kata yang ada di setiap document , serta tahu berapa jumlah kata atau term yang ada pada setiap document , selain itu juga kita juga dapat melihat berapa nilai bobot dari setiap kata pada document tersebut.
RETRIVAL
Sistem yang digunakan untuk menemukan kembali dokumen-dokumen atau informasi yang relevan yang dibutuhkan oleh pengguna yang dilakukan pada situs web. Dimana sistem ini mencari apa yang di cari oleh user, searching yang dilakukan oleh user dengan memasukan query yang ingin dicari.
TAMPILKAN CACHE
Tampilkan cache ini berfungsi untuk menampilkan riwayat pencarian yang pernah kita gunakan pada fungsi retrival, kata apa yang pernah kita inputkan pada retrival sehingga semua data yang pernah di inputkan ini ter rekam dalam cache.