A. Stoplist
Stop list merupakan fitur yang dimiliki sistem information retrieval (search engine), dimana term/kata-kata yang dianggap umum akan diabaikan dalam proses indexing (contoh : I, and, or, is, of, was). Kata-kata yang umum tersebut disebut sebagai stop word. Sistem yang baik memiliki suatu list stop word sebagai acuan dalam mengindex, untuk memilih term-term yang umum ataupun tidak.
Stop list berpengaruh juga terhadap hasil pencarian. Misal kita mempunyai sebuah query “information is retrieval” dan “informatin retrieval” (keduanya dicari dengan tanpa menyertakan tanda kutip). Jika suatu sistem information retrieval menyertakan fitur stop list, seharusnya kedua query tersebut menghasilkan search result yang sama karena kata “is” adalah stop word dan tidak akan diindex oleh sistem (diabaikan dalam proses retrieving)
Stopword atau stopwords adalah kata-kata yang jumlahnya sangat besar dalam korpus yang mempunyai fungsi tetapi tidak mempunyai arti sehingga tidak perlu digunakan sebagai penciri dokumen. Contohnya: dan, yang, ini, itu. Daftar kumpulan storpword biasa disebut stoplist.
Stoplist/stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya
Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat mengurangi level noise.
B. Stemming
Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatu kata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi yang melekat pada sebuah kata dengan cara menghilangkan imbuhan-imbuhan pada kata tersebut, sehingga nantinya di dapat suatu kata yang benar sesuai struktur morfologi bahasa Indonesia yang benar.
Pembuatan indeks dilakukan karena suatu dokumen tidak dapat dikenali langsung oleh suatu Sistem Temu Kembali Informasi atau Information Retrieval System (IRS). Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke dalam suatu representasi dengan menggunakan teks yang berada di dalamnya.
Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda. Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.
Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.
C. Algoritma Untuk Stemming
- Algoritma Nazief & Adriani sebagai algoritma stemming untuk teks berbahasa Indonesia yang memiliki kemampuan prosentase keakuratan (presisi) lebih baik dari algoritma lainnya. Algoritma ini sangat dibutuhkan dan menentukan dalam proses IR dalam dokumen Indonesia.
- Algoritma Porter, Algoritma ini membutuhkan waktu yang lebih singkat dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani, namun proses stemming menggunakan Algoritma Porter memiliki prosentase keakuratan (presisi) lebih kecil dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani.
D. Alur Algoritma Nazief & Adriani
- Pertama cari kata dalam kamus kata dasar
- Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang
- Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”
- Hapus Derivation Prefix
- Melakukan Recoding
- Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.
E. Kelebihan dan Kekurangan Algoritma Nazief & Adriani
- Kelebihan
- Memperhatikan kemungkinan – kemungkinan adanya partikel – yang mungkin mengikuti suatu kata berimbuhan.
- Proses stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Nazief & Adriani memiliki presentase keakuratan ( presisi ) lebi besar dibandingkan dengan stemming menggunakan Algoritma Porter.
- Kekurangan
- Penyamarataan makna variasi kata
- Jumlah database kata dan kata dasarnya harus besar. Kesalahan terjadi bila kata tidak ditemukan di database dan kemudian dianggap kata dasar, padahal bukan.
- Lamanya waktu yang diperlukan dalam proses pencarian kata di dalam kamus
F. File Prensentasi
G. Contoh Program
H. Refrensi
https://informatikalogi.com/text-preprocessing/
https://temukembaliinformasi.wordpress.com/tag/stoplist/
https://www.academia.edu/7293613/ALGORITMA_STEMMING