STOPLIST
Stoplist adalah proses pembuangan atau menghilangkan kata – kata buang, yaitu : kata depan, kata sambung, kata ganti, dll. Stopword atau stopwords adalah kata-kata yang jumlahnya sangat besar dalam korpus yang mempunyai fungsi tetapi tidak mempunyai arti sehingga tidak perlu digunakan sebagai penciri dokumen. Contohnya: dan, yang, ini, itu. Daftar kumpulan storpword biasa disebut stoplist.
STEMMING
Stemming merupakan suatu proses atau cara dalam menemukan kata dasar dari suatukata. Stemming sendiri berfungsi untuk menghilangkan variasi-variasi morfologi yangmelekat pada sebuah kata dengan cara menghilangkan imbuhan-imbuhan pada katatersebut, sehingga nantinya di dapat suatu kata yang benar sesuai struktur morfologibahasa Indonesia yang benar.
Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.
Berikut tiga jenis metode stemming, yaitu :
- Successor Variety (SV) : lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem.
- N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama berdasarkan karakter-karakter (substring) yang teridentifikasi sepanjang N karakter.
- Affix Removal : membuang suffix dan prefix dari term menjadi suatu stem. Yang paling sering digunakan adalah algoritma Porter Stemmer karena modelnya sederhana dan effisien.
Berikut ini aturan dari indeks kata dasar dan kata berimbuhan :
1) Sebuah akhir dari satu atau lebih karakter, yang diselenggarakan di urutan terbalik
2) Sebuah bendera utuh opsional ‘*’
3) Sebuah digit menentukan total penghapusan (nol atau lebih)
4) Sebuah string opsional tambahkan satu atau lebih karakter
5) Sebuah simbol kelanjutan, ‘>’ atau ‘.’
Algoritma Steaming
- Algoritma Nazief & Adriani sebagai algoritma stemming untuk teks berbahasa Indonesia yang memiliki kemampuan prosentase keakuratan (presisi) lebih baik dari algoritma lainnya. Algoritma ini sangat dibutuhkan dan menentukan dalam proses IR dalam dokumen Indonesia.
- Algoritma Porter, Algoritma ini membutuhkan waktu yang lebih singkat dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani, namun proses stemming menggunakan Algoritma Porter memiliki prosentase keakuratan (presisi) lebih kecil dibandingkan dengan stemming menggunakan Algoritma Nazief & Adriani.
Alur Algoritma Nazief & Adriani
- Pertama cari kata dalam kamus kata dasar
- Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang
- Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”
- Hapus Derivation Prefix
- Melakukan Recoding
- Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.
Kelebihan dan Kekurangan Algoritma Nazief & Adriani
Kelebihan
- Memperhatikan kemungkinan – kemungkinan adanya partikel – yang mungkin mengikuti suatu kata berimbuhan.
- Proses stemming dokumen teks berbahasa Indonesia menggunakan Algoritma Nazief & Adriani memiliki presentase keakuratan ( presisi ) lebih besar dibandingkan dengan stemming menggunakan Algoritma Porter.
Kekurangan
- Penyamarataan makna variasi kata
- Jumlah database kata dan kata dasarnya harus besar. Kesalahan terjadi bila kata tidak ditemukan di database dan kemudian dianggap kata dasar, padahal bukan.
- Lamanya waktu yang diperlukan dalam proses pencarian kata di dalam kamus
Sumber :
http://journal.uinjkt.ac.id/index.php/ti/article/viewFile/2031/1586
http://ejournal.undip.ac.id/index.php/jsinbis
http://ejournal.uin-suska.ac.id/index.php/sitekin/article/viewFile/563/535