Konsep dasar Stemming dan Stoplist
Stop List
Stop list merupakan pembuangan kata yang tidak deskriptif, seperti :
- “yang”
- “dan”
- “di”
- “dari”
- “adalah”
Berikut merupakan contoh hasil pemfilteran :
Stemming
Stemming adalah proses menggabungkan atau memecahkan setiap varian suatu kata menjadi kata dasar.
Contoh Stemming :
Metode Stemming
A. Successor Variety (SV)
Metode ini lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem.
Contoh : corpus, able, axle, accident, ape, about menghasilkan SV untuk kata apple :
- karena huruf pertama dari kata “apple” adalah “ap”, maka kumpulan kata yang ada substring “a” diikuti “b”,”x”,”c”,”p” disebut SV dari “a” sehingga “ap” memiliki 4 SV.
- karena dua huruf pertama dari kata “apple” adalah “ap”maka kumpulan kata yang di substring “ap” hanya diikuti “e” disebut SV dari “ap” memiliki 1 SV
B. N-Gram Conflation
Metode ini ide dasarnya adalah pengelompokkan kata-kata secara bersama berdasarkan karakter yang teridentifikasi sepanjang N karakter.
C. Affix Removal
Metode ini membuang Suffix dan Prefix dari term menjadi stem. Yang paling sering digunakan adalah algoritma porter stemmer karena modelnya sederhana dan effisien.
- Jika suatu kata diakhiri dengan “ies” tetapi bukam “eies”, maka “ies” direplace dengan “y”
- Jika suatu kata diakhiri dengan “es” tetapi buakan “aes” atau “ees” atao “eos”, maka “es” direplace dengan “e”
- Jika suatu kata diakhiri dengan “s” tetapi bukam “us” atau “us”, maka “s” direplace dengan “NULL”
Referensi
https://ranuchi.wordpress.com/2015/05/18/information-retrival-intro/
https://elissophia1991.blogspot.co.id/2012/10/
https://informatikalogi.com/text-preprocessing/