TBI18-TI15C-P3-Penjelasan Konsep dasar Stemming dan Stoplist-Lingga Catur Putra

Konsep dasar Stemming dan Stoplist

Stop List

Stop list merupakan pembuangan kata yang tidak deskriptif, seperti :

  • “yang”
  • “dan”
  • “di”
  • “dari”
  • “adalah”

Berikut merupakan contoh hasil pemfilteran :

 

Stemming

Stemming adalah proses menggabungkan atau memecahkan setiap varian suatu kata menjadi kata dasar.

 

Contoh Stemming :

Metode Stemming

A. Successor Variety (SV)

Metode ini lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem.

Contoh  : corpus, able, axle, accident, ape, about menghasilkan SV untuk kata apple :

  • karena huruf pertama dari kata “apple” adalah “ap”, maka kumpulan kata yang ada substring “a” diikuti “b”,”x”,”c”,”p” disebut SV dari “a” sehingga “ap” memiliki 4 SV.
  • karena dua huruf pertama dari kata “apple” adalah “ap”maka kumpulan kata yang di substring “ap” hanya diikuti “e” disebut SV dari “ap” memiliki 1 SV

B. N-Gram Conflation

Metode ini ide dasarnya adalah pengelompokkan kata-kata secara bersama berdasarkan karakter yang teridentifikasi sepanjang N karakter.

C. Affix Removal

Metode ini membuang Suffix dan Prefix dari term menjadi stem. Yang paling sering digunakan adalah algoritma porter stemmer karena modelnya sederhana dan effisien.

  • Jika suatu kata diakhiri dengan “ies” tetapi bukam “eies”, maka “ies” direplace dengan “y”
  • Jika suatu kata diakhiri dengan “es” tetapi buakan “aes” atau “ees” atao “eos”, maka “es” direplace dengan “e”
  • Jika suatu kata diakhiri dengan “s” tetapi bukam “us” atau “us”, maka “s” direplace dengan “NULL”

Referensi

https://ranuchi.wordpress.com/2015/05/18/information-retrival-intro/

https://elissophia1991.blogspot.co.id/2012/10/

https://informatikalogi.com/text-preprocessing/

 

Download File Presentasi