TBI18-TI15B-P3-Penjelasan Konsep dasar Stemming dan Stoplist-Bagus Sumantri

A. Stoplist

Stoplist merupakan proses untuk menghilangkan kata umum seperti halnya kata imbuhan, pada hasil persing sebuah dokumen teks dengan cara membandingkanya dengan stoplist yang ada, sehingga dapat mempercepat pengindeksian dan proses pencarian, contoh imbuhan misalnya: adalah,di, dan, karena, mana dll

Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat mengurangi level noise.

B. Steaming

Merupakan proses pengelompokan kata secara morfologis sesuai dengan kelompoknya . Ada pengertian lain yaitu proses ini merubah kata-kata yang berimbuhan menjadi kata dasar dengan menghilangkan imbuhan, sisipan maupun akhiran. Sebagai contoh kata ”memakan”, ”dimakan”, ”termakan”, ”makan-makan” akan dikelompokkan kedalam kata ”makan”. Kata ”cinta” memiliki turunan kata ”pecinta”, ”mencintai”, ”dicintai” dan lain sebagainya, sehingga ketika orang memasukkan kata-kata turunan tersebut akan keluar dokumen yang relevan.

Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda. Sebagai contoh kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming juga bervariasi dan sering tergantung pada domain bahasa yang digunakan. Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga dihilangkan.

  1. Stemming Porter

Algoritma yang diimplementasikan dalam aplikasi ini menggunakan algoritma Porter. Algoritma Porter ditemukan oleh Martin Porter 1980. Algoritma tersebut digunakan untuk stemming bahasa inggris, kemudian karena proses stemming bahasa inggris berbeda dengan bahasa indonesia maka, dikembangkan algoritma porter khusus untuk bahasa indonesia (Porter Stemmer for Bahasa Indonesia) oleh W.B. Frakes pada tahun 1992. Algoritma ini terkenal digunakan sebagai stemmer untuk bahasa Inggris. Porter Stemmer dalam bahasa Indonesia akan menghasilkan keambiguan karena aturan morfologi bahasa Indonesia. Bila dibandingkan, untuk teks berbahasa Indonesia, Porter stemmer lebih cepat prosesnya daripada algoritma stemming yang lain,

 

Langkah-langkah algoritma Stemming Porter adalah sebagai berikut:

  1. Periksa pada kata yang akan di Stemm jika terdapat partikel (“-kah”, “-lah”, “-pun”), maka hapus partikel yang melekat.
  2. Hapus kata ganti kepemilikan seperti “-ku”, “-mu”, “-nya”, jika ada.
  3. Hapus first order prefiks (awalan pertama) seperti “-meng”, “-meny”, “-men”,“-mem”, “-me”, “-peng”, “-peny”, “-pen”, “-pem”, “-di”, “-ter”, “-ke”.
  4. Hapus second order prefiks (awalan kedua) seperti “-ber”, “-per”.
  5. Hapus sufiks (akhiran) seperti “-kan”, “-i”, “-an”.

Ada tiga jenis metode stemming, antara lain :

  1. Successor Variety (SV) : lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem. Contoh untuk kata-kata :corpus, able, axle, accident, ape, about menghasilkan SV untuk kata apple :
  2. Karena huruf pertama dari kata “apple” adalah “a”, maka kumpulan kata yang ada substring “a” diikuti “b”, “x”, “c”, “p” disebut SV dari “a”sehingga “a” memiliki 4 SV.
  3. Karena dua huruf pertama dari kata “apple” adalah “ap”, maka kumpulan kata yang ada substring “ap” hanya diikuti “e” disebut SV dari “ap” sehingga “ap” memiliki 1 SV.

 

  1. N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama berdasarkan karakter-karakter (substring) yang teridentifikasi sepanjang N karakter.

 

  1. Affix Removal : membuang suffix dan prefix dari term menjadi suatu stem. Yang paling sering digunakan adalah algoritma Porter Stemmer karena modelnya sederhana dan effisien.
  2. Jika suatu kata diakhiri dengan “ies” tetapi bukan “eies” atau “aies”,

maka “ies” direplace dengan “y”

  1. Jika suatu kata diakhiri dengan “es” tetapi bukan “aes” atau “ees” atau

“oes”, maka “es” direplace dengan “e”

  1. Jika suatu kata diakhiri dengan “s” tetapi bukan “us” atau “ss”, maka

“s” direplace dengan “NULL”

Referensi :

http://live-hadi.blogspot.co.id/2009/04/information-retrieval.html

http://repository.usu.ac.id/bitstream/handle/123456789/53366/Chapter%20II.pdf?sequence=4

 

Unduh Presentasi Pertemuan 3 : Unduh