TBI18-TI15C-P3-STOPLIST DAN STEMMING-ANDRU DITE S.Y

STOP LIST & STEMMING

 

Stop list

Stop list merupakan fitur yang dimiliki sistem information retrieval (search engine), dimana term/kata-kata yang dianggap umum akan diabaikan dalam proses indexing (contoh : I, and, or, is, of, was). Kata-kata yang umum tersebut disebut sebagai stop word. Sistem yang baik memiliki suatu list stop word sebagai acuan dalam mengindex, untuk memilih term-term yang umum ataupun tidak. Stop list berpengaruh juga terhadap hasil pencarian. Misal kita mempunyai sebuah query “information is retrieval” dan “informatin retrieval” (keduanya dicari dengan tanpa menyertakan tanda kutip). Jika suatu sistem information retrieval menyertakan fitur stop list, seharusnya kedua query tersebut menghasilkan search result yang sama karena kata “is” adalah stop word dan tidak akan diindex oleh sistem (diabaikan dalam proses retrieving).

 

Pembuangan Stopword (Stopword Removal)

Proses pembuangan stopword dimaksudkan untuk mengetahui suatu katamasuk ke dalam stopword atau tidak. Pembuangan stopword adalah prosespembuangan term yang tidak memiliki arti atau tidak relevan. Termyangdiperoleh dari tahap tokenisasi dicek dalam suatu daftar stopword, apabila sebuahkata masuk di dalam daftar stopword maka kata tersebut tidak akan diproses lebihlanjut. Sebaliknya apabila sebuah kata tidak termasuk di dalam daftar stopwordmaka kata tersebut akan masuk keproses berikutnya. Daftar stopword tersimpandalam suatu tabel, dalam penelitian ini menggunakan daftar stopword yangdigunakan oleh Tala (2003), yang merupakan stopword Bahasa Indonesia yang berisi kata-kata seperti ; ini, itu, yang, ke, di, dalam, kepada, dan seterusnyasebanyak 780 kata. Seperti terlihat pada gambar 2.3 pembuangan stopword dilakukan denganmengecek pada tabel stopword. Bila term cocok dengan salah satu isi tabel stopword, maka term tersebut dianggap sebagai stopwordakan dibuang dan tidakakan diikutkan pada proses stemming. Dari proses pembuangan stopwordakanmenghasilkan term tanpa stopword.

 

Stemming

Stemming adalah proses untuk menggabungkan atau memecahkan setiap varian-varian suatu kata menjadi kata dasar. Stem (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). Algoritma stemming yang digunakan adalah modifikasi Porter stemmer dari(Tala, 2003).  Contoh : connect adalah stem dari connected, connecting, connection, dan connections. Metode stemming memerlukan input berupa term yang terdapat dalam dokumen. Sedangkan outputnya berupa stem.

Ada tiga jenis metode stemming, antara lain :

  1. Successor Variety (SV) : lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem. Contoh untuk kata-kata : corpus, able, axle, accident, ape, about menghasilkan SV untuk kata apple :
    • Karena huruf pertama dari kata “apple” adalah “a”, maka kumpulan kata yang ada substring “a” diikuti “b”, “x”, “c”, “p” disebut SV dari “a” sehingga “a” memiliki 4 SV.
    • Karena dua huruf pertama dari kata “apple” adalah “ap”, maka kumpulan kata yang ada substring “ap” hanya diikuti “e” disebut SV dari “ap” sehingga “ap” memiliki 1 SV.
  2. N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama berdasarkan karakter-karakter (substring) yang teridentifikasi sepanjang N karakter.
  3. Affix Removal : membuang suffix dan prefix dari term menjadi suatu stem. Yang paling sering digunakan adalah algoritma Porter Stemmer karena modelnya sederhana dan effisien.
    • Jika suatu kata diakhiri dengan “ies” tetapi bukan “eies” atau “aies”, maka “ies” direplace dengan “y”
    • Jika suatu kata diakhiri dengan “es” tetapi bukan “aes” atau “ees” atau “oes”, maka “es” direplace dengan “e”
    • Jika suatu kata diakhiri dengan “s” tetapi bukan “us” atau “ss”, maka “s” direplace dengan “NULL”

 

Pada stemmer Tala terdapat 5 langkah utama dengan 3 langkah awal dan 2 langkah pilihan, langkah-langkah tersebut sbb:

  • Menghilangkan partikel
  • Menghilangkan kata sandang dan kepunyaan
  • Menghilangkan awalan 1
  • Jika suatu aturan terpenuhi jalankan sebagai berikut :
    • Hilangkan Akhiran
    • Jika suatu aturan terpenuhi, hilangkan awalan 2. Jika tidakproses stemming selesai
  • Jika tidak ada aturan yang terpenuhi jalankan sebagai berikut :
    • Hilangkan awalan 2
    • Hilangkan Akhiran
    • Proses stemming selesai.

 

Algoritma Stemming Bahasa Indonesia

Ada beberapa algoritma Stemming Bahasa Indonesia, semuanya menghadapi tantangan yang serupa. Sastrawi stemmer menerapkan algoritma yang berbasis Nazief dan Adriani, kemudian ditingkatkan oleh Algoritma CS (Confix Stripping), kemudian ditingkatkan lagi oleh algortima ECS (Enhanced Confix Stripping), lalu ditingkatkan lagi oleh Modified ECS.

Dengan menggunakan algoritma-algoritma tersebut, banyak persoalan stemming berhasil diatasi:

  • Mencegah overstemming dengan kamus kata dasar
  • Mencegah understemming dengan aturan-aturan tambahan
  • Kata bentuk jamak berhasil distem: Buku-buku -> buku
  • Saat ini, Sastrawi stemmer memiliki lebih dari 40 aturan pemenggalan, dapat dilihat di functional

 

Download PPT

 

REFERENSI

https://ranuchi.wordpress.com/2010/05/18/information-retrieval-intro/

https://aprianapanca.wordpress.com/2017/09/22/penerapan-tokenisasi-stopword-removal-dan-stemming/

Amin, Fatkhul. 2012. Sistem Temu Kembali Informasi dengan  Metode Vector Space Model. Fakultas Teknologi Informasi, Universitas Stikubank, Semarang

eprints.unisbank.ac.id/1578/2/03_LaporanOntolog-Herny.pdf

malifauzi.lecture.ub.ac.id/files/2016/02/Text-Pre-Processing-v2.pptx

https://github.com/sastrawi/sastrawi/wiki/Stemming-Bahasa-Indonesia