TBI18-TI15B-P3-Stoplist dan Stemming-Agung Nurizal

STOPLIST dan STEMMING

  1. Pengertian STOPLIST dan STEMMING
  • Filtration atau stop word removal merupakan merupakan proses lanjutan dari tokenizing di dalam preprocessing kalimat. Proses filtration merupakan proses untuk menghilangkan kata yang ‘tidak relevan’ pada hasil parsing sebuah dokumen teks dengan cara membandingkannya dengan stoplist yang ada. Stoplist disebut juga dengan stopword. Stoplist berisi sekumpulan kata yang ‘tidak relevan’, namun sering sekali muncul dalam sebuah dokumen. Dengan kata lain Stoplist berisi sekumpulan stopword.
  • Stemming adalah proses pencarian bentuk dasar suatu kalimat dengan cara menghilangkan imbuhannya. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu.

2.Konsep Penggunaan dan aLGoritma dalam stoplist dan stemming

  • Algoritma Stemming

Ada banyak macam algoritma Stemming, diantaranya  adalah sebagai berikut :

  1. Algoritma Porter

Implementasi :

Stemming khusus bahasa Inggris yang ditemukan oleh Martin Porter 1980. Mekanisme algoritma dalam mencari kata dasar suatu kata berimbuhan dengan membuang imbuhan-imbuhan (atau lebih tepatnya akhiran) pada kata–kata bahasa Inggris karena dalam bahasa Inggris tidak mengenal awalan. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter sehingga dapat digunakan sesuai dengan bahasa Indonesia. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia.

Alur :

  1. Hapus Particle,
  2. Hapus Possesive
  3. Hapus awalan pertama. Jika tidak ada lanjutkan ke langkah 4a, jika ada cari maka lanjutkan ke langkah 4b.
  4. a. Hapus awalan kedua, lanjutkan ke langkah
  5. Hapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai root word. Jika ditemukan maka

lanjutkan ke langkah 5b.

  1. a. Hapus akhiran. Kemudian kata akhir diasumsikan sebagai root word
  2. Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai root word. 2.Algoritma Connected Component

Implementasi :

Merupakan algoritma yang memecahkan permasalahan overstemming dan understemming tidak dapat diselesaikan dengan melakukan stemming dengan hanya melihat kata per kata atau melakukan modifikasi tabel aturan pemenggalan. Penyebabnya adalah hasil dari proses stemming yang dapat berjumlah  lebih dari satu kata. Jika menggunakan teknik stemming kata per kata, maka hasil akhir dari stemming bergantung dari algoritma stemming yang digunakan apakah menggunakan pemenggalan semaksimal mungkin atau sebaliknya.

Alur :

Connected component algorithm dilakukan dengan cara menghubungkan kata-kata yang memiliki nilai em lebih besar daripada nilai threshold untuk em yakni 0,01 sesuai dengan yang digunakan oleh Larkey, Ballesteros, dan Cornell dalam percobaannya. Tiap-tiap graph yang terbentuk selanjutnya akan membentuk sebuah kelas tersendiri.

  • Algoritma Stoplist

Algoritma stoplist (membuang kata yang kurang penting).
Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya.

 

Sumber : https://chaerulaminsubekti.wordpress.com/2017/04/23/stemming-dan-stoplist-sistem-temu-balik-informasi/