TBI18-TI15C-P3-PENGERTIAN STOPLIST DAN STEMMING-KHAERUL IMAM

STOPLIST DAN STEMMING

Pengertin Stop list

Merupakan fitur yang dimiliki sistem information retrieval (search engine), dimana term/kata-kata yang dianggap umum akan diabaikan dalam proses indexing (contoh : I, and, or, is, of, was). Kata-kata yang umum tersebut disebut sebagai stop word. Sistem yang baik memiliki suatu list stop word sebagai acuan dalam mengindex, untuk memilih term-term yang umum ataupun tidak. Stop list berpengaruh juga terhadap hasil pencarian. Misal kita mempunyai sebuah query “information is retrieval” dan “informatin retrieval” (keduanya dicari dengan tanpa menyertakan tanda kutip). Jika suatu sistem information retrieval menyertakan fitur stop list, seharusnya kedua query tersebut menghasilkan search result yang sama karena kata “is” adalah stop word dan tidak akan diindex oleh sistem (diabaikan dalam proses retrieving).

Pengertian Stemming

adalah suatu proses untuk menggabungkan atau memecahkan setiap varian-varian suatu kata menjadi kata dasar. Stem (akar kata) adalah bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). Contoh : connect adalah stem dari connected, connecting, connection, dan connections. Metode stemming memerlukan input berupa term yang terdapat dalam dokumen. Sedangkan outputnya berupa stem.

Ada tiga jenis metode stemming, antara lain :

  1. Successor Variety (SV) : lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem. Contoh untuk kata-kata : corpus, able, axle, accident, ape, about menghasilkan SV untuk kata apple :
  • Karena huruf pertama dari kata “apple” adalah “a”, maka kumpulan kata yang ada substring “a” diikuti “b”, “x”, “c”, “p” disebut SV dari “a” sehingga “a” memiliki 4 SV.
  • Karena dua huruf pertama dari kata “apple” adalah “ap”, maka kumpulan kata yang ada substring “ap” hanya diikuti “e” disebut SV dari “ap” sehingga “ap” memiliki 1 SV.
  1. N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama berdasarkan karakter-karakter (substring) yang teridentifikasi sepanjang N karakter.
  2. Affix Removal : membuang suffix dan prefix dari term menjadi suatu stem. Yang paling sering digunakan adalah algoritma Porter Stemmer karena modelnya sederhana dan effisien.
  • Jika suatu kata diakhiri dengan “ies” tetapi bukan “eies” atau “aies”, maka “ies” direplace dengan “y
  • Jika suatu kata diakhiri dengan “es” tetapi bukan “aes” atau “ees” atau “oes”, maka “es” direplace dengan “e”.
  • Jika suatu kata diakhiri dengan “s” tetapi bukan “us” atau “ss”, maka “s” direplace dengan “NULL”

Stoplist Bahasa Indonesia

Stoplist Adalah proses pembuangan atau menghilangkan kata-kata buang, yaitu : Kata depan, kata sambung, kata ganti, dll. seperti : di, dan, tetapi, dia, yaitu, sedangkan, dan sebagainya.

  • Contoh : Bersyukurlah kita bangsa Indonesia yang begitu memasuki pintu gerbang kemerdekaan, telah memiliki bahasa kesatuan yang sekaligus menjadi bahasa nasional.
  • Menjadi : Bersyukurlah bangsa Indonesia memasuki pintu gerbang kemerdekaan, memiliki bahasa kesatuan sekaligus menjadi bahasa nasional.

Stemming Bahasa Indonesia

Algoritma Stemming Bahasa Indonesia M. Adriani dan B Nazief ini mempunyai aturan imbuhan sendiri dengan model, seperti :

Keterangan :

AW : Awalan

AK : Akhiran

KK : Kata Ganti kepunyaan

P   : Partikel

Tanda kurung besar menandakan bahwa imbuhan adalah opsional.

Tabel 3.1

Gambar diatas merupakan kombinasi Awalan dan Akhiran yang tidak dibenarkan. Kecuali kata dasar “tahu” dibolehkan dengan awalan “ke-“ dan Akhiran “-i” yang menjadi “ketahui”.

Definisi sebelumnya membentuk aturan yang digunakan, namun ada perkecualian dan batasan yang disatukan dalam aturan.

  1. Tiga kata atau sedikit karakter yang tidak mempunyai imbuhan, maka tidak akan dilakukan proses stemming pada kata tersebut.
  2. Imbuhan yang sama tidak pernah diulangi, sebagai contoh, setelah Awalan “te-“ atau dengan variasinya. Maka tidak akan mungkin Awalan “te-“ tersebut akan diulang kembali
  3. Kita bisa menggunakan pembatasan konfiks dalam proses stemming untuk menghindari kombinasi imbuhan yang salah berdasarkan Tabel 3.I. Sebagai contoh, kata dasar yang mempunyai awalan “di-“, maka kata tersebut tidak akan diikuti dengan akhiran “-an”.
  4. Menambahkan satu awalan dapat mengubah kata dasar atau sebelumnya sudah mempunyai awalan; dengan mendiskusikan ini lebih lanjut dalam uraian dari aturan untuk menggambarkan, mempertimbangkan “meng-” yang mempunyai variasi “mem-“, “meng-“, “meny-“, dan “men-“. Salah satu imbuhan ini dapat mengubah satu kata, sebagai contoh, untuk kata dasar “sapu”, variasi yang diterapkan adalah “meny-” untuk menghasilkan kata “menyapu” dimana “s” dihilangkan
  5. Karakter akan dikembalikan setelah proses penghilangan awalan.

Algoritma ini dijabarkan untuk setiap kata yang akan di Stemming :

  1. Kata yang belum di Stemming dicari dalam kamus. Jika ketemu maka diasumsikan kata tersebut adalah kata dasar, maka kata tersebut dikembalikan dan algoritma berhenti.
  2. Hilangkan sufiks untuk (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”). Pertama hilangkan (P) (“-lah”,”-kah”,”-tah”,“-pun”). Setelah itu hilangkan juga (KK) sufiks (“-ku”, “-mu”, atau “-nya”), contoh : kata “bajumulah”, proses stemming pertama menjadi “bajumu” dan proses stemming kedua menjadi “baju”.jika kata “baju” ada didalam kamus maka algoritma berhenti. Sesuai dengan model imbuhan, menjadi :
  3. Hilangkan juga (AK) sufiks (“-i”,”-an”, dan “-kan”), jika berhasil maka jalankan langkah 4. Dengan modelContoh : kata “membelikan” distemming menjadi “membeli”, jika tidak ada dalam kamus maka dilakukan proses penghilangan prefiks pada langkah 4.
  4. Penghilangan prefiks mengikuti langkah-langkah berikut ini :a. Jika sufiks telah dihilangkan pada langkah 3 maka aturan pelarangan kombinasi prefiks-sufiks dicek sesuaidengan aturan pada tabel 3.1. Jika aturan sesuai maka algoritma kembali.b. Jika prefiks yang sekarang sesuai dengan prefiks sebelumnya maka algoritma kembali.c. Jika 3 prefiks telah sebelumnya dihapus maka algoritma kembali.d. Jenis prefiks ditentukan dengan salah satu langkah berikut ini:
  • Jika prefiks dari kata adalah “di-“, “ke-“, atau “se-“, maka maka dapat langsung dihilangkan.
  • Jika prefiks adalah {“te-“, “be-“, “me-“, atau “pe-“}, mempunyai variasi yang berbeda. Dengan contoh, prefiks “me-“ dapat meluruh menjadi “mem-“, “men-“, “meny-“, atau “meng-“ tergantung pada huruf awal dari kata dasar tersebut. Langkah sebelumnya menstemming kata “membelikan” menjadi “membeli”. Sekarang menstemming prefiks “mem-“ menjadi “beli”. Ini adalah kata yang terdapat dalam kamus, maka proses berhenti. Dan jika tidak ada prefiks yang cocok, maka proses berhenti, dan algoritma menunjukan bahwa kata dasar tidak ditemukan.
  • Jika pencarian kata dalam kamus saat ini gagal, algoritma mengulang kembali pada langkah 4 (ini adalah proses reckursif). Jika kata tersebut ditemukan dalam kamus, maka proses berhenti.

5. Jika setelah rekursif penghilangan prefiks, kata dasar tetap tidak ditemukan. Maka recoding menguji kolom aturan dari aturan tabel 3.2 kolom ini menunjukan variasi prefiks dan recoding karakter untuk digunakan pada saat kata dasar diawali dengan huruf tertentu, atau pada suku kata pertama dari akhir kata dasar dengan huruf tertentu. Recoding karakter ditunjukan sebagai huruf kecil tertentu diikuti dengan tanda hubung sebagai kaitan. Tidak semua prefiks mempunyai karakter recoding.

6. Jika semua langkah gagal, algoritma mengembalikan kata asli yang tidak distemming.

Konsep Penggunaan dan Algoritma dalam Stoplist dan Stemming

Algoritma Stemming

  1. Algoritma Porter

Imlementasinya :

Stemming khusus bahasa Inggris yang ditemukan oleh Martin Porter 1980. Mekanisme algoritma dalam mencari kata dasar suatu kata berimbuhan dengan membuang imbuhan-imbuhan (atau lebih tepatnya akhiran) pada kata–kata bahasa Inggris karena dalam bahasa Inggris tidak mengenal awalan. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter sehingga dapat digunakan sesuai dengan bahasa Indonesia. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia.

2. Algoritma Connected Component

Implementasinya :

Merupakan algoritma yang memecahkan permasalahan overstemming dan understemming tidak dapat diselesaikan dengan melakukan stemming dengan hanya melihat kata per kata atau melakukan modifikasi tabel aturan pemenggalan. Penyebabnya adalah hasil dari proses stemming yang dapat berjumlah  lebih dari satu kata. Jika menggunakan teknik stemming kata per kata, maka hasil akhir dari stemming bergantung dari algoritma stemming yang digunakan apakah menggunakan pemenggalan semaksimal mungkin atau sebaliknya.

Alur :

Connected component algorithm dilakukan dengan cara menghubungkan kata-kata yang memiliki nilai em lebih besar daripada nilai threshold untuk em yakni 0,01 sesuai dengan yang digunakan oleh Larkey, Ballesteros, dan Cornell dalam percobaannya. Tiap-tiap graph yang terbentuk selanjutnya akan membentuk sebuah kelas tersendiri.

 

3. Algoritma Stoplist (membuang kata yang kurang penting).
Stoplist / stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Contohnya adalah sebagai berikut :

 

ANDA DAPAT MENDOWNLOAD PPT NYA DISINI : TBI PERTEMUAN KE-3

 

Referensi

“Information Retrieval Intro” https://ranuchi.wordpress.com/2010/05/18/information-retrieval-intro/

ANALISIS DAN PERANCANGAN JURNAL http://elib.unikom.ac.id/files/disk1/382/jbptunikompp-gdl-rhesarulli-19059-7-babiii.pdf

Stemming dan Stoplist Sistem Temu Balik Informasi  https://chaerulaminsubekti.wordpress.com/2017/04/23/stemming-dan-stoplist-sistem-temu-balik-informasi/

Robinson, Implementasi Metode Generalized Vector Space Model Pada Aplikasi Information Retrieval untuk pencarian Informasi Pada Kumpulan Dokumen Teknik Elektro Di UPT BPI LIPI, Jurnal Ilmiah Komputer dan Informatika (KOMPUTA).

Novianti, Algoritma_Stemming www.academia.edu/7293613-ALGORITMA_STEMMING