TBI18-TI15B-P3-STOPLIST DAN STEMMING-EDI SUPRIYONO

 

STOPLIST DAN STEMMING

A. Stoplist

Stop list merupakan fitur yang dimiliki sistem information retrieval (search engine), dimana term/kata-kata yang dianggap umum akan diabaikan dalam proses indexing (contoh : I, and, or, is, of, was). Kata-kata yang umum tersebut disebut sebagai stop word. Sistem yang baik memiliki suatu list stop word sebagai acuan dalam mengindex, untuk memilih term-term yang umum ataupun tidak. Stop list berpengaruh juga terhadap hasil pencarian. Misal kita mempunyai sebuah query “information is retrieval” dan “informatin retrieval” (keduanya dicari dengan tanpa menyertakan tanda kutip). Jika suatu sistem information retrieval menyertakan fitur stop list, seharusnya kedua query tersebut menghasilkan search result yang sama karena kata “is” adalah stop word dan tidak akan diindex oleh sistem (diabaikan dalam proses retrieving).

B. Stemming

Stemming adalah proses pencarian bentuk dasar suatu kalimat dengan cara menghilangkan imbuhannya. Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Stemming Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root wordnya yaitu “sama”. Proses stemming pada teks berBahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan.

Teknik stemming terdiri dari berbagai macam metode.

  • Metode pertama yakni stemming dengan acuan tabel pemenggalan imbuhan. Proses stemming suatu term dengan metode ini dilakukan dengan cara menghilangkan imbuhan dari term tersebut sesuai dengan table acuan pemenggalan imbuhan yang digunakan. Metode kedua merupakan pengembangan dari metode pertama.
  • Metode kedua ini selain menggunakan tabel acuan pemenggalan imbuhan, juga menggunakan suatu kamus kata dasar. Kamus kata dasar ini digunakan sebagai acuan hasil stemming saat proses pemenggalan imbuhan selesai dilakukan. Hasil dari proses stemming dengan metode ini harus ada pada kamus kata dasar, jika tidak maka term yang diinputkan dianggap sebagai bentuk dasar.
  • Metode ketiga dinamakan metode stemmingberbasis corpus (koleksi dokumen) karena hasil stemming menggunakan metode ini dipengaruhi oleh koleksi dokumen yang digunakan dalam proses uji coba. Kelas stem yang terbentuk dipengaruhi oleh nilai statistik co-occurence dari tiap term pada kelas stem tersebut. Metode ini dikembangkan dari hipotesis awal bahwa dua buah term dengan bentuk dasar yang sama akan sering muncul pada koleksi dokumen yang digunakan pada ujicoba. Nilai keseringan muncul secara bersamaan inilah yang dihitung menggunakan statistik co-occurence.

Manfaat  dari proses stemming yakni :
•    Hasil pencarian  kemunculan term dapat dijadikan sebagai perhitungan dokumen.
•    Dapat meningkatkan jumlah dokumen yang terambil sebelum dilakukan pengindeksan.

C. Konsep Penggunaan dan algoritma dalam stoplist dan stemming

  • Algoritma Stemming

Ada banyak macam algoritma Stemming, diantaranya  adalah sebagai berikut:

a) Algoritma Porter

Implementasi :

Stemming khusus bahasa Inggris yang ditemukan oleh Martin Porter 1980. Mekanisme algoritma dalam mencari kata dasar suatu kata berimbuhan dengan membuang imbuhan-imbuhan (atau lebih tepatnya akhiran) pada kata–kata bahasa Inggris karena dalam bahasa Inggris tidak mengenal awalan. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter sehingga dapat digunakan sesuai dengan bahasa Indonesia. Implementasi Porter Stemmer for Bahasa Indonesia berdasarkan English Porter Stemmer yang dikembangkan oleh W.B. Frakes pada tahun 1992. Karena bahasa Inggris datang dari kelas yang berbeda, beberapa modifikasi telah dilakukan untuk membuat Algoritma Porter dapat digunakan sesuai dengan bahasa Indonesia.

Alur :

  1. Hapus Particle,
  2. Hapus Possesive
  3. Hapus awalan pertama. Jika tidak ada lanjutkan ke langkah 4a, jika ada cari maka lanjutkan ke langkah 4b.
  4. a. Hapus awalan kedua, lanjutkan ke langkah
  5. Hapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai root word. Jika ditemukan maka lanjutkan ke langkah 5b.
  1. a. Hapus akhiran. Kemudian kata akhir diasumsikan sebagai root word Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai root word.

b)  Algoritma Connected Component

Implementasi :

Merupakan algoritma yang memecahkan permasalahan overstemming dan understemming tidak dapat diselesaikan dengan melakukan stemming dengan hanya melihat kata per kata atau melakukan modifikasi tabel aturan pemenggalan. Penyebabnya adalah hasil dari proses stemming yang dapat berjumlah  lebih dari satu kata. Jika menggunakan teknik stemming kata per kata, maka hasil akhir dari stemming bergantung dari algoritma stemming yang digunakan apakah menggunakan pemenggalan semaksimal mungkin atau sebaliknya.

Alur :

Connected component algorithm dilakukan dengan cara menghubungkan kata-kata yang memiliki nilai em lebih besar daripada nilai threshold untuk em yakni 0,01 sesuai dengan yang digunakan oleh Larkey, Ballesteros, dan Cornell dalam percobaannya. Tiap-tiap graph yang terbentuk selanjutnya akan membentuk sebuah kelas tersendiri.

  • Algoritma Stoplist

Algoritma stoplist (membuang kata yang kurang penting).
Stoplist / stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah “yang”, “dan”, “di”, “dari” dan seterusnya. Contohnya adalah sebagai berikut :

 

FILE PRESENTASI: DOWNLOAD

SUMBER:

https://chaerulaminsubekti.wordpress.com/2017/04/23/stemming-dan-stoplist-sistem-temu-balik-informasi/

https://yudiagusta.files.wordpress.com/2009/11/196-201-knsi09-036-perbandingan-algoritma-stemming-porter-dengan-algoritma-nazief-adriani-untuk-stemming-dokumen-teks-bahasa-indonesia.pdf

https://ranuchi.wordpress.com/2010/05/18/information-retrieval-intro/

http://informationretrievalsystem.blogspot.co.id/2012/08/definisi-stemming.html