Iqbal Rifadhli : Pertemuan 3 – Stoplist dan Stemming

Stoplist dan Stemming

A. Konsep Stoplist (stopwords)

     Stopword merupakan kata yang tidak memiliki arti atau tidak relevan. Kata yang diperoleh dari tahap filtering diperiksa dengan daftar stopword, apabila sebuah kata masuk di dalam daftar stopword maka kata tersebut tidak akan diproses lebih lanjut. Sebaliknya apabila sebuah kata tidak termasuk di dalam daftar stopword maka kata tersebut akan masuk ke proses selanjutnya. Daftar stopword tersimpan dalam suatu tabel.

     Alur stopword :

Picture2

B. Konsep Stemming

     Stemming merupakan suatu proses mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (rootword) dengan menggunakan aturan-aturan tertentu. Stemming digunakan untuk mereduksi bentuk kata untuk menghindari ketidak cocokan, di mana kata-kata yang berbeda namun memiliki makna dasar yang sama direduksi menjadi satu bentuk. Proses ini dilakukan pada judul dokumen, abstrak dokumen dan masukan query secara terpisah.

Alur Stemming seperti gambar di bawah ini :

Picture3

 

Proses stemming pada teks Bahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilang-kan.

Algoritma dalam stemming ada banyak namun disini kami menjelaskan 3 algoritma saja diantaranya yaitu :

1.Porter Stemmer (English & Indonesia)

Algoritma Porter Stemming merupakan algoritma yang paling populer. Ditemukan oleh  Martin  Porter  pada tahun 1980. Mekanisme algoritma tersebut dalam mencari  kata  dasar  suatu  kata  berimbuhan, yaitu dengan membuang  imbuhan–imbuhan. Atau  lebih  tepatnya  akhiran pada  kata–kata  bahasa  Inggris  karena  dalam  bahasa Inggris tidak mengenal awalan.

contoh :

Picture1

2.Stemming Nazief-Adriani (Indonesia)

Algoritma Nazief & Adriani memperhatikan kemungkinan adanya partikelpartikel yang mungkin mengikuti suatu kata berimbuhan. Sehingga kita dapat melihat pada rumus untuk algoritma ini yaitu adanya penempatan possesive pronoun dan juga partikel yang mungkin ada pada suatu kata berimbuhan (Agusta, 2009).

Algoritma Nazief & Adriani yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut (Agusta, L.2009):

  • .Pertama cari kata yang akan diistem dalam kamus kata dasar. Jika ditemukan maka   diasumsikan kata adalah root word. Maka   algoritma berhenti.
  • Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang.
  • Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”).

Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a.

a) Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “- k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b) Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.

  1. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”).

Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a.

a) Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “- k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b) Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

  1. Hilangkan derivation prefixes DP {“di-”,“ke-”,“se-”,“me-”,“be ”,“pe”, “te-”} dengan iterasi maksimum adalah 3 kali.

a) Langkah 4 berhenti jika:

  1. Terjadi kombinasi awalan dan akhiran.
  2. Awalan yang dideteksi saat ini sama dengan awalan yang dihilangkan sebelumnya.
  3. Tiga awalan telah dihilangkan.

 

b) Identifikasikan tipe awalan dan hilangkan. Awalan ada 2 tipe:

  1. Standar: “di-”, “ke-”, “se-” yang dapat langsung dihilangkan dari kata.
  1. Kompleks: “me-”, “be-”, “pe”, “te-” adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya.

 

c) Cari kata yang telah dihilangkan awalannya ini di dalam Apabila tidak ditemukan, maka langkah 4 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan.

  1. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses recoding. Recoding dilakukan dengan menambahkan karakter recoding di awal kata yang dipenggal. karakter recoding adalah huruf kecil setelah tanda hubung (‘-’) Dan terkadang berada sebelum tanda kurung. Sebagai contoh, kata “menangkap” setelah dipenggal menjadi“nangkap”.  Karena tidak valid, maka recoding dilakukan dan menghasilkan kata “tangkap”.
  1. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata Awal diasumsikan sebagai root word. Proses selesai.

 

3. Algoritma Enhanced Confix Stripping (ECS)

Algoritma Enhanced Confix Stripping (ECS) merupakan algoritma untuk melakukan proses Stemming. Algoritma ini diperkenalkan oleh Jelita Asian sebagai pengembangan dari algoritma Nazief dan Adriani (1996).

                             [DP+[DP + [DP+]]] Kata Dasar [[+DS][+PP][+P]]

     Keterangan :

  • DP (Derivation Prefixes) : kumpulan awalan yang diberikan langsung pada kata dasar
  • DS (Derivation Suffixes) : kumpulan akhiran yang ditambahkan langsung pada kata dasar
  • PP (Possessive Pronoun) : kata ganti kepunyaan Particle : partikel

Algoritma Enhanched Confix Stripping ini mempunyai tahapan proses sebagai berikut :

1)Kata yang hendak di-stemming dicari terlebih dahulu pada kamus. Jika ditemukan, berarti kata tersebut adalah kata dasar, jika tidak maka langkah 2 dilakukan.

2)Cek rule precedence. Apabila suatu kata memiliki pasangan awalan-akhiran “be-lah”, “be-an”, “me-i”, “di-i”, “pe-i”, atau “te-i” maka langkah stemming selanjutnya adalah (5, 3, 4, 6). Apabila kata tidak memiliki pasangan awalan akhiran tersebut, langkah stemming berjalan normal (3, 4, 5, 6).

3)Hilangkan inflectional particle P (“-lah”, “-kah”, “-tah”, “-pun”) dan kata ganti kepunyaan atau possessive pronoun PP (“-ku”, “-mu”, “-nya”).

4)Hilangkan Derivation Suffixes DS (“-i”, “-kan”, atau “-an”).

5) Hilangkan Derivational Prefixes DP {“di-”,“ke-”,“se-”,“me-”,“be-”,“pe”, “te-”}.

a)Identifikasikan tipe awalan dan hilangkan. Awalan ada dua tipe:

1. Standar: “di-”, “ke-”, “se-” yang dapat langsung   dihilangkan dari kata.

2. Kompleks: “me-”, “be-”, “pe”, “te-” adalah tipe-tipe awalan yang dapat bermorfologi sesuai kata dasar yang mengikutinya.

b) Cari kata yang telah dihilangkan awalannya ini di dalam kamus. Apabila tidak ditemukan, maka langkah 5 diulangi kembali. Apabila ditemukan, maka keseluruhan proses dihentikan.

6) Jika semua gagal, maka masukan kata yang diuji pada algoritma ini dianggap sebagai kata dasar.

sumber :

  • SISTEM TEMU KEMBALI INFORMASI DENGAN MENERAPKAN METODE PROBABILISTIK BINARY INDEPENDENCE MODEL (BIM). Download
  • Implementasi Extended Boolean dan Pemanfaatan Tesaurus Pada Temu Kembali Informasi Download
  • Design And Implementation of Document Similarity Search System For WEB-Based Medical Journal Management Download

 

download file presentasi :

link