TUGAS
Temu Balik Informasi
Rangkuman Stemming & Stoplist
Nama kelompok 2 :
1. Desi Rahmawati 14.11.0273
2. Maulana Akbar 14.11.0260
3. Resni Novelalita 14.11.0258
4. Riki Aji Pamungkas 14.11.0317
5. Kurnia Aswin Nuzul 14.11.0270
6. Pradita Novianty 14.11.0289
7. Inggita Al M 14.11.0269
8. Samuel Haryanto 14.11.0250
STMIK AMIKOM PURWOKERTO
2017/2018
Tugas Temu Balik Informasi
1. Konsep stoplist dan steamming serta jelaskan alur dan konsepnya
Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata, yaitu dengan menghilangkan semua imbuhan (Affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran ) pada sebuah kata. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut sesuai dengan struktur.
Sumber : http://etheses.uin-malang.ac.id/3773/1/12650020.pdf
Stemming merupakan suatu teknik untuk mentranformasikan kata-kata dalam sebuah dokumen teks menjadi kata dasar. Pada proses stemming berbeda dalam tiap bahasa karena pada setiap bahasa yang digunakan disetiap negara memiliki aturan-aturan yang berbeda dalam penggunaan kata berimbuhan.
Anggara Noverdy, Romadhony Ade, Suliiyo Dwi Mahmud, 2013. “Implementasi Modifikasi Algoritma Enhanced Confix Stripping Stemmer pada Teks Bahasa Indonesia”. Universitas Telkom
Sumber : https://openlibrary.telkomuniversity.ac.id
Stemming merupakan suatu proses yang terdapat dalam sistem information Retrival yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata yang akarnya (rootword) dengan menggunakan aturan-aturan tertentu, sebagai contoh kata bersama, kebersamaan, menyamai, akan disistem ke root wordnya sama. Pada stemming digunakan untuk mengurangi ukuran sebuah index file. Misalnya dalam suatu deskripsi terdapat variant kata memberikan, diberikan, memberi dan diberi, hanya memiliki akar kata (stem) yaitu beri. Ukuran file daftar index yang semula sejumlah lima reocrd akan direduce sehingga menjadi satu record saja.
Sumber : Nurdiana Ogie, Jumadi, Nursantika Dian, 2016. “ Perabandingan Metode Cosine Similarity Dengan Metode Jaccard Similarity pada Aplikasi Pencarian Terjemah Alqur’an Dalam Bahasa Indonesia”. Volume 1 No. 1. Universitas Islam Negeri Sunan Gunung Djati Bandung.
Link : http://join.if.uinsgd.ac.id/index.php/join/article/download/12/21
Pada proses stemming merupakan pengelolaan keyword menjadi keywoard yang utuh yaitu dengan menghilangkan imbuhan seperti diantaranya “yang”, “di”,”ke”,”me”, “meng”, dan “kan”. Penguraian dari suatu kata menjadi bentuk kata dasarkan (stem). Tahapan pada proses stemming :
1. Token hasil tokenizing diperiksa apakah mengandung imbuhan atau tidak
2. Jika terdapat imbuhan maka akan dilakukan pembuangan imbuhan, terus berulang sampai tidak mengandung imbuhan.
3. Jika tidak mengandung imbuhan maka akan ditampilkan
Pada gambar dibawah ini menunjukan tahapan yang dilakukan sistem dalam mencari kata dasar dari sebuah file dokumen yang diinputkan.
Gambar 1. Flowchart Sistem
Sumber : Hapsari Kembang Rinci, Santoso Juli Yunus, 2015. “ Stemming Artikel Berbahasa Indonesia dengan Pendekatan Confix-Stripiing. Institut Teknologi Adhi Tama Surabaya.
Sumber: http://mmt.its.ac.id/download/SEMNAS/SEMNAS%20XXII/MTI/25.%20Prosiding%20Rinci%20Kembang%20Hapsari%20-%20Ok.pdf
b. Stoplist atau Stopword adalah proses pembuangan kata yang dibuang seperti; tetapi, yaitu, sedangkan, dan sebagainya.Pada tahapan stopword tahapan disini akan mengambil kata-kata penting dari hasil token. Token tersebut merupakan tahapan untuk melakukan pengecekan dari karakter pertama sampai dengan karakter terakhir..
http://jurnal.untan.ac.id/index.php/justin/article/download/1319/1288
Stopword Removal merupakan proses yang dilakukan untuk menghilangkan kata-kata “stopword” pada sebuah kalimat/paragraf. Stopword sendiri merupakan kata yang sering atau lazim digunakan dalam kalimat/paragraf. Sehingga pada tahap pertama yang harus kita lakukan adalah mengumpulkan daftar “stopword” atau Stopword List. Contoh dari Stopword List dalam bahasa indonesia antara lain:
1. Kata penghubung (sesudah,selesai,sebelum)
2. Kata tugas (bagi, dari, dengan, pada)
3. Kata keterangan (sangat, hanya, lebih)
4. Kata bilangan ( beberapa, banyak, sedikit)
5. Kata ganti ( kami, mereka, kita, itu)
6. dan lain sebagainya.
Dalam implementasinya, kita dapat menyimpan daftar Stopword tersebut kedalam sebuah tabel sendiri di database. Kemudian melakukan pengecekan satu persatu kata-kata yang ada di dalam kalimat/paragraf dengan data yang ada di database Stopword tersebut. kita bisa melakukan replace (penghapusan) secara langsung jika Stopword tersebut ditemukan di database.
Setelah proses Stopword Removal dilakukan, tahap selanjutnya adalah melakukan Stemming. Stemming yang dilakukan masih menggunakan algoritma porter untuk bahasa indonesia dengan PHP dan MYSQL. Stemming yang dilakukan tidak hanya satu kata, tapi bisa beberapa kata/kalimat/paragraf sekaligus.
Sumber :
http://kabulkurniawan.com/2012/04/06/information-retrieval-tutorial-stemming-porter-untuk-bahasa-indonesia-bagian-ii/
Tahapan proses stopword adalah sebagai berikut :
1. kata hasil token stemming dibandingkan dengan tabel stopword.
2. dilakukan pengecekan apakah token sama dengan tabel stopword atau tidak
3. jika token sama dengan tabel stopword maka akan diremove
4.jika token tidak sama dengan tabel stopword maka akan dtampilkan yaitu menghasilkan token hasil stopword yang termasuk dalam kata penting (keyword).
Gambar 5. Flowchart Stopword atau stoplist
2. Algoritma yang digunakan
Algotitma pada stemming
1. Algoritma Porter ditemukan oleh Martin Porter 1980. Algoritma tersebut digunakan untuk stemming Bahasa Inggris, kemudian karena proses stemming bahasa Inggris berbeda dengan bahasa Indonesia, maka dikembangkan algoritma Porter khusus untuk bahasa Indonesia (Porter Stemmer for Bahasa Indonesia) oleh W.B Frakes pada tahun 1992.
Langkah-Langkah Algortima pada Porter Stemmer.
1. Menghapus Partikel seperti: kah, lah, tah
2. Menghapus Kata ganti (Possesive Pronoun), seperti ku, mu, nya
3. Menghapus awalan pertama. Jika tidak ditemukan, maka lanjut ke langkah 4a, dan jika ada maka lanjut ke langkah 4b.
4. a. Menghapus Awalan kedua, dan dilanjutkan pada langkah 5a
b. Menghapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai kata dasar (rootword). Jika ditemukan maka lanjut ke langkah 5b.
5. a. Menghapus akhiran dan kata akhir diasumsikan sebagai kata dasar (root word).
b. Menghapus awalan kedua dan kata akhir diasumsikan sebagai kata dasar (root word)
Gambar 2. Porter Stemming untuk Bahasa Indonesia
Sumber : http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/6830/Bab%202.pdf?sequence=11
2. Algoritma Nazief dan Adriani
Nazief & Adriani Stemmer algoritma ini paling sering dibicarakan dalam stemming bahasa indonesia. Algoritma ini merupakan hasil penelitian Internal UI (Universitas Indonesia) dan tidak dipublish secara umum. Namun Algoritma ini mempunyai 2 masalah yang pertama kemampuannya tergantung dari besarnya database kata dasar, dan yang kedua, hasil stemming tidak selalu optimal untuk aplikasi Information Retrieval. Proses stemming dokumen teks menggunakan Algoritma Porter membutuhkan waktu yang lebih singkat dan presentase keakuratan yang lebih kecil dibandingkan dengan algoritma Nazief & Adriani.
Sumber :
Gambar 3. Flowchart Algoritma Nazief Adriani
Sumber : http://repository.uin-suska.ac.id/3524/5/Bab%20IV.pdf
3. Algoritma Confix-Stripping
Langkah pertama pada algoritma stemmer ini dilakukan dengan menggunakan pengecekan rule precedence yakni larangan untuk kombinasi awalan dan akhiran.
Kemudian melakukan mencocokan term pada elemen yang akan diindex tertentu dengan daftar “kata dasar” dalam database kamus. Jika cocok maka term tersebut langsung disimpan dengan variable stemTerm. Jika rule precedence mengembalikan nilai benar maka proses pemenggalan akhiran dilakukan, jika tidak maka akan dilanjutkan dengan proses pemenggalan awalan. Kemudian selanjutnya yaitu proses recording yaitu proses penyesuaian kata desar dengan mengubah huruf pertama dari kata tersebut, apakah hasil recording sama dengan kamus, jika benar, maka kata dasar sama dengan hasil recording jika proses tersebut tidak diulang. Proses pengulangan akan dilakukan sampai 3 kali, jika proses berulang sampai batasan maka kata dasar sama dengan hasil recording kemudian term yang ada langsung disimpan dalam variable dan dianggap sebagai kata dasar.
Gambar 4. Flowchart stemming dengan pendeketan Confix – Stripping
4. Algoritma Vega
Perbedaan Algoritma Vega ini dibandingkan dengan semua algoritma yang lain yaitu pada algoritma vega tidak menggunakan kamus. Urutan penghilangan imbuhan yang melekat pada kata algoritma vega ini sama dengan seperti urutan penghilangan imbuhan yang diterapkan pada algoritma arifin dan setiono..
Yaitu kata yang akan distemming pertama kali diperiksa apakah kata tersebut memiliki awalan, jika kata tersebut memiliki awalan maka langsung dilakukan proses penghilangan untuk awalan dari kata tersebut. Selanjutnya yitu diperiksa kembali apakah memiliki akhiran, jika memiliki akhiran maka akan dilakukan penghilangan akhiran. Lalu penghilangan partikel jika memiliki sebuah partikel kata, dan pemeriksaan apakah memiliki possive pronoum ( kata ganti kepunyaan). Jika memiliki maka akan dilakukan proses penghilangan. Pada algoritma ini, tidak ada pemeriksaan terhadap kata dasar dari suatu kata.
Sumber : http://etheses.uin-malang.ac.id/3773/1/12650020.pdf
5. Algoritma Rule Based pada aksara jawa menggunakan aturan analisis kontrasif afiksasi verba pada imbuhan.
Stemming digunakan untuk memotong imbuhan dari suatu kata menjadi kata dasar sesuai dengan morfologi bahasa yang baik dan benar. Pada penelitian ini menggunakan algoritma stemming rule based yaitu sebgai aturan untuk melakukn pemotongan terhadap imbuhan. Dalam proses ini, inputan kata yang diinputkan oleh user akan dicek terlebih dahulu untuk melakukan pecocokan terhadap kamus yang telah disimpan dalam databse. Jika kata tersebut tidak cocok dengan data dalam database, maka kata tersebut dianggap menjadi kata dasar, tetapi jika ditemukan, maka kata kata tersebut akan mengalami pemotongan. Pada proses ini akan dilakukan penghilangan prefiks, sufiks dan konfixs.
Sumber : mar’atus madia, 2016. “Stemming Bahasa Jawa untuk Mencari Akar Kata dalam Bahasa Jawa dengan Aturan Analisis Kontrasif Afiksasi Verba”. Universitas Islam Negeri Maulana Malik Ibrahim, Malang.
http://etheses.uin-malang.ac.id/3773/1/12650020.pdf
b. Algotitma stoplist atau Stopword yaitu algotitma stop list (membuang kata-kata yang kurang penting) atau word list (menyimpan kata yang tidak penting). Sstem ini menggunakan metode stoplist yaitu menghilangkan kata-kata tidak penting (stopword) pada deskripsi melalui pengecekan kata-kata pada hasil token deskripsi apakah termasuk dalam daftar kata yang tidak penting (stoplist) atau tidak jika termasuk didalam stoplist maka kata-kata tersebut akan diremove dari deskripsi kata-kata yang tersisa didalam deskripsi dianggap sebagai kata-kata penting atau keyword (pattern).
Stopword Removal / Filtering pada tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token, bisa menggunakan algoritma stoplist (membuang kata yang dianggap kurang penting) atau wordlist (menyimpan kata penting)
Gambar 6. Proses Filtering
Sumber : http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/6830/Bab%202.pdf?sequence=11
Power Point