Text Transformation
Adalah tahapan yang digunakan untuk mengubah kata-kata kedalam bentuk dasar sekaligus untuk mengurangi jumlah kata-kata tersebut.
Pedekatan tersebut adalah Stemming dan StopWordList.
• StopWord List Adalah proses pembuangan atau menghilangkan kata-kata buang, yaitu : Kata depan, kata sambung, kata ganti, dll.
• seperti : di, dan, tetapi, dia,yaitu, sedangkan, dan sebagainya.
• Stoplist merupakan tahap proses indexing.
• Contoh :
• Bersyukurlah kita bangsa Indonesia yang begitu memasuki pintu gerbang kemerdekaan,telah memiliki bahasa kesatuan yang sekaligus menjadi bahasa nasional
• Menjadi:
• Bersyukurlah bangsa Indonesia memasuki pintu gerbang kemerdekaan, memiliki bahasa kesatuan sekaligus menjadi bahasa nasional
• Stemming adalah salah satu cara yang digunakan untuk meningkatkan
performa Information Retrieval dengan cara mentransformasi kata-kata dalam sebuah dokumen teks ke kata dasarnya.
• Dengan kata lain pada proses ini kata-kata yang berimbuhan ini akan dibuang bagian imbuhanya.
Contoh Stemming Algoritma M. Adriani dan B. Nazief,
Input :
Bersyukurlah bangsa Indonesia memasuki pintu gerbang kemerdekaan,
memiliki bahasa kesatuan sekaligus menjadi bahasa nasional.
Output :
syukur bangsa Indonesia masuk pintu gerbang merdeka,
milik bahasa satu sekaligus jadi bahasa nasional.
Stemming untuk bahasa Indonesia biasanya menggunakan :
• Portner Stemmer
• Nazrief dan Adriani Stemmer
Materi bisa di unduh dibawah ini
Sumber Referensi :
http://elib.unikom.ac.id/files/disk1/382/jbptunikompp-gdl-rhesarulli-19059-7-babiii.pdf
http://eprints.dinus.ac.id/13537/1/jurnal_14222.pdf
https://medium.com/curahan-rekanalar/karena-data-gak-mungkin-bohong-a17ff90cef87