REVIEW JURNAL NASIONAL DAN INTERNASIONAL
KELOMPOK :
- KEVIN SETIAWAN (14.11.0221)
- AHMAD ZAINUR (14.11.0254)
- BAHRUL AMIQ (14.11.0349)
- PUTRANTO DANU P (14.11.0356)
- OKRINDI NUGROHO
- SATRIO A.P
- FURQON N
KELAS : TI14C
Review Jurnal Nasional
Judul : Peningkatan Algoritma Porter Stemmer Bahasa Indonesia berdasarkan Metode Morfologi dengan Mengaplikasikan 2 Tingkat Morfologi dan Aturan Kombinasi Awalan dan Akhiran
Penulis : Putu Bagus Susastra Wiguna (1), Bimo Sunarfri Hantono (2)
Tahun : 2013
A. Intisari – Stemmer
Intisar – Stemmer telah digunakan secara luas dalam pengolahan dokumen elektronik seperti: sistem temu kembali informasi (information retrieval), question answering, pemeriksaan ejaan, mesin penerjemah, clustering dokumen, klasifikasi dokumen. Metode stemmer dengan menggunakan morfologi suatu kata memiliki beberapa kekurangan seperti tidak tepat menghilangkan awalan pada kata dasar yang berawalan huruf “k”, “t”, “s” dan “p” serta tidak tepat dalam menghilangkan akhiran terutama untuk akhiran “-kan” dan “- an.”
Untuk menyelesaikan masalah ini, penelitian ini menawarkan penggunaan 2 tingkat morfologi pada kata dasar berawalan huruf “k”, “t”, “s” dan “p” serta menggunakan aturan kombinasi awalan dan akhiran untuk menghilangkan akhiran pada suatu kata seperti awalan “di-” hanya boleh dipasangkan dengan akhiran “-kan” dan tidak boleh dengan akhiran “-an” Hasil dari penelitian ini adalah stemmer yang memiliki tingkat akurasi 95,5%, lebih baik dibandingkan stemmer sebelumnya yang menggunakan algoritma berdasarkan morfologi suatu kata. Stemmer sebelumnya yang menggunakan algoritma berdasarkan morfologi suatu kata memiliki tingkat akurasi 82,5%.
B. PENDAHULUAN
Stemming telah digunakan secara luas dalam pengolahan dokumen elektronik. Stemming digunakan dalam beberapa bidang seperti: sistem temu kembali informasi (information retrieval), question answering (QA), pemeriksaan ejaan, mesin penerjemah, clustering dokumen, klasifikasi dokumen dan lain-lain. Stemming adalah prosedur komputasi yang mengubah kata menjadi bentuk asalnya (stem) dengan mencari awalan, akhiran dan menghapusnya berdasarkan aturan suatu bahasa. Hasil dari proses stemming disebut dengan token. Salah satu keuntungan menggunakan stemming dalam pengembangan sistem temu kembali informasi (information retrieval) adalah: efisiensi dan index file yang sudah terkompresi. Misal seperti ini: seorang pencari memasukan term stemming sebagai bagian dari query. Hal itu menunjukkan bahwa orang tersebut juga tertarik pada stemmed dan stem. Tanpa proses stemming, kata “stemming”, “stemmed” dan “stem” adalah sesuatu yang berbeda.
Penelitian ini mengembangkan suatu stemmer yang mencari kata dasar dari suatu kata berdasarkan morfologi suatu kata dengan mengaplikasikan 2 tingkat morfologi dan aturan kombinasi awalan dan akhiran. Penggunaan 2 tingkat morfologi dapat menghindari kesalahan pada saat menghilangkan awalan pertama pada kata dasar yang berawalan huruf “k”, “t”, “s” dan “p”. Aturan kombinasi awalan dan akhiran dapat digunakan untuk menghindari kesalahan pada saat menghilangkan akhiran “-kan” dan “-an” yang tidak dapat dilakukan pada penelitian sebelumnya.
Struktur suatu kata bahasa Indonesia pada memperlihatkan bahwa suatu kata dalam bahasa Indonesia dibangun dari suatu kata dasar dengan menggunakan berbagai operasi morfologi meliputi menggabungkan, menambahkan imbuhan dan pengulangan. Bentuk pengulangan suatu kata dapat dibagi menjadi 2 jenis yaitu: pengulangan penuh dan pengulangan sebagian. Contoh dari pengulangan penuh adalah “buku-buku” yang berasal dari kata dasar “buku”, “matamata” yang berasal dari kata dasar “mata” Pengulangan sebagian meliputi pengulangan dengan menambahkan imbuhan pada kata dasar seperti: “buah-buahan” dengan kata dasar “buah”, “bertingkat-tingkat” dengan kata dasar “tingkat”. Tidak semua kombinasi awalan dan akhiran dapat digunakan bersama-sama.
Morfologi adalah suatu penelitian yang mempelajari tentang cara suatu kata dibangun dari unit-unit yang lebih kecil. Dalam bahasa Inggris kata “kind” terdiri dari satu unit terkecil yang biasa disebut dengan kata dasar sedangkan kata “players” terdiri dari 3 unit terkecil yaitu: “play”, “-er” dan “- s”. Unit terkecil “kind” dan “play” dapat berdiri sendiri sebagai kata sedangkan imbuhan “-er” dan “-s” harus dilekatkan dengan unit terkecil lainnya agar dapat menjadi sebuah kata.
C. STRUKTUR KATA DALAM BAHASA INDONESIA
- Tata Bahasa Indonesia
Berdasarkan Strukturnya Berdasarkan strukturnya, kata dalam bahasa Indonesia dapat dilekati 5 jenis imbuhan yang berbeda yaitu: awalan, sisipan, akhiran, kata ganti milik dan partikel. Tidak semua kombinasi awalan dan akhiran dapat digunakan bersama-sama. Ada beberapa kombinasi awalan dan akhiran yang tidak diijinkan dalam tata bahasa Indonesia
D. METODE STEMMING
Suatu stemmer dibangun dengan asumsi bahwa tidak ada suatu kata yang bermakna ganda. Proses yang dilakukan adalah: menghilangkan partikel, menghilangkan kata ganti milik, menghilangkan awalan pertama, menghilangkan awalan kedua, menghilangkan suffix dan selanjutnya ditemukan kata dasar dari suatu kata.
E. HASIL DAN PEMBAHASAN
Eksperimen dilakukan dengan menggunakan 10 artikel berita dari Universitas Gadjah Mada. 10 Artikel ini telah melewati proses menghilangkan stop word sebelum dilakukan proses stemming. Dalam suatu artikel atau dokumen terdapat kata yang tidak memiliki informasi dalam jumlah yang besar yang disebut juga dengan stop word. Dengan menghilangkan stop words maka komputasi dapat menjadi lebih sederhana dan kata yang diproses adalah kata yang benar-benar memiliki nilai informasi. Sebanyak 555 kata yang berbeda baik kata yang berimbuhan maupun kata dasar dari 10 artikel berita Universitas Gadjah Mada.
F. KESIMPULAN DAN SARAN
Dengan mengaplikasikan aturan 2 tingkat morfologi dapat meningkatkan kemampuan stemmer untuk mendapatkan kata dasar yang tepat untuk kata dasar yang berawalan huruf “k”, “t”, “s” dan “p” dengan akurasi 100%. Tingkat akurasi ini lebih tinggi jika dibandingkan dengan stemmer sebelumnya yang memiliki tingkat akurasi 59.2% dalam mengaplikasikan 2 tingkat morfologi. Aturan kombinasi awalan dan akhiran juga dapat meningkatkan kemampuan stemmer untuk menentukan akhiran yang melekat pada suatu kata terutama untuk akhiran “-kan” dan akhiran “-an” dengan tingkat akurasi 96.6%. Tingkat akurasi ini lebih tinggi jika dibandingkan dengan stemmer sebelumnya yang memiliki tingkat akurasi 72.8% dalam mengaplikasikan aturan kombinasi awalan dan akhiran. Secara umum stemmer pada penelitian ini menghasilkan akurasi lebih baik dari stemmer sebelumnya yaitu 95.5% berbanding 82.5%.
Metode dengan melihat morfologi suatu kata menimbulkan masalah yaitu dengan kata yang berhomonim, homofon, homograf dan polisemi. Selain itu juga diperlukan metode untuk mengidentifikasi kata dasar dengan benar pada kata yang berulang.
Sumber :
http://ejnteti.jteti.ugm.ac.id/index.php/JNTETI/article/download/49/83.
File Presentasi : Download
Review Jurnal Internasional
Judu : Gambaran Sinkat Tentang Temu Kembali Informasi Modern
Penulis : Amit Singhal
Tahun : 2001
A. Abstrak
Selama ribuan tahun orang menyadari pentingnya pengarsipan dan mencari informasi. Dengan kemunculan komputer, menjadi mungkin untuk menyimpan sejumlah besar informasi, dan menemukan berguna Informasi dari koleksi semacam itu menjadi sebuah kebutuhan. Bidang Information Retrieval (IR) lahirPada tahun 1950 keluar dari kebutuhan ini. Selama empat puluh tahun terakhir, lapangan telah matang dengan baik. Beberapa Sistem IR digunakan setiap hari oleh beragam pengguna. Artikel ini adalah gambaran singkat dari Kemajuan utama di bidang Information Retrieval, dan deskripsi tentang state-of-the-art di lapangan.
B. Sejarah Singkat
Praktik pengarsipan informasi tertulis dapat ditelusuri kembali sekitar 3000 SM, saat orang Sumeria, area khusus yang ditunjuk untuk menyimpan tablet tanah liat dengan prasasti runcing. Bahkan saat itu orang Sumeria menyadari bahwa organisasi yang tepat dan akses terhadap arsip sangat penting untuk penggunaan informasi yang efisien. Mereka mengembangkan klasifikasi khusus untuk mengidentifikasi setiap tablet dan isinya. Kebutuhan untuk menyimpan dan mengambil informasi tertulis menjadi semakin penting selama berabad-abad, terutama dengan penemuan seperti kertas dan mesin cetak. Segera setelah komputer ditemukan, orang menyadari bahwa teknologi itu dapat digunakan untuk menyimpan dan secara mekanis mengambil sejumlah besar informasi. Pada tahun 1945 Vannevar Bush Menerbitkan sebuah artikel ground breaking berjudul “As We May Think” yang melahirkan gagasan untuk mengakses secara otomatis sejumlah besar pengetahuan tersimpan. Pada tahun 1950an, gagasan ini muncul menjadi deskripsi yang lebih konkret bagaimana arsip teks bisa dicari secara otomatis. Beberapa karya muncul pada pertengahan tahun 1950an yang dielaborasi atas gagasan dasar mencari teks dengan komputer. Salah satu metode yang paling berpengaruh digambarkan oleh H.P. Luhn pada tahun 1957, di mana secara sederhana ia mengusulkan menggunakan kata-kata sebagai unit pengindeksan untuk dokumen dan pengukuran kata tumpang tindih sebagai kriteria untuk pengambilan.
Beberapa perkembangan penting di lapangan terjadi di tahun 1960an. Yang paling menonjol adalah perkembangan sistem SMART oleh Gerard Salton dan murid-muridnya, pertama di Universitas Harvard dan kemudian di Cornell University; dan evaluasi Cranfield yang dilakukan oleh Cyril Cleverdon dan kelompoknya di College of autics di Jakarta Cranfield. Tes Cranfield mengembangkan metodologi evaluasi untuk sistem pengambilan yang masih digunakan untuk meningkatkan kualitas pencarian Sebuah sistem untuk eksperimen ditambah dengan metodologi evaluasi yang baik memungkinkan dengan cepat kemajuan di lapangan, dan membuka jalan bagi banyak perkembangan penting. Tahun 1970-an dan 1980-an melihat banyak perkembangan yang dibangun di atas kemajuan tahun 1960an. Berbagai model untuk dilakukan pengambilan dokumen dikembangkan dan kemajuan dilakukan sepanjang semua dimensi proses pencarian. Model atau teknik baru ini terbukti terbukti efektif pada koleksi teks kecil (beberapa ribu artikel) tersedia bagi para periset pada saat itu. Namun, karena kurangnya ketersediaan koleksi teks besar, Pertanyaan apakah model dan teknik ini akan mengarah ke korpora yang lebih besar tetap tidak terjawab. Ini diubah pada tahun 1992 dengan dimulainya Konferensi Retrieval Teks, atau TREC. TREC adalah rangkaian evaluasi konferensi yang disponsori oleh berbagai badan Pemerintah AS di bawah naungan NIST, yang bertujuan mendorong penelitian di IR dari kumpulan teks besar. Dengan koleksi teks besar yang tersedia di bawah TREC, banyak teknik lama dimodifikasi, dan banyak teknik baru dikembangkan (dan masih dikembangkan) untuk melakukan pengambilan efektif melalui koleksi besar. TREC memiliki Juga bercabang IR ke bidang terkait tapi penting seperti pengambilan informasi lisan, bahasa non-Inggris pengambilan, penyaringan informasi, interaksi pengguna dengan sistem pengambilan, dan sebagainya. Algoritma dikembangkan di IR adalah yang pertama yang dipekerjakan untuk mencari World Wide Web dari tahun 1996 sampai 1998. Pencarian web, Namun, matang menjadi sistem yang memanfaatkan keterkaitan silang yang ada di web.
C. Model dan Implementasi
Sistem IR awal adalah sistem boolean yang memungkinkan pengguna untuk menentukan kebutuhan informasinya menggunakan kompleks Kombinasi boolean ANDs, ORs dan NOTs. Sistem boolean memiliki beberapa kekurangan. Ada tidak ada pengertian yang melekat pada peringkat dokumen, dan sangat sulit bagi pengguna untuk membuat permintaan pencarian yang bagus. Bahkan meskipun sistem boolean biasanya mengembalikan dokumen yang cocok dalam beberapa urutan, misalnya, diurutkan menurut tanggal, atau beberapa lainnya Fitur dokumen, peringkat relevansi seringkali tidak penting dalam sistem boolean. Meskipun telah ditunjukkan oleh komunitas penelitian bahwa sistem boolean kurang efektif daripada sistem pengambilan peringkat, banyak pengguna listrik masih menggunakan sistem boolean karena mereka merasa lebih terkendali dalam proses pencarian. Namun, kebanyakan pengguna Sistem IR sehari-hari mengharapkan sistem IR melakukan pengambilan peringkat. Sistem IR memberi peringkat dokumen berdasarkan estimasi mereka terhadap kegunaan dokumen untuk kueri pengguna Sebagian besar sistem IR menetapkan nilai numerik untuk setiap dokumen dan rangking dokumen dengan skor ini Beberapa model telah diusulkan untuk proses ini. Tiga model yang paling banyak digunakan di IR Penelitian adalah model ruang vektor, model probabilistik, dan model jaringan inferensi.
- Model Ruang Vektor
Dalam teks model ruang vektor diwakili oleh vektor istilah. [28] Definisi istilah tidak melekat dalam model, tapi istilah biasanya kata dan frasa. Jika kata-kata dipilih sebagai istilah, maka setiap kata dalam kosakata menjadi dimensi independen dalam ruang vektor dimensi yang sangat tinggi. Teks apapun bisa jadi diwakili oleh sebuah vektor di ruang berdimensi tinggi ini. Jika sebuah istilah termasuk sebuah teks, maka sebuah nilai nol di dalam vektor teks sepanjang dimensi yang sesuai dengan istilah. Karena teks apapun berisi serangkaian persyaratan terbatas (Kosakata bisa jutaan istilah), kebanyakan vektor teks sangat jarang. Sebagian besar sistem berbasis vektor beroperasi di kuadran positif dari ruang vektor, yaitu, tidak ada istilah yang diberi nilai negatif. Untuk menetapkan nilai numerik ke dokumen untuk kueri, model mengukur kesamaan antara kueri vektor (karena query juga hanya teks dan bisa diubah menjadi vektor) dan vektor dokumen.
- Model Probabilistik
Keluarga model IR ini didasarkan pada prinsip umum bahwa dokumen dalam koleksi harus diberi peringkat dengan mengurangi kemungkinan relevansinya dengan kueri. Ini sering disebut prinsip peringkat probabilistik (PRP). [20] Karena probabilitas sebenarnya tidak tersedia pada sistem IR, model IR probabilistik memperkirakan kemungkinan relevansi dokumen untuk kueri. Estimasi ini adalah bagian kunci dari model, dan ini adalah di mana sebagian besar model probabilistik berbeda satu sama lain. Gagasan awal pengambilan probabilistik diajukan oleh maron dan Kuhns dalam sebuah makalah yang diterbitkan pada tahun 1960. Sejak saat itu, banyak model probabilistik telah diajukan, masing berdasarkan teknik estimasi probabilitas yang berbeda.
- Model Jaringan Inferensi
Dalam model ini, pengambilan dokumen dimodelkan sebagai proses inferensi dalam jaringan inferensi. Kebanyakan teknik digunakan oleh sistem IR dapat diimplementasikan dengan model ini. Dalam implementasi model yang paling sederhana ini, Sebuah dokumen memberi contoh sebuah istilah dengan kekuatan tertentu, dan kredit dari beberapa istilah terakumulasi diberikan sebuah query untuk menghitung nilai numerik yang setara dengan dokumen. Dari perspektif operasional, kekuatan instantiasi sebuah istilah untuk sebuah dokumen dapat dianggap sebagai bobot istilah dalam dokumen, dan peringkat dokumen dalam bentuk sederhana dari model ini menjadi serupa dengan rangking dalam model ruang vektor dan model probabilistik yang dijelaskan di atas. Kekuatan instantiasi istilah untuk dokumen tidak didefinisikan oleh model, dan formulasi apapun dapat digunakan. 2.4 Implementasi sebagian besar sistem IR operasional didasarkan pada struktur data daftar terbalik. Ini memungkinkan akses cepat ke daftar.
D. Evaluasi
Evaluasi obyektif efektivitas pencarian telah menjadi landasan IR. Kemajuan di lapangan sangat tergantung saat bereksperimen dengan gagasan baru dan mengevaluasi dampak dari gagasan ini, terutama mengingat eksperimen sifat lapangan Sejak awal, terbukti bagi peneliti di masyarakat bahwa evaluasi obyektif teknik pencarian akan memainkan peran kunci di lapangan. Tes Cranfield, yang dilakukan pada tahun 1960an, menetapkan seperangkat karakteristik yang diinginkan untuk sistem pencarian. Meskipun telah terjadi beberapa perdebatan selama bertahun – tahun, dua sifat yang diinginkan yang telah diterima oleh komunitas riset untuk pengukuran efektivitas pencarian ingat: proporsi dokumen yang relevan diambil oleh sistem; Dan presisi: proporsi mengambil dokumen yang relevan. Diakui dengan baik bahwa sistem IR yang baik harus mengambil sebanyak mungkin dokumen yang relevan (yaitu, miliki penarikan yang tinggi), dan harus mengambil sedikit dokumen yang tidak relevan (yaitu, memiliki presisi tinggi). Sayangnya, kedua tujuan ini telah terbukti cukup kontradiktif selama bertahun-tahun. Teknik yang cenderung meningkatkan daya ingat cenderung melukai presisi dan sebaliknya. Baik recall dan precision adalah langkah-langkah yang berorientasi dan tidak memiliki pengertian pengambilan peringkat. Periset telah menggunakan beberapa varian recall dan precision untuk mengevaluasi rank retrieval. misalnya, jika perancang sistem merasa presisi lebih penting bagi penggunanya, mereka bisa menggunakan ketepatan dalam sepuluh atau dua puluh dokumen teratas sebagai metrik evaluasi. Di sisi lain jika mengingat lebih penting bagi pengguna, seseorang bisa mengukur ketepatan pada (katakanlah) recall 50%, yang akan menunjukkan berapa banyak dokumen yang tidak relevan. Pengguna harus membaca untuk menemukan setengah yang relevan. Satu ukuran yang perlu disebutkan secara khusus adalah presisi rata-rata, satu ukuran penilaian yang paling umum digunakan oleh komunitas penelitian IR untuk dievaluasi pengambilan peringkat Ketepatan rata-rata dihitung dengan mengukur presisi pada titik ingat yang berbeda (misalnya 10%, 20%, dan sebagainya) dan rata-rata.
E. Teknik Utama
Menjelaskan bagaimana model IR yang berbeda dapat diterapkan dengan menggunakan daftar terbalik. Bagian paling kritis dari informasi yang diperlukan untuk peringkat dokumen di semua model adalah bobot sebuah istilah dalam sebuah dokumen. Sebagian besar pekerjaan telah menjadi perkiraan yang tepat dari bobot ini dalam model yang berbeda. Teknik lain yang telah ditunjukkan agar efektif dalam memperbaiki rangking dokumen adalah modifikasi query via relevansi umpan balik. Sebuah negara-of-the-art sistem peringkat menggunakan skema bobot efektif yang dikombinasikan dengan teknik perluasan query yang baik.
- Batas Waktu
Berbagai metode untuk pembobotan telah dikembangkan di lapangan. Metode pembobotan dikembangkan di bawah model probabilistik sangat bergantung pada perkiraan berbagai probabilitas yang lebih baik.
- Modifikasi Kuantitas
Relevansi umpan balik telah terbukti berhasil secara efektif di seluruh koleksi uji. Teknik baru untuk melakukan ekspansi permintaan yang berarti tanpa adanya umpan balik pengguna dikembangkan lebih awal 1990-an. Yang paling menonjol dari ini adalah umpan balik semu, varian umpan balik relevansi. Mengingat bahwa beberapa teratas dokumen yang diambil oleh sistem IR seringkali berada pada topik kueri umum, memilih istilah terkait dari ini dokumen harus menghasilkan persyaratan baru yang berguna terlepas dari relevansi dokumen. Dalam pseudo-feedback sistem IR mengasumsikan bahwa beberapa dokumen teratas diambil untuk kueri pengguna awal “relevan”, dan relevan umpan balik untuk menghasilkan kueri baru Kueri baru yang diperluas ini kemudian digunakan untuk memberi peringkat dokumen untuk dipresentasikan pengguna. Umpan balik palsu telah terbukti menjadi teknik yang sangat efektif, terutama untuk kueri pengguna pendek.
F. Teknik dan Aplikasi Lainnya
Banyak teknik lain telah berkembang selama bertahun-tahun dan telah mengalami berbagai keberhasilan. Hipotesis klaster menyatakan bahwa dokumen yang berkelompok bersama (sangat mirip satu sama lain) akan memiliki relevansi profil yang serupa untuk kueri tertentu. Teknik pengelompokkan dokumen (dan masih) merupakan area penelitian yang aktif. Meskipun kegunaan pengelompokkan dokumen untuk peningkatan efektivitas penelusuran (atau efisiensi) telah dilakukan sangat terbatas, kumpulan dokumen telah memungkinkan beberapa perkembangan di IR.
G. Kesimpulan
Bidang pencarian informasi telah berjalan jauh dalam empat puluh tahun terakhir, dan telah memungkinkan lebih mudah dan lebih cepat penemuan informasi Pada tahun-tahun awal ada banyak keraguan yang diajukan mengenai teknik statistik sederhana digunakan di lapangan Namun, untuk tugas mencari informasi, teknik statistik ini memang ada terbukti paling efektif sejauh ini. Teknik yang dikembangkan di lapangan telah banyak digunakan di lapangan area dan telah menghasilkan banyak teknologi baru yang digunakan oleh orang-orang setiap hari, mis., Penelusuran webMesin, filter email sampah, layanan kliping berita. Ke depan, lapangan ini menyerang banyak masalah kritis yang dihadapi pengguna di dunia informasi terkini. Dengan pertumbuhan eksponensial dalam jumlah informasi tersedia, pencarian informasi akan memainkan peran yang semakin penting di masa depan.
Sumber :
File Presentasi : Download