PROYEK FINAL
Proyek Materi Temu Balik Informasi
- STOPLIST
- Stoplist atau Stopword adalah proses pembuangan kata yang seperti; Tapi, yaitu, sementara, dan sebagainya.Pada tahap stopword tahap disini akan mengambil kata-kata penting dari hasil token. Token tersebut merupakan tahap untuk melakukan pengecekan dari karakter pertama sampai dengan karakter terakhir.
- Http : // jurnal.untan.ac.id/index.php/justin/article/download/1319/1288
Stopword Removal adalah proses yang dilakukan untuk menghilangkan kata-kata “stopword” pada sebuah kalimat / paragraf. Stopword sendiri merupakan kata yang sering atau lazim digunakan dalam kalimat / paragraf. Untuk yang pertama yang harus kita lakukan adalah daftar daftar “stopword” atau Daftar Stopword. - Contoh dari daftar kata kunci dalam bahasa indonesia antara lain:
- Kata penghubung (sebelum, selesai, sebelum)
- Kata tugas (bagi, dari, dengan, pada)
- Kata keterangan (sangat, hanya, lebih)
- Kata bilangan (beberapa, banyak, sedikit)
- Kata ganti (kami, mereka, kita, itu)
- Dan sebagainya sebagainya.
- Dalam implementasinya, kita bisa memiliki daftar Stopword tersebut dalam sebuah tabel sendiri di database. Kemudian melakukan pengecekan satu persatu kata-kata yang ada di dalam kalimat / paragraf dengan data yang ada di database Stopword tersebut. Kita bisa melakukan ganti (penghapusan) secara langsung jika ada kata kunci yang ada di database tersebut.
Setelah proses Stopword Removal dilakukan, tahap selanjutnya adalah melakukan Stemming. Stemming yang dilakukan masih menggunakan algoritma porter untuk bahasa indonesia dengan PHP dan MYSQL. Stemming yang dilakukan tidak hanya satu kata, tapi bisa beberapa kata / kalimat / paragraf sekaligus. - Sumber: http://kabulkurniawan.com/2012/04/06/information-retrieval-tutorial-stemming-porter-untuk-bahasa-indonesia-bagian-ii/
- Tahapan proses stopword adalah sebagai berikut:
- Kata hasil token stemming bandingkan dengan tabel stopword
- Dilakukan pengecekan apakah token sama dengan tabel stopword atau tidak
- Jika token sama dengan tabel stopword maka akan diremove
- Jika token tidak sama dengan tabel stopword maka akan dtampilkan yaitu menghasilkan token hasil stopword yang termasuk dalam kata penting (kata kunci).
2. STEMMING
- Stemming merupakan suatu proses yang ada dalam sistem informasi Retrival yang mentransformasi kata-kata yang ada dalam suatu dokumen ke kata-kata yang akarnya (rootword) dengan menggunakan aturan-aturan tertentu, sebagai contoh kata bersama, kebersamaan, menyamai, akan disistem ke root wordnya Sama Pada stemming digunakan untuk mengurangi ukuran sebuah file index. Misalnya dalam suatu deskripsi ada varian kata memberi, diberikan, memberi dan diberi, hanya memiliki akar kata (batang) yaitu beri. Ukuran file daftar indeks yang semula jumlahnya lima reocrd akan direduksi jadi satu record saja.
- Sumber: Nurdiana Ogie, Jumadi, Nursantika Dian, 2016. “Perabandingan Metode Cosine Similaritas Dengan Metode Jaccard Similarity pada Aplikasi Pencarian Terjemah Alqur’an Dalam Bahasa Indonesia”. Volume 1 No. 1. Universitas Islam Negeri Sunan Gunung Djati Bandung.
Tautan: http://join.if.uinsgd.ac.id/index.php/join/article/download/12/21 - Pada proses stemming adalah pengelolaan kata kunci menjadi keywoard yang sama yaitu dengan menghilangkan imbuhan seperti saham “yang”, “di”, “ke”, “me”, “meng”, dan “kan”. Penguraian dari suatu kata menjadi bentuk kata dasarkan (batang) .Tahapan pada proses stemming:
- Token hasil tokenizing diperiksa apakah mengandung imbuhan atau tidak
- Jika ada imbuhan maka akan dilakukan pembuangan imbuhan, terus berulang sampai tidak terbentuk imbuhan.
- Jika tidak terbentuk imbuhan maka akan terjadi pada
gambar dibawah ini yang menampilkan proses yang dibuat dari dokumen dokumen yang diinputkan.
3. INDEXING
- Latent Semantic Indexing (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang disebut Dekomposisi Nilai Singular (SVD) untuk pola pola hubungan antara istilah dan konsep yang terkandung dalam bentuk bentuk teks yang tidak terstruktur. LSI dibangun pada prinsip kata-kata yang digunakan dalam konteks yang sama dengan memiliki makna yang sama. Fitur utama dari LSI adalah kemampuannya untuk mengekstrak konten konseptual dari suatu tubuh teks dengan membentuk asosiasi antara istilah-istilah yang terjadi dalam konteks yang serupa.
- Keyword LSI adalah kata-kata atau frasa yang secara semantik berhubungan satu sama lain. Artinya, kata atau frasa itu terhadap topik yang sama. Contohnya, “Tesla Motors” berhubungan secara semantik dengan “mobil elektrik”, karena Tesla memproduksi kendaraan elektrik.
- Cara mudah untuk memahami LSI adalah dengan menganggapnya sebagai kata kunci kedua yang berhubungan dengan kata kunci utamamu. Contohnya, jika kamu sedang menulis konten tentang “mobil elektrik”, pastikan juga kata kunci yang kedua yang berhubungan seperti “Tesla”, “Chevrolet Spark”, dan lainnya.
- Using concept kata kunci LSI akan MEMBUAT kontenmu get peringkat di kata kunci pencarian Yang LEBIH Luas, Bukan Hanya Sesuai kata-kata Yang kamu gunakan. Artinya, kamu akan lebih sering muncul di hasil pencarian search engine , dan tentunya akan menghasilkan lebih banyak traffic. Riset dengan keyword LSI juga bisa membantumu memahami lebih dalam mengenai apa yang sebenarnya dicari oleh pengguna search engine.
- Cara mencari kata kunci LSI sebelum pakai. Hal, hal ini mudah untuk dilakukan.
- Gunakan LSI Keyword Generator
Salah satu cara mudah yang bisa dilakukan adalah dengan memanfaatkan LSI Keyword Generator. Kamu hanya tinggal memasukkan kata kunci atau topik, dan alat ini akan menampilkan kata-kata yang terkait dengan topik yang kamu pilih. Cara ini tidak hanya mudah, tapi juga gratis untuk dilakukan.
- Hamil Pencarian Serupa di Google
Di bagian bawah halaman hasil pencarian, Google akan tampil dengan nama lain yang mirip dengan kata kunci yang digunakan pada. Gunakan Coba serupa dengan kata kunci untuk riset keyword -mu.
- Gunakan Google Keyword Planner
Akseslah Keyword Planner dan pilihlah pilihan pertama, yaitu ” Cari kata kunci baru dengan menggunakan frase, website atau kategori “. Setelah memasukkan keyword-keyword , kamu bisa melihat kata kunci yang lain yang serupa di kolom ” ide kelompok iklan”.
- Gunakan Ubersuggest
Kamu juga bisa menggunakan jasa Ubersuggest . Alat ini baru saja masuk menjadi jauh lebih baik. Video ini akan menjelaskan bagaimana cara menggunakan Ubersuggest.
- Gunakan Keyword Database SERPs
Keyword database ini sangat berguna untuk mencari kata kunci terkait dengan cepat. Kamu hanya harus memasukkan kata kunci , dan lakukan pencarian dengan tombol “Search”.
4. PEMBOBOTAN
- Pembobotan merupakan teknik pengambilan keputusan pada suatu proses yang terkait berbagai faktor secara bersama-sama dengan cara memberi bobot pada masing-masing faktor tersebut. Pembobotan dapat dilakukan secara objektif dengan perhitungan statistic atau secara subyektif dengan menentukannya berdasarkan pertimbagan tertentu.
- Bisa menggunakan kombinasi dari TF (Term Frequency), IDF (Inverse Document Frequency), dan Normalisasi sesuai masukan dari pengguna.
- Pembobotan Tf-Idf
Tf-Idf adalah perhitungan yang merupakan kata kunci (istilah) dalam sebuah dokumen dan korpus. Proses ini digunakan untuk menilai bobot relevansi term dari sebuah dokumen terhadap keseluruhan dokumen dalam korpus. Termfrequency adalah ukuran seringnya kemunculan sebuah istilah dalam sebuah dokumen dan juga dalam seluruh dokumen di dalam korpus. Istilah frekuensi ini dihitung menggunakan persamaan (1) dengan istilah frekuensi ke-i dan adalah frekuensi kemunculan istilah ke-i dalam dokumen ke-j. Sementara inverse document frequency adalah logaritma dari rasio jumlah keseluruhan dokumen dalam korpus dengan jumlah dokumen yang memiliki istilah yang dimaksud seperti yang dituliskan secara matematis pada persamaan (2) [2]. Nilai diperoleh dengan mengalikan keduanya yang diformulasikan pada persamaan (3).
-
- Pembobotan LCS
LCS digunakan untuk menghitung relasi berurutan yang paling panjang antara query dengan dokumen. Dalam penelitian Tasi dkk. [7], LCS diadopsi di dalam sistem temu kembali dokumen teks sebagai fitur bobot. Nilai LCS antara query q dengan dokumen ke-j yang telah menghasilkannya kemudian dinormalisasi dengan persamaan (4) dengan m adalah jumlah istilah dalam query dan n adalah jumlah term di dalam dokumen.
- Nilai normalisasi LCS ini kemudian digunakan untuk perbaikan disesuaikan dengan pembobotan sebelumnya yang sudah ada, yaitu dengan bobot yang didapat dari Tf-Idf. Nilai bobot akhir untuk dokumen yang memiliki urutan kata kunci sesuai permintaan yang lebih tinggi daripada dokumen yang tidak memiliki kata kunci yang sesuai dengan kueri. Hal hal tersebut berakibat pada kesamaan antara query dengan dokumen. Dokumen yang memiliki bobot urutan kata memiliki kesamaan yang lebih tinggi.
5. RUANG VEKTOR (VECTOR SPACE MODEL)
- Implementasi Vector Space Model (VSM) dapat digunakan pada berbagai bidang keilmuan seperti Computational Linguistics (Erk, 2010), Sistem Pakar , Medical (Lopez dan Rebeiro, 2010), Knowledge-Based Systems , Data and Knowledge Engineering (Mao, 2007). Solusi untuk review Mengatasi masalah Sistem temu Kembali information DENGAN hasil temuan recall Tinggi Dan Tingkat Akurasi Rendah Adalah DENGAN MEMBUAT Sistem temu Kembali information using Metode VSM. Metode VSM dipilih karena cara kerja model ini efisien, mudah dalam representasi dan dapat diimplementasikan pada documentmatching . Pencarian informasi Saat ini dengan menggunakan mesin pencari atau Sistem Temu Kembali Informasi (STKI), user kuk query dan mesin pencari akan menampilkan hasil pencarian. Mesin pencari yang sudah ada dan banyak digunakan saat ini memberikan hasil pencarian yang banyak (banyak dokumen yang terambil), sehingga diperlukan waktu untuk menentukan hasil pencarian yang relevan. Menentukan hasil yang sesuai dengan keinginan pengguna dengan jumlah hasil pencarian yang banyak akan menyulitkan user . Hal yang terjadi karena dokumen yang terambil oleh sistem perkosa banyak, maka sistem berkemungkinan muncul hasil pencarian yang tidak relevan.
6. PENCARIAN / RETRIEVE
- Semua metode pencarian yang telah terbitkan pada salah satu dari dua prinsip berikut:
- Prinsip Temu Kembali Berorientasi Penyimpanan (Prinsip Berorientasi Penyimpanan Berorientasi ) :
Pilihan utama dari prinsip ini adalah organisasi dari “tempat yang sesuai” dimana dokumen yang akhirnya disimpan, atau dimana referensi dokumen yang disimpan (misalnya kartu indeks). Pendekatan yang sedang berjalan dalam hal ini, dan thesaurus (Lancaster, 1986).
- Prinsip Probabilitas Peringkat (Prinsip Peringkat Kemungkinan) :
Jika respon sistem penunjangnya untuk setiap permintaan adalah peringkat dokumen dalam koleksi probabilitas kegunaan bagi pengguna yang mengajukan permintaan, dimana probabilitas perkiraan seakurat mungkin atas dasar data apapun yang telah tersedia untuk sistem untuk tujuan ini, maka keseluruhan efektifitas sistem untuk kemampuan akan menjadi yang Terbaik yang dapat diperoleh berdasarkan data (Robertson, 1977).
=> DOWNLOAD PRESENTASI <=
SOURCE CODE-FINAL PROJECT TBI TAUFIK
Link youtube: https://youtu.be/pAuIdLoj9NQ
perbaikan