TUGAS
Temu Balik Informasi
Thesaurus
Nama kelompok :
- Desi Rahmawati 11.0273
- Maulana Akbar 11.0260
- Resni Novelalita 11.0258
- Riki Aji Pamungkas 11.0317
- Kurnia Aswin Nuzul 11.0270
- Pradita Novianty 11.0298
- Inggita A. M. 11.0269
- Semuel Haryanto 11.0250
- Dimas Adhi Nugroho 11.0253
STMIK AMIKOM PURWOKERTO
2017/2018
Konsep Thesaurus dan Macam-macam Thesaurus dan Algoritma yang digunakan
- Konsep Thesaurus
- Pengertian Thesaurus.
- Berasal dari bahsa Yunani yaitu “Thesaurus yang artinya kekayaan, harta ataupun gudang tempat menyimpan harta benda atau kekayaan”. (Sri Rohyanti Z. 2002: 1)
- Menurut Hornby dukutip Sri Rohyanti Z. (2002: 1) : Thesaurus adalah kamus kata-kata dan ungkapan yang dikumpukan menurut kesamaan artinya dan sinonim. Dalam dunia perpustakaan, dokumentasi dan informasi, thesaurus dapat diartikan menurut fungsi dan strukturnya.
- Kamus Amerika Webster’s dikutip Sri Rohyanti Z. (2002: 1) mendefinisikan thesaurus sebagai suatu ‘buku yang berisi kata atau informasi mengenai bidang subyek tertentu atau suatu kelompok konsep, seperti kamus sinonim.
- Tesaurus adalah alat untuk pengawasan kosa kata (vocabulary control). (E. John Leide: 2002: 1)
- Paul Kleinbart dalam artikel “Prolegomeneon to Intelegent Thesaurus Software” mengutip pengertian thesaurus dari(ISO 2788[4] dikutip Lalu Anwar (2000) : thesaurus dapat didefinisikan dalam dua pengertian yaitu menurut fungsi dan strukturnya.
- Menurut fungsinya.
Thesaurus dalam daftar istilah untuk megawasi kosa kata yang dipakai untuk menterjemahkan bahasa sehari-hari (bahasa alami) dari dokumen, pengindeks atau pemakai ke dalam bahsa sistem (bahasa dokumentasi, bahasa informasi).
- Menurut strukturnya.
Thesaurus adalah daftar kata-kata yang dinamis dan terkendali yang berhuungan satu sama lain secara semantik, dan secara umum mencakup bidang ilmu pengetahuan tertentu.
Dalam buku “Guidelines for the Establisment and Development of Multiligualual Thesauri” dikutip Lalu Anwar (2000) pengertian thesaurus adalah sekelompok istilah yang dipilih dari bahasa sehari-hari, dan merupakan kosa kata dari bahsa indeks yang terkendali. Disusun sedemikian rupa sehingga hubungan formal antara istilah yang lebih luas (broader terms) dengan istilah yag khusus (narrower terms) dibuat dengan jelas. Struktur Thesaurus. Sebuah thesaurus biasanya paling sedikit terdiri dari dua bagian yaitu :
- Daftar deskriptor (rumusan) menurut abjad
- Daftar istilah yang merupakan panduan suatu deskriptor.
Istilah yang dipergunakan sebagai deskriptor untuk mengindeks dan menelusuri informasi, yaitu daftar istilah dalam bahasa indeks yang dikelompokkan secara alpabetis yang terdiri dari faset (kategori) yang hubungan yang erat antara satu sama dengan yang lain, Contoh : perpustakaan
Istilah-istilah yang merupakan panduan suatu deskriptor (lead in term) yang merupakan pintu masuk kosa kata yang dipakai sebagai deskriptor dan menunjuk hubungan hierarkhis dari masing-masing deskriptor.
- Bagian Hierarkhis
Bagian Hierarkhis Suatu thesaurus memuat sejumlah istilah mulai dari yang spesifik hingga istilah yang umum. Istilah yang satu merupakan bagian dari istilah lainnya yang mengandung makna yang lebih luas dan paling luas, namun masih termasuk dalam cakupan subyek thesaurus dimaksud. Menurut Simanjuntak (1986) dikutip Lalu Anwar (2000) hubungan yang berdasarkan kriteria “sempit – lebih luas – paling luas” ini disebut hubungan hierarkhis.
Menurut buku “Guidekine for the establishment and development monolingual thesauri (1981)” dikutip Lalu Anwar (2000) kedudukan suatu istilah dalam hierarkhis ditentukan berdasarkan aturan sebagai berikut :
- Hubungan generik (genus-species) merupakan hubungan antar istilah dimana makna istilah yang satu merupakan species atau jenis dari makna istilah yang lain. Contoh : istilah “Banjir” ditempatkan satu tingkat lebih spesifik daripada istilah “Bencana alam”, karena istilah “Banjir” adalah jenis dari “Bencana alam”.
Hubungan partitif (Whole-part relationship) merupakan hubungan antar istilah dimana istilah yang satu mewakili istilah yang lain dalam makna.
Contoh : hubungan antara “rumah” dan “jendela”. - Fungsi Thesaurus
Thesaurus dapat digunakan sebagai sebuah sistem untuk mengolah informasi dan sarana temu kembali informasi yang berbasis komputer. Sebagai sistem pengelolaan informasi, thesaurus dapat berfungsi sebagai dokumen dalam mengolah sebuah dokumen seperti pembuatan indeks dan penentuan tajuk. Sebagai sarana temu balik informasi, thesaurus terdiri dari komponen-komponen pokok yang dapat digunakan dalam sistem temu balik informasi seperti struktur kosa kata dan sistem acuan (misal;gunakan:…,)
- Kegunaan Thesaurus
Seperti kegunaan atau fungsi sebuah kamus atau daftar kata-kata adalah memberikan definisi atau penjelasan arti tentang kata dan istilah tersebut, menurut Sri Rohyanti Z. (2002) maka thesaurus berguna untuk :
a. Membantu menentukan dan menemukan istilah yang diberi definisi tersebut.
b. Sangat berguna bagi orang yang bertanggungjawab terhadap indexing dan retrieving dalam bidang tertentu.
c. Mencapai standardisasi dan konsistensi dalam pengindeksan dokumen.
- Tujuan Thesaurus
Dalam Encyclopedia of Library and Information Science Vol. 30 (1970) dikutip Lalu Anwar (2000) diuraikan bahwa yang menjadi tujuan utama disusunnya thesaurus, antar lain adalah sebagi berikut :
- Untuk memberikan gambaran tentang bidang ilmu pengetahuan tertentu, menunjukkan pengertian atau ide tentang konsep yang saling berhubungan, untuk membantu pengindeks atau peneliti dalam memahami struktur bidang ilmu pengetahuan tersebut.
Untuk menyediakan kosa kata yang standar untuk bidang subyek tertentu yang dipergunakan oleh para pengindeks sacara konsisten pada saat menyusun entri indeks dalam rangka penyimpanan dan atau dalam proses temu kembali informasi.
3. Untuk menyediakan sebuah sistem referensi antara istilah yang telah dipastikan hanya mempunyai satu bentuk sinonim yang digunakan untuk mengindeks sebuah dokumen.
4. Untuk menyediakan panduan bagi para pemakai sistem, sehingga mereka dapat memilih istilah yang benar untuk menelusur subyek tertentu.
5. Untuk menyediakan pengklasifikasian yang hierarkhis sehingga penelusur dapat memperluas atau mempersempit secara sistematis, jika pilihan pertama dalam penelusuran terlalu sedikit atau terlalu banyak petunjuk terhadap bahan yang tersedia.
- Pembangunan thesaurus secara Otomatis
- Menurut Frakes dan Yates
Frakes dan Yates (Frakes, 1992) secara garis besar menentukan tiga fase dalam pembangunan thesaurus secara otomatis yaitu :
- Penyusunan daftar kata
- Normalisasi dan pemilihan sebuah term
- Pembangunan frase sesuai dengan level koordinasi yang diinginkan
- Perhitungan tingkat kemiripan (similarity)
- Mengindentifikasi hubungan antar term secara statistik
- Pengorganisasian daftar kata
- Mengorganisasi kosa kata secara umum menjadi sebuah susunan hirarki berdasarkan hubungan yang telah terkomputasi pada langkah perhitungan tingkat kemiripan.
- Menurut Schubert Foo
Pada proses thesaurus Foo dapat dibagi menjadi dua sub yaitu fase pembentukan kamus dan pembangunan thesaurus
- Fase pembentukan Kamus Kata
Tujuan dalam pembangunan sebuah kamus yaitu untuk membantu dalam mengekstrak term yang spesifik dengan sebuah domain (misalnya sebuah term dalam bidang ilmu komputer) dalam koleksi sebuah dokumen untuk pembentukan thesaurus kemudian yaitu dengan langkah sebagai berikut :
- Term Selection (Pemilihan Term)
- Term Filtering
- Term Spesicification / Generalisation
- Fase pembentukan Thesaurus
Dengan adanya kamus yang telah dibnetuk pada fase pembentukan kamus selanjutnya menggunakan metode yang diusulkan oleh Chen yaitu untuk pembengunan thesaurus akhir.
- Menghitung frekuensi Term dan Frekuensi Dokumen
- Menghitung Bobot Term
- Analysa Asimetric Co-occurence (tingkat kemiripan terhadap sebuah term)
Sumber : Cholifah, Purwananto Yudhi, Bramantoro Arif. Aplikasi Information Retrieval Untuk pembentukan Tesaurus Berbahasa Indonesia Secara Otomatis. Teknik Informatika, ITS. SCAN VOL.II NOMOR 1, ISSN 1978-0087.
Link : https://core.ac.uk/download/pdf/12216771.pdf
- Proses penggunaan thesaurus untuk menemukan kembali sebuah dokumen
Proses penggunaan thesaurus digunakan untuk menampilkan sebuah dokumen yang diambil berdasarkan sebuah query dari pengguna kemudian akan dikelompokan dan diurutkan berdasarkan peringkat dokumen yang tertinnggi sampai yang terendah. Contoh ilustrasi
Gambar 1. Ilustrasi konsep thesaurus untuk menemukan kembali dokumen
- Macam – Macam Thesaurus
- Algoritma yang digunakan pada Thesaurus
Pada thesaurus algoritma yang digunakan adalah Algoritma Stemming
- Algoritma Stemming
Pada algoritma stemming dalam thesaurus algoritma ini didahului dengan pembacaan setiap kata dari file sample, sehingga input dari algoritma ini adalah sebuah kata yang kemudian akan dilakukan
- Proses pemeriksaan semua kemungkinan bentuk kata. Setiap kata yang akan diasumsikan memiliki 2 awalan atau prefiks dan 3 akhiran / sufiks, sehingga bentuknya akan menjadi :
Prefiks 1+ prefiks 2+ kata dasar + sufiks 3 + sufiks 2+ sufiks 1
Jika kata ersebut tidak memiliki suatu imbuhan atau tidak memiliki imbuhan sebanyak diatas maka imbuhan yang kosong akan diberi tanda x untuk kata prefiks dan diberi tanda xx untuk sufiks.
- Dengan struktur data diatas maka langkah selanjutnya pemotongan bisa dari mana saja, dalam hal ini pemotongan dilakukan secara berurutan sebagai berikut :
- Awalan 1, hasilnya disimpan pada p1
- Awalan II, hasilnya disimpan pada p2
- Akhiran I, hasilnya disimpan pada s1
- Akhiran II, hasilnya disimpan pada s2
- Akhiran III, hasilnya disimpan pada s3
pada setiap pemotongan kata akan dilakukan pemeriksaan dikamus apakah hasil dari pemotongan itu sudah sesuai dengan kata bentuk dasar. Kata pemeriksaan ini berhasil maka proses akan dinyatakan selesei dan tidak perlu melanjutnya proses lagi.
- Apabila dalam pemotongan III, belum juga ditemukan di kamus, maka akan dilakukan proses kombinasi. Kombinasi disini kata dasar yang akan dihasilkan dikombinasikan engan imbuhan dalam 12 konfigurasi berikut :
- Kata Dasar
- Kata Dasar + Akhiran III
- Kata Dasar + Akhiran III + Akhiran II
- Kata Dasar + Akhiran III + Akhiran II + Akhiran I
- Awalan I + Awalan II + Kata Dasar
- Awalan I + Awalan II + Kata Dasar + Akhiran III
- Awalan I + Awalan II + Kata Dasar + Akhiran III + Akhiran II
- Awalan I + Awalan II + Kata Dasar + Akhiran III + Akhiran II + Akhiran I
- Awalan II + Kata Dasar
- Awalan II + Kata Dasar + Akhiran III
- Awalan II + Kata Dasar + Akhiran III + Akhiran II 3
- Awalan II + Kata Dasar + Akhiran III + Akhiran II + Akhiran I
Sumber : http://language-komputer.blogspot.com/2011/12/thesaurus-untuk-temu-kembali-informasi.html
Download ppt disini : thesaurus