Ni’am Habibiy Sahid: Thesaurus dalam Temu Balik Informasi

Pengertian Thesaurus

Tesaurus merupakan referensi yang menyediakan data untuk mencari kesamaan/ sinonim dan perbedaan/antonim kata. Pada proses Information Retrieval (IR)/temu kembali informasi, tesaurus merupakan salah satu aplikasi yang dapat dimanfaatkan, misalkan pada proses IR pengguna menggunakan kata kunci yang
kemudian oleh IR kata kunci tersebut diubah menjadi query untuk pencarian dokumen sesuai kata kunci dari pengguna.

Tesaurus dibentuk dengan 3 (tiga) tahapan menurut Frakes et.al, yaitu:

  1. Penyusunan daftar kata.
  2. Perhitungan tingkat kemiripan.
  3. Pengorganisasian daftar kata.

Thesaurus berbeda dengan kamus. Jika kamus menyediakan definisi dari sebuah kata, berbeda dengan Thesaurus yang menyediakan sinonim atau persamaan makna dari sebuah kata. Namun Thesaurus juga termasuk dalam keluarga kamus untuk menjadi buku referensi atau rujukan, seperti almnak, peta, ensiklopedia, dll. Penyusunan kumpulan kata pada Thesaurus dibuat secara alfabetis, sehingga memudahkan pengguna untuk mencari kata yang diinginkan.

Perlu diingat juga bahwa Thesaurus tidak hanya berisikan persamaan kata saja, namun terdapat pula antonym/lawan kata meskipun tidak setiap kata dibubuhkan antonimnya.

Macam-Macam Thesaurus

Untuk membangun tesaurus harus memilih di antara tiga jenis: tesaurus klasik, tesaurus pengindeksan, dan tesaurus yang mencari.

  1. Tesaurus klasik
    Thesaurus klasik digunakan untuk melakukan proses indexing dan proses searching. Dimana Indexer menggunakan thesaurus untuk memetakan varian dari istilah yang ada untuk mewakili banyak istilah pada proses indexing di level dokumen. Sedangkan Searcher menggunakan thesaurus untuk melakukan retrieval atau Temu balik.
    Istilah dalam query akan di cocokkan dengan banyak kata dalam kamus thesaurus yang memungkinkan pengelolaan sinonim, penjelajahan hierarkis, dan tautan asosiatif.
  2. Pengindeksan Tesaurus
    Thesaurus ini hanya memiliki proses indexing dan tidak seperti classic thesaurus yang secara lengkap memiliki proses indexing dan proses searching.
    Pada thesaurus indexing kita dapat melakukan pengindeksan kosa kata secara terkontrol, akan tetapi tidak dapat menggunakannya untuk melakukan proses searching dan memetakan varian istilah dari pengguna ke istilah terpilih dimana ini merupakan kekurangan serius.
    Alasan kenapa lebih baik ada indexing thesaurus daripada tidak ada sama sekali:
    (a) Thesaurus indexing menyusun proses indexing, mempromosikan konsistensi dan efisiensi.
    (b) Memungkinkan untuk membangun index dari kata kata terpilih yang bisa di jelajahi. Dimana memungkinkan pengguna untuk menemukan semua dokumen tentang subjek atau produk tertentu melalui satu titik akses.
  3. Pencarian Thesaurus
    Terkadang thesaurus klasik tidak bisa di gunakan karena ada masalah dalam pengindexan di tingkat dokumen, misal jika berurusan dengan konten pihak ketiga atau berita dinamis yang berubah setiap hari. Maka Searching thesaurus digunakan.
    Searching thesaurus memanfaatkan istilah terkontrol pada pencarian bukan pada pengindexan. Misal user memasukkan query ke mesin pencari, Searching thesaurus dapat memetakan query tersebut ke dalam istilah terkontrol sebelum mengeksekusi query tersebut pada indeks teks lengkap.

 

Struktur Thesaurus

Thesaurus terdiri dari 2 bagian utama, yakni:

  1. Daftar descriptor menurut abjad
    Pengelompokkan secara alfabetis yang terdiri dari kategori yang mempunyai hubungan satu sama lain.
  2. Daftar istilah yang merupakan panduan suatu descriptor
    Merupakan pintu masuk kosa kata yang dipakai sebagai descriptor dan menunjukkan hubungan hierarkis dari masing-masing descriptor.

 

Fungsi Thesaurus

Thesaurus berfungsi sebagai system untuk mengolah informasi dan sarana temu kembali informasi yang berbasis computer. Sri Rohyanti, 2002, mengemukakan pendapatnya mengenai fungsi dari Thesaaurus, antara lain:

  1. Membantu menentukan dan menemukan istilah yang diberi definisi tertentu.
  2. Sangat berguna bagi orang yang bertanggung jawab terhadap peng-index-an dan retrieving dalam bidang tertentu.
  3. Mencapai standarisasi dan konsistensi dalam pengindeksan dokumen.

 

Tujuan Thesaurus

Dalam Encyclopedia of Library and Information Science Vol. 30 (1970) dikutip Lalu Anwar (2000) diuraikan bahwa yang menjadi tujuan utama disusunnya thesaurus, antar lain adalah sebagi berikut:

  1. Untuk memberikan gambaran tentang bidang ilmu pengetahuan tertentu, menunjukkan pengertian atau ide tentang konsep yang saling berhubungan, untuk membantu pengindeks atau peneliti dalam memahami struktur bidang ilmu pengetahuan tersebut.
  2. Untuk menyediakan kosa kata yang standar untuk bidang subyek tertentu yang dipergunakan oleh para pengindeks sacara konsisten pada saat menyusun entri indeks dalam rangka penyimpanan dan atau dalam proses temu kembali informasi.
  3. Untuk menyediakan sebuah sistem referensi antara istilah yang telah dipastikan hanya mempunyai satu bentuk sinonim yang digunakan untuk mengindeks sebuah dokumen.
  4. Untuk menyediakan panduan bagi para pemakai sistem, sehingga mereka dapat memilih istilah yang benar untuk menelusur subyek tertentu.
  5. Untuk menyediakan pengklasifikasian yang hierarkhis sehingga penelusur dapat memperluas atau mempersempit secara sistematis, jika pilihan pertama dalam penelusuran terlalu sedikit atau terlalu banyak petunjuk terhadap bahan yang tersedia.

Berdasarkan uraian diatas pula maka dapat disimpulkan bahwa peran dan fungsi dari thesaurus ternyata tidak kalah pentingnya jika dibandingkan dengan sarana temu kembali lain yang ada di lembaga-lembaga pusat dokumentasi dan informasi seperti di perpustakaan. Untuk itu perlu di upayakan agar ilmu yang berhubungan dengan penelusuran informasi ini dikembangkan dan disebarluaskan kepada segenap pustakawan agar mereka mengetahui, selanjutnya akan berfungsi dalam membantu pencari informasi menemukan informasi yang diperlukannya.

 

Contoh dari Thesaurus

  • Aba-aba: arahan, instruksi, isyarat, kode, komando, perintah, petunjuk, seruan, suruhan, tanda, titah.
  • Abad: era, kala, kurun, masa, periode, sepuluh dasawarsa, sepuluh dekade, seratus tahun, zaman.
  • Administrasi : manajemen, tadbir, tata lak- sana, tata usaha.
  • Retak: belah, bertas, betas, cacat, cela, lekang, melekah, rekah, rengat, rengkah.
  • Resah: gelisah, gugup, kebingungan, risau, rusuh.

 

Contoh DFD aplikasi menggunakan Thesaurus

Proses awal yang dilakukan adalah memasukkan kata-kata oleh pengguna aplikasi. Untuk setiap kata yang diketikkan akan dilakukan pengecekkan ejaan dengan menampilkan hasil warna merah untuk ejaan yang salah dan warna kata yang tidak berubah untuk ejaan yang benar.

Proses selanjutnya adalah pencarian sinonim thesaurus yang akan dilakukan setiap ada perintah pencarian oleh pengguna. Hasil seluruh sinonim yang dapat dicari oleh program akan ditampilkan untuk kemudian dipilih yang paling sesuai oleh pengguna.

Dalam proses mengambil kata sebelumnya, digunakan pencacah kata yang akan mengambil satu kata dari kursor saat ini. Proses ini dipicu dari ketikan karakter pemisah kata, yaitu salah satu diantara karakter-karakter .<,>;:/?’\”|\\{}[]-_+=~!@#$%^&*(). Sebelum dilakukan pengecekkan kata tersebut di dalam kamus bahasa, maka dilakukan proses stemming terlebih dahulu. Informasi mengenai keberhasilan pengecekkan ejaan ini akan ditampilkan ke pengguna. Jika kata yang diketikkan valid, maka akan muncul informasi yang mengubah atribut kata tersebut. Jika tidak, maka atribut ejaan salah akan ditampilkan.

 

Algoritma

 

Algoritma Stemming

Algoritma ini didahului dengan pembacaan tiap kata dari file sampel. Sehingga input dari algoritma ini adalah sebuah kata yang kemudian dilakukan:

  1. Pemeriksaan semua kemungkinan bentuk kata. Setiap kata diasumsikan memiliki 2 awalan / prefiks dan 3 akhiran / sufiks. Sehingga bentuknya menjadi:
    Prefiks 1 + Prefiks 2 + Kata Dasar + Sufiks 3 + Sufiks 2+ Sufiks 1
    Seandainya kata tersebut tidak memiliki imbuhan sebanyak imbuhan di atas, maka imbuhan yangkosong diberi tanda x untuk prefiks dan diberi tanda xx untuk sufiks. Untuk mewujudkannya maka dibuatlah struktur data untuk menampung setiap kata yang bentuknya sebagai berikut :
    enum awalan_t {AwalanError=0,x,
    me, pe, be, di, se, ke, te,
    mem=100, men, per, pem, ber, ter,
    pen,
    ber_luluh, ter_luluh, per_luluh,
    mem_luluh, pem_luluh, men_luluh,
    pen_luluh, meny=200, peny, meng,
    meng_luluh, peng_luluh, peng
    };
    enum akhiran_t {AkhiranError=0, i, kan, an, ku, mu, lah, pun, nya, kah, xx};
    struct arrkata_t {
    enum awalan_t p1,p2;
    char kd[30];
    enum akhiran_t s3,s2,s1;
    };
  2. Dengan struktur data di atas, maka langkah awal pemotongan bisa dari mana saja.
    Dalam hal ini pemotongan dilakukan secara berurutan sebagai berikut:
    a. Awalan I, hasilnya disimpan pada p1
    b. Awalan II, hasilnya disimpan pada p2
    c. Akhiran I, hasilnya disimpan pada s1
    d. Akhiran II, hasilnya disimpan pada s2
    e. Akhiran III, hasilnya disimpan pada s3
    Pada setiap tahap pemotongan di atas diikuti dengan pemeriksaan di kamus apakah hasil pemotongan itu sudah berada dalam bentuk dasar. Kalau pemeriksaan ini berhasil maka proses dinyatakan selesai dan tidak perlu melanjutkan proses pemotongan imbuhan lainnya.
  3. Namun jika sampai pada pemotongan akhiran III, belum juga ditemukan di kamus, maka dilakukan proses kombinasi. Kata dasar yang dihasilkan dikombinasikan dengan imbuhanimbuhannya dalam 12 konfigurasi berikut:
    a. Kata Dasar
    b. Kata Dasar + Akhiran III
    c. Kata Dasar + Akhiran III + Akhiran II
    d. Kata Dasar + Akhiran III + Akhiran II + Akhiran I
    e. Awalan I + Awalan II + Kata Dasar
    f. Awalan I + Awalan II + Kata Dasar + Akhiran III
    g. Awalan I + Awalan II + Kata Dasar + Akhiran III + Akhiran II
    h. Awalan I + Awalan II + Kata Dasar + Akhiran III + AkhiranII + AkhiranI
    i. Awalan II + Kata Dasar
    j. Awalan II + Kata Dasar + Akhiran III
    k. Awalan II + Kata Dasar + Akhiran III + Akhiran II 3
    l. Awalan II + Kata Dasar + Akhiran III + Akhiran II + Akhiran I

 

Presentasi:
Download

Sumber:
[1] http://ladangbelajar.blogspot.co.id/2013/09/sistem-temu-kembali-informasi-thesaurus.html
[2] http://opensitesearch.sourceforge.net/docs/helpzone/sa/sa_50-05-00c.html
[3] http://bsd.pendidikan.id/data/umum/Tesaurus_Bahasa_Indonesia_Pusat_Bahasa_Kemendiknas_2008.pdf
[4] http://yunus.hacettepe.edu.tr/~tonta/courses/fall2010/bby607/IAWWW.pdf
[5] https://pdfs.semanticscholar.org/7d66/087dd3486bef561fd944e568c67432507004.pdf
[6] http://repository.gunadarma.ac.id/id/eprint/65