DWI NGAFIFUDIN – PENGERTIAN, KONSEP, MACAM-MACAM DAN ALGORITMA TESAURUS

Pengertian

        Tesaurus adalah sarana untuk menggambarkan subyek dengan cara dokumen-independen. Ini juga merupakan bentuk yang berguna dari representasi pengetahuan dengan menghubungkan konsep ke dalam jaringan. Ini terdiri dari node yang konsep bukan kata-kata, dan tepi yang mewakili hubungan biner, seperti-istilah yang lebih luas, jangka sempit, sinonim, dan istilah terkait. Artinya, pengetahuan diwujudkan dalam node dan tepi tesaurus. Terminologi lain sering digunakan untuk menunjukkan tesaurus adalah “struktur klasifikasi,’ ‘kosa kata terkontrol,” dan ‘sistem pemesanan.’

http://koasas.kaist.ac.kr/bitstream/10203/2889/1/RankingDocuments.pdf

         Ditinjau dari sisi sistem temu kembali informasi, tesaurus adalah suatu daftar pengendali (authority list) istilah-istilah khusus yang digunakan dalam sistem temu kembali informasi. Akan tetapi bila ditinjau dari segi fungsinya tesaurus adalah sarana pengawasan istilah yang digunakan untuk penerjemahan bahasa alamiah dokumen ke bahasa yang lebih terkendali.

       Tesaurus berisi sejumlah istilah indeks dengan menggunakan bahasa yang terkendali, sehingga sering disebut juga dengan bahasa terkontrol (controlled language). Tujuan utama tesaurus adalah juga untuk memudahkan temu kembali dokumen, dan untuk mencapai konsistensi dalam pengindeksan dokumen pada sistem simpan dan temu kembali informasi.

       Dalam bahasa pengindeksan kosa kata terkontrol seperti tesaurus, istilah yang digunakan untuk menyatakan kandungan atau isi suatau dokumen telah dibakukan dalam suatu daftar indeks yang disusun secara alfabetis, misalnya Sears List of  Subject Heading, Library of Congress Subject Heading, Macro Economics Thesaurus, DDC Index, dan sebagainya.

http://library.usu.ac.id/download/lib/perpus-jonner7.pdf

      Konsep tesaurus tidak berubah dalam beberapa puluh tahun terakhir yaitu tesaurus merupakan bahasa pengindeksan yang dikembangkan institusi individual, dengan fungsi untuk mengoptimasikan pengindeksan dan pengambilan informasi sesuai kebutuhan user. Dalam 10 tahun terakhir, muncul daya tarik baru terhadap tesaurus yang terlihat dengan semakin banyaknya tesaurus digital yang dikembangkan. Daya tarik tersebut disebabkan beberapa faktor antara lain semakin murahnya harga komputer mikro, perkembangan internet dan meningkatnya kebutuhan akan tesaurus multilingual untuk perolehan informasi dalam berbagai bahasa. Menurunnya harga komputer mikro menyebabkan semakin meningkatnya pemakaian komputer pribadi dan program-program digital termasuk tesaurus multilingual dan jika dipadukan dengan internet maka dapat memberikan akses yang lebih luas terhadap pengguna(Tim Crevan, 2002).

Konsep Tesaurus

      Tesaurus merupakan suatu kosakata terkontrol yang diatur secara terurut dimana relasi ekivalensi, hirarki dan asosiasi antar term ditampilkan secara eksplisit dan diidentifikasikan dengan indikator relasi standard (NISO Standard z39.19, 1999). Tesaurus memiliki fungsi berdasarkan fungsionalitas-nya yaitu:

  • Tesaurus stand-alone Berfungsi untuk membantu pengguna memahami arti suatu term beserta relasinya, membantu mencari variasi term dan mencari translasi term.
  • Tesaurus terintegrasi Memiliki dua fungsi utama yaitu pengambilan informasi dan pengindeksan.
  • Tesaurus memiliki struktur yang berbentuk pohon. Struktur tesaurus secara umum (General Thesaurus Ontology) atau GTO dapat terlihat sebagai berikut ini.

Dari gambar GTO dapat terlihat beberapa elemen tesaurus yaitu:

  • Term formal (descriptor)
  • Term non-formal (non-descriptor)
  • Deskripsi term yaitu definisi dan scope note
  • Relasi antar term
  • Relasi lain yang dapat ditambahkan sendiri misalnya relasi translasi antar bahasa (TR) Elemen lain yang penting adalah presentasi tesaurus.

Berdasarkan [1], [4], [2], [5] ada sejumlah presentasi tesaurus yaitu:

  • Alphabetik
  • Hirarki
  • Sistematis
  • Ekspansi

Rotasi tesaurus harus dapat memenuhi beberapa persyaratan query tesaurus [4], yaitu:

  • Mencari suatu node pada tree
  • Mencari path dari root ke suatu node pada tree
  • Mencari suatu subtree
  • Mencari suatu set node dengan relasi asosiasi Suatu program tesaurus memiliki interaksi dengan lingkungan sekitarnya.

http://juti.if.its.ac.id/index.php/juti/article/viewFile/265/214

Macam-macam Tesaurus

     Ada beberapa thesauruses hirarkis digunakan dalam sistem IR konvensional. Sebagai contoh, Medical Subject Heading (MeSH) digunakan dalam sistem MEDLINE (McCarn, 1980). MESH berisi sekitar 15.000 istilah pengindeksan diatur dalam struktur hirarki kedalaman sembilan. Jika sinonim terkait dianggap, ada lebih dari 100.000 istilah total. Struktur Computing Ulasan Klasifikasi (CRCS) adalah tesaurus hirarkis lain yang dikelola oleh Association for Computing Machinery untuk mengindeks publikasi (Sammet & Ralston, 1982). CRCS ketat hirarkis, dan tidak ada istilah memiliki lebih dari satu orang tua. CRCS memiliki sekitar 1.000 istilah dengan kedalaman lima. Kedua MESH dan CRCS mewakili ‘adalah-a’ atau hubungan ‘generalisasi’ antara istilah tesaurus.

Algoritma Tesaurus

    Algoritma peringkat berdasarkan thesaurus berikut telah dikembangkan di masa lalu. Mereka menggunakan hubungan ‘is-a’ dari thesaurus untuk menghitung kedekatan konseptual atau jarak konseptual antara kuadran boolean dan dokumen.

  • Relevansi Algoritma (Relevansi) (Rada, Humphrey, & Coccia, 1985; Rada, Humphrey, Suh, Brown, & Coccia, 1985)
  • Algoritma Jarak Jauh (R-Distance) (McMath et al, 1989; Rada & Bicknell, 1989; Rada et al., 1989)
  • Algoritma Jarak Jauh (K-Distance (Kim & Kim, 1990)

    Dalam algoritma Relevansi, R-Distance, dan K-Distance, sebuah query pada awalnya merupakan ekspresi logis yang terdiri dari istilah thesaurus dan operator logika AND, OR, dan NOT. Ungkapan tersebut kemudian diubah menjadi bentuk normal disejajarkan yang minimal (DNF) dengan, misalnya, algoritma Quine-McCluskey (McCluskey, 1956). Oleh karena itu, kueri dapat dipandang sebagai penghentian istilah konjungtif, di mana setiap konjungsi mungkin mengandung istilah yang dinegasikan.

Tesaurus Berbasis ALGORITMA RANKING

    Sejak peran utama dari sistem IR adalah untuk menghasilkan output peringkat dokumen daripada satu set dokumen, algoritma peringkat adalah komponen penting dari sistem IR.

  1. Informaüon Sistem
  2. Informasi Penyimpanan dan Rerieva.l
  3. Umum
  4. Analisis Konten dan Indexing
  5. AbstractingMetode
  6. Kamus
  7. Metode Indexing
  8. Linguistik Pengolahan
  9. Thesauruses
  10. Penyimpanan Informasi
  11. Rekam Klasifikasi
  12. Berkas Organisasi
  13. Informaüon Cari dan Retrieval
  14. Clustering
  15. Query Formulasi
  16. Retrieval Model
  17. Cari Proses
  18. Seleksi Proses

       Pengguna dapat meminimalkan waktu mereka dihabiskan untuk mencari informasi yang berguna dengan membaca dokumen top-peringkat pertama. Pada bagian ini kami meninjau algoritma peringkat berbasis tesaurus sebelumnya. Taurus berbasis algoritma peringkat telah dikembangkan di masa lalu. Mereka menggunakan ‘adalah-sebuah’ hubungan dari tesaurus untuk menghitung kedekatan konseptual atau jarak konseptual antara query boolean dan dokumen.

http://koasas.kaist.ac.kr/bitstream/10203/2889/1/RankingDocuments.pdf

Download ppt di sini