Tesaurus
Kata tesaurus berasal dari kata thesauros, bahasa Yunani, yang bermakna ‘khazanah’.Lambat laun, kata tersebut mengalami perkembangan makna, yakni ‘buku yang dijadikan sumber informasi’. Tesaurus berisi seperangkat kata yang saling bertalian maknanya. Pada dasarnya, tesaurus merupakan sarana untuk mengalihkan gagasan ke dalam sebuah kata, atau sebaliknya. Oleh karena itu, lazimnya tesaurus disusun berdasarkan gagasan atau tema. Namun, untuk memudahkan pengguna dalam pencarian kata, penyusunan tesaurus pun berkembang, kini banyak tesaurus yang dikemas berdasarkan abjad.
Tesaurus dibedakan dari kamus. Di dalam kamus dapat dicari informasi tentang makna kata, sedangkan di dalam tesaurus dapat dicari kata yang akan digunakan untuk mengungkapkan gagasan pengguna. Dengan demikian, tesaurus dapat membantu penggunanya dalam mengungkapkan atau mengekspresikan gagasan sesuai dengan apa yang dimaksud. Misalnya, pencarian kata lain untuk kata hewan, pengguna tesaurus dapat mencarinya pada lema hewan.
hewan n binatang, dabat, fauna, sato, satwa
Sederet kata yang terdapat pada lema hewan tersebut menunjukkan bahwa kata tersebut bersinonim sehingga dapat saling menggantikan sesuai dengan konteksnya. Tesaurus ini berguna dalam pengajaran bahasa sehingga dapat dimanfaatkan oleh pengajar dan pelajar. Di dalam tesaurus ini, pada sebagian lema dicantumkan pula antonimnya, dengan label ant.
haram a 1 gelap (ki), ilegal, liar, pantang, sumbang, tabu, terlarang; 2 mulia, suci;
ant 1 halal
mengharamkan v melarang, memantang, mencegah, menegah, menolak;
ant menghalalkan
pengharaman n pencegahan, pelarangan, penegahan;
ant penghalalan
jaka n bujang, cowok (cak), jejaka, lajang, laki-laki, pemuda, perjaka, teruna ant dara
Kesinoniman dalam lema-lema disusun berdasarkan abjad. Lema-lema itu merupakan lema yang memiliki kesamaan makna yang berjalinan di antara kata dasar, kata turunan, dan kelompok kata atau frasa. Lema yang bersinonim digunakan tanda koma (,). Lema yang bersinonim mencakup kata-kata dari ragam baku, ragam percakapan sehari-hari, kontemporer, ataupun arkais. Di dalam tesaurus ini hanya label ragam percakapan dan kiasan yang dicantumkan, sedangkan label ragam yang lain tidak. Hal itu dilakukan agar kata-kata dapat dimanfaatkan kembali dalam percakapan sehari-hari.
Dalam tesaurus ini, hiponim dicantumkan pula karena di dalam tesaurus lazimnya memuat makna yang saling bertalian. Dengan demikian, pengguna dapat dengan mudah memperoleh kata yang tepat sesuai dengan yang dikehendaki sehingga pengguna dapat memanfaatkan kata itu untuk keperluan pragmatis.
jahit v bordir, jelujur, kelim, obras, tisik, setik, sulam, suji, tekat
Satuan leksikal bordir, jelujur, kelim, dan seterusnya merupakan hiponim dari lema jahit.
Akronim yang sudah lazim disertakan pula sebagai lema dalam tesaurus ini karena akronim tersebut sudah menjadi hal biasa dan sering digunakan dalam komunikasi seharihari.
radar n pencari, pengesan, peninjau
Singkatan | |
A | adjektiva |
adv | adverbia |
ant | antonim |
cak | cakapan |
dsb | dan sebagainya |
Ki | kiasan |
n | nomina |
num | numeralia |
p | partikel |
pron | pronomina |
v | verba |
Pemakaian modern dimulai tahun 1852, di edisi pertama sebuah buku berjudul amat panjang: Thesaurus of English Words and Phrases : classified and arranged so as to facilitate the expression of ideas an to assist in literacy composition diterbitkan oleh Peter Mark Roget. Inilah thesaurus yang dianggap paling konsisten dan selalu diperbarui sampai sekarang. Mudah dilihat, thesaurus sangat berkaitan dengan linguistik dan perhatian masyarakat terhadap bahasa mereka. Tidaklah sebuah kebetulan bahwa thesaurus moderen lahir di Inggris, negara yang bahasanya kini menjadi bahasa internasional.
Kehadiran thesaurus pada sebuah bangsa berkaitan dengan keseriusan bangsa itu menggunakan kata dan memberlakukan bahasa mereka. Keseriusan tersebut terwujud dalam bentuk upaya memastikan bahwa setiap kata dipakai dengan benar dan setiap kata yang benar berhubungan dengan kata lain dengan benar pula.
Menurut Fungsi dan kegunaan thesaurus terletak pada struktur yang mengaitkan satu konsep dengan konsep lainnya melalui berbagai hirarki dan maknanya. Di dalam definisi yang dibuat oleh World Science Information System of Unesco (UNISIST) sebagaimana dikutip oleh Foskett (1997) terungkap bahwa: Sebuah thesaurus dapat didefinisikan baik dari segi fungsi maupun strukturnya.
- Dari segi fungsi, sebuah thesaurus adalah alat pengendali terminologi yang digunakan dalam penerjemahan dari bahasa alamiah di dalam dokumen, indeks, atau pengguna menjadi sebuah “bahasa sistem” (bahasa dokumentasi, bahasa informasi) yang lebih terbatas.
- Dari segi struktur, sebuah thesaurus adalah kosa kata yang terkendali tetapi dinamis, berisi istilah-istilah yang secara semantik dan generik saling terkait dalam lingkup sebuah bidang pengetahuan tertentu.
Dari penyataan diatas dapat di simpulkan bahwa Thesaurus adalah himpunan kata-kata terkendali yang berhubungan satu sama lain secara semantik dan hierarkis, yang dapat dipergunakan untuk menterjemahkan bahasa sehari-hari ke dalam bahasa indeks dalam bidang ilmu pengetahuan tertentu. Thesaurus dipergunakan secara luas untuk mengendalikan kosa kata (vocabulary control) dalam sistem terkoordinasi, kemudian menggunakan sistem komputerisasi dan sistem “Pre –coordinate”.
Manfaat Thesaurus
Ada beberapa manfaat dari Thesaurus diantaranya adalah:
- Menyediakan sebuah kosakata yang berstandar untuk bidang tertentu, sehingga para pengindeks (manusia) dapat secara konsisten menetapkan istilah yang akan dipakai sebagai indeks.
- Menjadi sebuah panduan bagi pengguna sistem informasi ketika memilih istilah untuk digunakan dalam pencarian berdasarkan subjek.
- Menjadi sumber bagi istilah-istilah yang sudah terstandardisasi di bidang pengetahuan tertentu.
- Menyediakan hirarki berkelas sehingga sebuah proses pencarian dapat diperluas atau dipersempit.
Peran Thesaurus dalam Pengelolaan Informasi
Dalam kaitanya dengan pengelolaan informasi, Thesaurus berperan penting di dalamnya diantaranya:
- Sebagai sarana temu kembali informasi yang berbasis komputer.
- Sebagai pedoman dalam mengolah dokumen seperti pembuatan indeks dan penentuan tajuk.
- Mempermudah dalam mengelola data yang telah ada.
- Mempercepat diketemukannya informasi yang di cari.
Algoritma Thesaurus
Dalam ditemukannya data oleh thesaurus tidak begitu saja ditemukan. Ini menggunakan algoritma tertentu dan algoritma yang digunakan adalah algoritma stemming.
Algoritma Stemming
Algoritma ini didahului dengan pembacaan tiap kata dari file sampel. Sehingga input dari algoritma ini adalah sebuah kata yang kemudian dilakukan:
Pemeriksaan semua kemungkinan bentuk kata. Setiap kata diasumsikan memiliki 2 awalan/prefiks dan 3 akhiran/sufiks. Sehingga bentuknya menjadi :
- Prefiks 1 + Prefiks 2 + Kata Dasar + Sufiks 3 + Sufiks 2 + Sufiks 1
- Seandainya kata tersebut tidak memiliki imbuhan sebanyak imbuhan di atas, maka imbuhan yang kosong diberi tanda x untuk prefiks dan diberi tanda xx untuk sufiks. Untuk mewujudkannya maka dibuatlah struktur data untuk menampung setiap kata yang bentuknya sebagai berikut:
Dengan struktur data di atas, maka langkah awal pemotongan bisa dari mana saja. Dalam hal ini pemotongan dilakukan secara berurutan sebagai berikut:
- Awalan I, hasilnya disimpan pada p1
- Awalan II, hasilnya disimpan pada p2
- Akhiran I, hasilnya disimpan pada s1
- Akhiran II, hasilnya disimpan pada s2
- Akhiran III, hasilnya disimpan pada s3
Pada setiap tahap pemotongan di atas diikuti dengan pemeriksaan di kamus apakah hasil pemotongan itu sudah berada dalam bentuk dasar. Kalau pemeriksaan ini berhasil maka proses dinyatakan selesai dan tidak perlu melanjutkan proses pemotongan imbuhan lainnya.
Namun jika sampai pada pemotongan akhiran III, belum juga ditemukan di kamus, maka dilakukan proses kombinasi. Kata dasar yang dihasilkan dikombinasikan dengan imbuhan-imbuhannya dalam 12 konfigurasi berikut:
- Kata Dasar
- Kata Dasar + Akhiran III
- Kata Dasar + Akhiran III + Akhiran II
- Kata Dasar + Akhiran III + Akhiran II + Akhiran I
- Awalan I + Awalan II + Kata Dasar
- Awalan I + Awalan II + Kata Dasar + Akhiran III
- Awalan I + Awalan II + Kata Dasar + Akhiran III + Akhiran II
- Awalan I + Awalan II + Kata Dasar + Akhiran III + Akhiran II + Akhiran I
- Awalan II + Kata Dasar
- Awalan II + Kata Dasar + Akhiran III
- Awalan II + Kata Dasar + Akhiran III + Akhiran II 3
- Awalan II + Kata Dasar + Akhiran III + Akhiran II + Akhiran I
Contoh Penerapan Thesaurus
PEMILIHAN TESAURUS ONLINE BERBAHASA INDONESIA UNTUK TEMU KEMBALI INFORMASI
Berikut ini adalah langkah yang dilakukan pada pemilihan tesaurus online berbahasa Indonesia:
Gambar 1. merupakan langkah pada pemilihan tesaurus online dengan pre processing memilih tesaurus tercetak resmi, tesaurus online yang akan dibandingkan, dan memilih kata yang akan digunakan untuk membandingkan tesaurus. Ada 2 (dua) parameter yang akan dibandingkan antara tesaurus tercetak dengan tesaurus online, yaitu : A. Ada/tidak kesamaan sinonim kata B. jumlah sinonim kata pada tesaurus online dibandingkan dengan tesaurus tercetak
Hasil perbandingan 2 (dua) parameter kemudian dibuat pembobotan, dan nilai bobot tersebut yang akan menentukan tesaurus online terbaik dengan melihat pada presentase bobot yang terbesar.
Proses Pemilihan Tesaurus Online Berbahasa Indonesia
Penelitian pada artikel ini mengambil 3 (tiga) tesaurus online bahasa Indonesia yang ditemukan pada pencarian di situs web Google. Tesaurus yang akan diujicoba adalah : I. kateglo (http://kateglo.bahtera.org/?) II. sinonim kata (http://www.sinonimkata.com/) III. tesaurus web (http://tesaurus.web.fc2.com/FlashThesaurus .html)
Tesaurus tercetak resmi yang digunakan untuk membandingkan kata pada sinonim di tesaurus online adalah Tesaurus Bahasa Indonesia karangan Eko Endarmoko yang diterbitkan 28 November 2006 oleh penerbit Gramedia Pustaka Utama (GPU). Tesaurus tercetak ini merupakan tesaurus best seller berdasarkan survei pada toko buku terkemuka di Indonesia. Kata yang dipilih untuk melakukan perbandingan sebanyak 25 (dua puluh lima) kata dan diambil dari kata yang unik dan paling sering muncul pada 2 (dua) situs web penyedia berita di Internet yaitu : kompas (http://www.kompas.com/), dan Media Indonesia (http://www.mediaindonesia.com/). Tabel 1. adalah 25 kata yang digunakan dalam perbandingan.
Parameter yang digunakan untuk pembobotan adalah :
- Kesamaan sinonim kata, dengan mencari sinonim kata di tesaurus tercetak apakah ada/tidak di tesaurus online.
- Jumlah sinonim kata pada tesaurus online dibandingkan dengan tesaurus tercetak
Perbandingan yang dilakukan terhadap tesaurus tercetak resmi dan tesaurus online tampak pada Tabel 2.
Pada Tabel 2. menunjukkan perbandingan kata dari web yang ditemukan pada tesaurus tercetak resmi dan tesaurus online I (katalog), II (sinonim kata), dan III (tesaurus web). Perbandingan sinonim kata dibobotkan dengan rumus formal seperti pada F.1 berikut ini.
Keterangan :
– BSK : bobot sinonim kata (%)
– SK : sinonim kata
– I/II/III : tesaurus online
– T : tesaurus tercetak
– 1..25 : kata yang dibandingkan
Pada formula F.1 dijalankan dengan kondisi, jika jumlah sinonim kata pada tesaurus online lebih besar atau sama dengan jumlah sinonim kata pada tesaurus tercetak, maka nilai BSK adalah 100%. Tetapi jika tidak, maka untuk menghitung nilai BSK menggunakan formula F.1.
Misalkan jumlah sinonim kata untuk tesaurus online I kata ke-1 (Marak) adalah 9, sementara jumlah sinonim kata untuk tesaurus tercetak adalah 14, maka bobot sinonim kata untuk tesaurus online I (BSK) adalah (9/14)*100 = 64,29 %. Nilai ini dihitung menggunakan formula F.1 karena jumlah sinonim kata tesaurus online I lebih kecil dari jumlah sinonim kata dari tesaurus tercetak. Nilai bobot sinonim kata selengkapnya dapat dilihat pada Tabel 3.
Tabel 3. adalah hasil untuk menghitung parameter jumlah sinonim kata (Parameter B). Parameter A yaitu untuk mengetahui ada/tidak nya sinonim kata, dihitung dengan cara jika terdapat sinonim kata pada tesaurus online berdasarkan kata pada tesaurus tercetak, maka diberi nilai 1 (satu), dan sebaliknya adalah 0 (nol).
Berdasarkan hasil perhitungan parameter A dan B, maka untuk menentukan tesaurus online yang terbaik dengan cara menggabungkan hasil perhitungan parameter tersebut, seperti yang terlihat pada Tabel 4.
Berdasarkan hasil perhitungan pada Tabel 4., maka tesaurus online II (sinonim kata) memiliki bobot akhir yang terbesar. Ini bermakna bahwa tesaurus online II (sinonim kata) merupakan tesaurus online terbaik berdasarkan uji coba terhadap 25 (dua puluh lima) kata terbanyak yang digunakan pada 2 (dua) situs web berita, sebagaimana tersebut diatas. Nilai pada parameter A, menunjukkan bahwa tesaurus online I (katalog) memiliki semua sinonim kata pada tesaurus tercetak, demikian halnya dengan tesaurus online II (sinonim kata), sedangkan pada tesaurus online III (tesaurus web) ada 1 (satu) kata yang tidak memiliki sinonim kata, sehingga nilainya kurang dari 100%.
Kesimpulan
Berdasarkan hasil ujicoba pada Bagian 3, maka tesaurus online terbaik adalah sinonim kata (http://www.sinonimkata.com/). Penelitian ini masih merupakan penelitian awal dalam menentukan tesaurus dari sekian banyak tesaurus online yang ada. Oleh karena itu perlu dilakukan penelitian lebih mendalam untuk mendapatkan suatu kesimpulan bahwa sebuah tesaurus lebih baik dari tesaurus yang lain. Penelitian kami selanjutnya adalah menguji tesaurus online ini dengan lebih banyak kata (lebih dari 25 kata) dan melakukan eksplorasi lebih dalam kata-kata yang banyak digunakan dalam media online lain sehingga tidak hanya dari 2 media online di atas saja. Hal ini dilakukan untuk dapat memastikan tesaurus yang lengkap dan tepat dapat diperoleh.
Pada sisi lain hasil penelitian pada artikel ini, selanjutnya dapat digunakan untuk proses yang lain, misalkan pada proses temu kembali informasi dan pada proses pengenalan nama properti pada proses ekstraksi tabel yang bersumber dari Internet.
Referensi
Andy Rofiek. 2011. “Definisi dan Makna Thesaurus”. http://language-komputer.blogspot.com/2011/12/thesaurus-untuk-temu-kembali-informasi.html
Shofwan Yusuf , Toro Rizky Y. Saputra, M. Rifki Ananda, Fajar Firdaus P., Agil Pamungkas. 2011. “Makalah Tesaurus”. http://softnesslibrary.blogspot.co.id/2011/11/draft-tugas-ilmu-dokumentasi-tentang.html
Bandono, SIP. 2010. “THESAURUS SEBAGAI SARANA TEMU KEMBALI INFORMASI UNTUK MENINGKATKAN PELAYANAN KEPADA PENGGUNA DI PERPUSTAKAAN”. https://bandonoisi.wordpress.com/2010/12/20/thesaurus-sebagai-sarana-temu-kembali-informasi-untuk-meningkatkan-pelayanan-kepada-pengguna-di-perpustakaan/
Jennifer E Rowley. 2010. “The Subject12. Pendekatan subjek – pendahuluan, proses, sarana dan evaluasi sederhana”. http://leuwiliang-bogor.blogspot.co.id/2010/03/resume-introduction-to-information.html
Jennifer E Rowley. 2010. “The Subject12. Pendekatan subjek – pendahuluan, proses, sarana dan evaluasi sederhana”. http://leuwiliang-bogor.blogspot.co.id/2010/03/resume-introduction-to-information.html
Pusat Bahasa Department Pendidikan Nasional. 2008. “Tesaurus Bahasa Indonesia, Pusat Bahasa”. Pusat Bahasa Department Pendidikan Nasional.
Via Kumaladewi, Victor Amrizal. 2009. “Implementasi Extended Boolean dan Pemanfaatan Tesaurus Pada Temu Balik Informasi”. Jurnal Sistem Informasi, 2(1), 2009, 15-25
Ahmad Thantawi, Detty Purnamasari, Lily Wulandari. 2015. “PEMILIHAN TESAURUS ONLINE BERBAHASA INDONESIA UNTUK TEMU KEMBALI INFORMASI”. Conference Paper · February 2013
Download Referensi dibawah ini: