1. Thesaurus
Thesaurus berasal dari bahasa Yunani dan Latin yang berarti “sebuah himpunan yang berharga” atau lebih spesifik lagi “sebuah kekayaan” (treasury). Selama berabad-abad kata thesaurus dipakai untuk merujuk ke kata “lexicon” atau “treasury of words” alias himpunan kata-kata yang tentunya dianggap sangat berharga.
Dalam Information Retrieval, Thesaurus dapat digunakan untuk membantu pengindeksan dan penemuan kembali informasi karena thesaurus dapat menyediakan kosakata yang tepat dan terkontrol sehingga pengguna dapat memilih istilah yang tepat untuk kedua penggunaan diatas. Dalam pencarian, pengguna dapat menggunakan thesaurus untuk mendesain strategi pencarian yang paling tepat.
Jika pencarian tidak menghasilkan dokumen yang cukup, thesaurus dapat digunakan untuk memperluas query dengan mengikuti link yang terdapat diantara term. Dengan cara yang sama, jika pencarian menghasilkan dokumen yang terlalu banyak, thesaurus dapat memberi alternatif pembendaharaan kata yang lebih spesifik untuk pencarian selanjutnya.
2. Konsep Thesaurus
Thesaurus merupakan suatu kosakata terkontrol yang diatur secara terurut dimana relasi ekivalensi, hirarki dan asosiasi antar term ditampilkan secara eksplisit dan diidentifikasikan dengan indikator relasi standard.
Thesaurus memiliki fungsi berdasarkan fungsionalitas-nya yaitu:
- Thesaurus Stand-alone
Berfungsi untuk membantu pengguna memahami arti suatu term beserta relasinya, membantu mencari variasi term dan mencari translasi term.
- Thesaurus Terintegrasi
Memiliki dua fungsi utama yaitu pengambilan informasi dan pengindeksan
Thesaurus memiliki struktur yang berbentuk pohon. Struktur thesaurus secara umum (General Thesaurus Ontology) atau GTO dapat terlihat sebagai berikut ini.
Dari gambar GTO dapat terlihat beberapa elemen thesaurus yaitu:
- Term formal (descriptor)
- Term non-formal (non-descriptor)
- Deskripsi term yaitu definisi dan scope note
- Relasi antar term
- Relasi lain yang dapat ditambahkan sendiri misalnya relasi translasi antar bahasa (TR)
Sebuah thesaurus biasanya paling sedikit terdiri dari dua bagian utama yaitu: :
(1) Daftar deskriptor (rumusan) menurut abjad; dan
(2) Daftar istilah yang merupakan panduan suatu deskriptor.
Istilah yang dipergunakan sebagai deskriptor untuk mengindeks dan menelusuri informasi, yaitu daftar istilah dalam bahasa indeks yang dikelompokkan secara alpabetis yang terdiri dari faset (kategori) yang mempunyai erat antara satu sama lain.
Contoh: PERPUSTAKAAN
: PERPUSTAKAAN NASIONAL.
: PERPUSTAKAAN PERGURUAN TINGGI.
: PERPUSTAKAAN SEKOLAH.
Istilah-istilah yang merupakan panduan suatu deskriptor (lead in term) yang merupakan pintu masuk kosa kata yang dipakai sebagai deskriptor dan menunjuk hubungan hierarkhis dari masing-masing deskriptor.
3. Jenis Hubungan
Dalam Thesaurus ada tiga jenis hubungan yang perlu di perhatikan, yaitu :
- Hubungan kesetaraan/sinonim
- Hubungan hirarkis
- Hubungan asosiatif
4. Hubungan Kesetaraan/Sinonim
Tujuan utama dari tesaurus adalah untuk menghubungkan (Match) istilah-istilah yang digunakan oleh si penelusur dan pengindeks. Apabila suatu istilah memiliki banyak alternatif nama lain (sinonim), maka kita harus memilih satu istilah yang akan digunakan sebagai deskriptor/istilah entri, dan memberikan acuan ke masing-masing istilah yang tidak digunakan, sehingga dapat terjadi match antara istilah yang digunakan oleh penelusur dengan deskriptor.
5. Hubungan Hirarkis
Hubungan hirarkis merupakan fitur utama yang membedakan tesaurus dari sarana kumpulan istilah lainnya, seperti kamus. Hubungan hirarkis ini didasari pada derajat atau level dari istilah itu sendiri, apakah istilah tersebut subordinat atau superordinat.
Istilah superordinat merepresentasikan klas, atau keseluruhan, sedangkan deskriptor subordinat merepresentasikan anggota/bagian dari klas. Dalam tesaurus, hubugan hirarkis ini direpresentasikan dengan notasi sebagai berikut:
- BT (Broader Term) = IL (Istilah luas) = merupakan label untuk deskriptor superordinat
- NT (Narrower Term) = IK (Istilah Khusus) = Merupakan label untuk deskriptor subordinat.
Hubungan hirarkis mencakup Hubungan Generik, hubungan kategori dengan contoh spesifik dan hubungan keseluruhan dan sebagiannya. Setiap deskriptor subordinat harus merepresentasikan konsep yang sama dengan deskriptor superordinatnya, dengan kata lain, Istilah Luas dan Istilah Khusus dapat merepresentasikan sesuatu, benda, tindakan,dan lain sebagainya.
6. Peragaan Thesaurus
Terdapat tiga macam format tesaurus tercetak yaitu
- berabjad:— menunjukkan tiap hubungan terdekat dari tiap istilah
- hirarkis: — memperlihatkan semua tingkatan hirarki
- digilir (permuted atau rotated): — berfungsi sebagai indeks dimana tiap kata dalam deskriptor atau istilah entri secara bergilir menjadi titik temu.
Ketiga tipe dasar ini memiliki berbagai versi atau variasi, seperti terlihat pada contoh-contoh terlampir. Dalam satu tesaurus kadang-kadang ketiga format digunakan, sebab dengan demikian tercapai kemudahan terbesar bagi pemakai. Semua tesaurus menampilkan peragaan berabjad, yang dilengkapi dengan peragaan lain yang oleh penyusun tesaurus dianggap perlu.
Prinsip yang diutamakan dalam mendesain format tesaurus tercetak ialah bahwa pemakai tidak boleh dibuat repot, maka diupayakan agar pemakai cukup melihat satu susunan atau peragaan saja. Karena itu misalnya rujukan USE dari istilah tidak terpilih (yang menjadi entry term) ke istilah terpilih atau deskriptor diintegrasikan ke dalam susunan berabjad deskriptor suatu tesaurus.
7. Algoritma Thesaurus
Dalam ditemukannya data oleh thesaurus tidak begitu saja ditemukan. Ini menggunakan algoritma tertentu dan algoritma yang digunakann adalah algoritma stemming.
Algoritma Stemming
Algoritma ini didahului dengan pembacaan tiap kata dari file sampel. Sehingga input dari algoritma ini adalah sebuah kata yang kemudian dilakukan:
- Pemeriksaan semua kemungkinan bentuk kata. Setiap kata diasumsikan memiliki 2 awalan / prefiks dan 3 akhiran / sufiks. Sehingga bentuknya menjadi :
Prefiks 1 + Prefiks 2 + Kata Dasar + Sufiks 3 + Sufiks 2+ Sufiks 1
Seandainya kata tersebut tidak memiliki imbuhan sebanyak imbuhan di atas, maka imbuhan yangkosong diberi tanda x untuk prefiks dan diberi tanda xx untuk sufiks. Untuk mewujudkannya maka dibuatlah struktur data untuk menampung setiap kata yang bentuknya sebagai berikut :
enum awalan_t {AwalanError=0,x,
me, pe, be, di, se, ke, te,
mem=100, men, per, pem, ber, ter,
pen,
ber_luluh, ter_luluh, per_luluh,
mem_luluh, pem_luluh, men_luluh,
pen_luluh, meny=200, peny, meng,
meng_luluh, peng_luluh, peng
};
enum akhiran_t {AkhiranError=0, i, kan, an, ku, mu, lah, pun, nya, kah, xx};
struct arrkata_t {
enum awalan_t p1,p2;
char kd[30];
enum akhiran_t s3,s2,s1;
};
- Dengan struktur data di atas, maka langkah awal pemotongan bisa dari mana saja. Dalam hal ini pemotongan dilakukan secara berurutan sebagai berikut :
- Awalan I, hasilnya disimpan pada p1
- Awalan II, hasilnya disimpan pada p2
- Akhiran I, hasilnya disimpan pada s1
- Akhiran II, hasilnya disimpan pada s2
- Akhiran III, hasilnya disimpan pada s3
Pada setiap tahap pemotongan di atas diikuti dengan pemeriksaan di kamus apakah hasil pemotongan itu sudah berada dalam bentuk dasar. Kalau pemeriksaan ini berhasil maka proses dinyatakan selesai dan tidak perlu melanjutkan proses pemotongan imbuhan lainnya.
- Namun jika sampai pada pemotongan akhiran III, belum juga ditemukan di kamus, maka dilakukan proses kombinasi. Kata dasar yang dihasilkan dikombinasikan dengan imbuhanimbuhannya dalam 12 konfigurasi berikut :
- Kata Dasar
- Kata Dasar + Akhiran III
- Kata Dasar + Akhiran III + Akhiran II
- Kata Dasar + Akhiran III + Akhiran II + Akhiran I
- Awalan I + Awalan II + Kata Dasar
- Awalan I + Awalan II + Kata Dasar + Akhiran III
- Awalan I + Awalan II + Kata Dasar + Akhiran III + Akhiran II
- Awalan I + Awalan II + Kata Dasar + Akhiran III + AkhiranII + AkhiranI
- Awalan II + Kata Dasar
- Awalan II + Kata Dasar + Akhiran III
- Awalan II + Kata Dasar + Akhiran III + Akhiran II 3
- Awalan II + Kata Dasar + Akhiran III + Akhiran II + Akhiran I
Download File Presentasi
Daftar Pustaka