TBI18-TI15B-P1-PENGENALAN DAN PENGERTIAN TEMU BALIK INFORMASI-Bagus sumantri

Anggota kelompok :

1.Bagus sumantri (15.11.0094)

2.Ya’rifudin Fahmi (15.11.0084)

3.Tria Doni Irawan (15.11.0139)

4.Panji Wicaksono (15.11.0083)

 

A. Pengertian temu balik informasi :

  1. Menurut Wibowo (2012) Sistem Temu Balik Informasi (Information Retrieval) adalah ilmu mencari informasi dalam suatu dokumen, mencari dokumen itu sendiri dan mencari metadata yang menggambarkan suatu dokumen. Sistem Temu Balik Informasi merupakan cabang dari ilmu komputer terapan (applied computer science) yang berkonsentrasi pada representasi, penyimpanan, pengorganisasian, akses dan distribusi informasi [KAN05]. Dalam sudut pandang pengguna, Sistem Temu Balik Informasi membantu pencarian informasi dengan memberikan koleksi informasi yang sesuai dengan kebutuhan pengguna.
  2. Menurut Hasugian (2003) sistem temu kembali informasi pada dasarnya adalah suatu proses untuk mengidentifikasi, kemudian memanggil (retrieval) suatu dokumen dari suatu simpanan (file), sebagai jawaban atas permintaan informasi.

Sementara Tague-Sutcliffe (1996) menjelaskan bahwa Tujuan utama sistem temu kembali informasi adalah untuk menemukan dokumen yang sesuai dengan kebutuhan informasi pengguna secara efektif dan efisien, sehingga dapat memberikan kepuasan baginya. Sedangkan Secara teknis tujuan Sistem temu kembali informasi menurut Hasugian (2006) adalah menyesuaikan (matching) dengan term atau istilah yang dibangun (query) dengan term atau indeks yang ada dalam dokumen, sehingga dengan kesesuaian tersebut maka dokumen-dokumen yang relevan akan terambil (retrieved) dari database. Dokumen relevan yang terambil tersebut itulah tujuan dari Sistem temu kembali informasi.

B. Sistim temu kembali informasi

Temu kembali informasi atau information retrieval merupakan proses dimana pengguna dapat menemukan informasi yang dibutuhkan pada penyedia informasi dengan dibantuh oleh sistem yang sudah disediakan. Menurut Saltea 1983, dalam Janu Saptari dan Purwono 2006 menjelaskan bahwa secara sederhana temu kembali informasi merupakan suatu sistem yang menyimpan informasi dan menemukan kembali informasi tersebut (Janu Suptari; Purwono 2006). Pada dasarnya sistem temu kembali informasi yang bertujuan untuk menyimpan informasi adalah sebuah kumpulan laporan yang tersimpan secara bersama-sama dalam satu tempat penyimpanan. Laporan-laporan yang tersimpan dapat berbentuk bibiliogari koleksi yang berada di penyedia jasa tersebut, bibliografi dari koleksi tersebut digunakan sebagai bahasa penelusur informasi. Adapun fungsi utama Sistem Temu Kembali Informasi seperti dikemukakan oleh Lancaster (1979) dan Kent (1971) adalah sebagai berikut: Mengidentifikasi sumber informasi yang relevan dengan minat masyarakat pengguna yang ditargetkan. Menganalisis isi sumber informasi  (dokumen) Merepresentasikan isi sumber informasi dengan cara tertentu yang memungkinkan untuk dipertemukan dengan pertanyaan (query) pengguna. Merepresentasikan pertanyaan (query) pengguna dengan cara tertentu yang memungkinkan untuk dipertemukan sumber informasi yang terdapat dalam basis data. Mempertemukan pernyataan pencarian dengan data yang tersimpan dalam basis data. Menemu-kembalikan informasi yang relevan. Menyempurnakan unjuk kerja sistem berdasarkan umpan balik yang diberikan oleh pengguna.

Sistem temu balik informasi

C. Arsitektur Sistem Temu Balik Informasi

Proses Temu Balik Informasi Dokumen Teks

Ada dua pekerjaan yang ditangani oleh sistem ini, yaitu melakukan pre-processing terhadap database dan kemudian menerapkan metode tertentu untuk menghitung kedekatan (relevansi atau similarity) antara dokumen di dalam database yang telah dipreprocess dengan query pengguna. Query yang dimasukkan pengguna dikonversi sesuai aturan tertentu untuk mengekstrak term-term penting yang sejalan dengan term-term yang sebelumnya telah diekstrak dari dokumen dan menghitung relevansi antara query dan dokumen berdasarkan pada term-term tersebut. Sebagai hasilnya, system mengembalikan suatu daftar dokumen terurut sesuai nilai kemiripannya dengan query pengguna [4]. Setiap dokumen (termasuk query) direpresentasikan menggunakan model bag-of-words yang mengabaikan urutan dari kata-kata di dalam dokumen, struktur sintaktis dari dokumen dan kalimat. Dokumen ditransformasi ke dalam suatu “tas“ berisi kata-kata independen. Term disimpan dalam suatu database pencarian khusus yang ditata sebagai sebuah inverted index. Index ini merupakan konversi dari dokumen asli yang mengandung sekumpulan kata ke dalam daftar kata yang berasosiasi dengan dokumen terkait dimana kata-kata tersebut muncul. Proses dalam Information Retrieval dapat digambarkan sebagai sebuah proses untuk mendapatkan retrieve document dari collection documents yang ada melalui pencarian query yang diinputkan user.

D. Bahasa penelusuran

Bahasa atau kosa kata penelusuran pada dasarnya terdapat dua Bahasa yang sering digunakan dalam penyusunan bahasa penelusuran, yaitu bahasa alami dan bahasa terkontrol. Bahasa terkontrol yang terdapat pada sistem temu kembali informasi merupakan bahasa yang sudah diterjemahkan oleh pengindeks yang memuat informasi mengenai koleksi tersebut. Penjelasannya adalah sebagai berikut:

Bahasa Alami Penjelasan mengenai bahasa alami oleh Lancaster (1986) dalam Hasugian (2003) Bahasa alamiah adalah bahasa dari dokumen yang diindeks. Biasanya bahasa tersebut merupakan bahasa yang tidak terkendali (uncontrolled vocabulary). Bahasa alamiah ini umum digunakan dalam komunikasi dan penulisan ilmiah, yang banyak dipakai oleh pengarang.

E. menurut Hasugian (2007) ada lima komponen Sistem temu kembali informasi yaitu :

1. Pengguna

adalah orang yang menggunakan atau memanfaatkan Sistem temu kembali informasi dalam kegiatan pengelolaan dan pencarian informasi. Berdasarkan perannya, pengguna Sistem temu kembali informasi dibedakakan atas 2 (dua) kelompok yaitu:

  • Pengguna (user) adalah seluruh pengguna Sistem temu kembali informasi yang menggunakan Sistem temu kembali informasi baik untuk pengelolaan (input data, backup data, maintenance atau lainnya) maupun untuk keperluan pencarian/penelusuran informasi.
  • pengguna akhir (end user) adalah pengguna yang hanya menggunakan Sistem temu kembali informasi untuk keperluan pencarian dan atau penelusuran informasi.

2. Query

Query adalah format bahasa permintaan yang di input (dimasukan) oleh pengguna kedalam Sistem temu kembali informasi. Dalam interface (antar muka) Sistem temu kembali informasi selalu disediakan kolom/ruas sebagai tempat bagi pengguna untuk mengetikkan (menuliskan) query nya. Dalam OPAC perpustakaan disebut “Search expression”. Pada kolom itulah pengguna mengetik/ menuliskan bahasa permintaanya (query), dan setelah query itu dimasukkan selanjutnya mesin akan melakukan proses pemanggilan (recall) terhadap dokumen yang diinginkan dari database.

3. Dokumen

Dokumen adalah istilah yang digunakan untuk seluruh bahan pustaka, apakah itu artikel, buku, laporan penelitian dsb. Seluruh bahan pustaka (dimasukkan) dan disimpan dalam database (pangkalan data). Media penyimpanan database ini ada yang berbentuk CD-ROM ada juga yang berbentuk harddisk. Database ini ada yang bisa diakses secara online dan ada juga yang diakses secara off line. Biasanya database yang bisa diakses secara online dapat diakses secara bersamaan (multy user), sedangkan yang sifatnya off line hanya dapat digunakan oleh seorang saja dalam waktu yang sama (single user).

4. Indexs dokumen

Indeks adalah daftar istilah atau kata (list of terms). Dokumen yang dimasukkan/disimpan dalam database diwakili oleh indeks, Indeks itu disebut indeks dokumen. Fungsinya adalah representasi subyek dari sebuah dokumen. Indeks memiliki tiga jenis yaitu :

  • Indeks subyek adalah menentukan subyek dokumen pada istilah mana/apa yang menjadi representasi subyek dari sebuah dokumen.
  • Indeks pengarang adalah mementukan nama pengarang mana yang menjadi representasi dari suatu karya.
  • Indeks bebas adalah menjadikan seluruh kata/istilah yang terdapat pada sebuah dokumen menjadi sebuah representasi dari dokumen, terkecuali stopword. Stopword adalah kata yang tidak di indeks seperti : yang, that, meskipun, di, ke, dan lain-lain atau seluruh kata sandang/partikel.

5. Pencocokkan (Matcher Fungtion)

Pencocokkan istilah (query) yang dimasukkan oleh pengguna dengan indeks dokumen yang tersimpan dalam database adalah dilakukan oleh mesin komputer. Komputerlah yang melakukan proses pencocokkan itu dalam waktu yang sangat singkat sesuai dengan kecepatan memory dan processing yang dimiliki oleh komputer itu. Komputer hanya dapat melakukan pencocokan berdasarkan kesamaan istilah, komputer tidak bisa berfikir seperti manusia sebab mesin komputer tersebut hanyalah “artificial intelegence” (kecerdasan buatan). Oleh karena itu sering terjadi “ambiguitas” atau kesalahan makna untuk sebuah istilah

F. Metodologi Indexing Teks

  1. Tokenizing

Tokenizing adalah proses penghilangan tanda baca pada kalimat yang ada dalam dokumen sehingga menghasilkan kata-kata yang berdiri masing-masing.

  1. Filtering

Tahap filtering adalah tahap pengambilan kata-kata yang penting dari hasil tokenizing. Tahap filtering ini menggunakan daftar stoplist atau wordlist. Stoplist yaitu penyaringan (filtering) terhadap kata-kata yang tidak layak untuk dijadikan sebagai pembeda atau sebagai kata kunci dalam pencarian dokumen sehingga kata-kata tersebut dapat dihilangkan dari dokumen. Sedangkan wordlist adalah daftar kata yang mungkin digunakan sebagai kata kunci dalam pencarian dokumen, dengan demikian maka tentu jumlah kata yang termasuk dalam wordlist akan lebih banyak daripada stoplist.

  1. Stemming

Stemming adalah proses mengubah kata menjadi kata dasarnya dengan menghilangkan imbuhan-imbuhan pada kata dalam dokumen. Dalam penelitian ini, proses stemming menggunakan Algoritma Porter. Berikut ini adalah algoritma Porter untuk proses Stemming

1) Hapus Particle.

2) Hapus Possesive Pronoun

3) Hapus awalan pertama. Jika tidak ada lanjutkan ke langkah 4a, jika ada maka lanjutkan ke langkah 4b.

4) a. Hapus awalan kedua, lanjutkan ke langkah 5a.

  1. Hapus akhiran. Jika tidak ditemukan maka kata tersebut

diasumsikan sebagai root word. Jika ditemukan maka lanjutkan ke

langkah 5b.

5) a. Hapus akhiran. Kemudian kata akhir diasumsikan sebagai root word

  1. Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai

root word.

G. Online public Access Catalog

Online Public Access Catalog (OPAC) merupakan alat bantu telusur untuk menemukan informasi atau koleksi pada perpustakaan. Menurut Sulistyo-Basuki (1991) dalam Kusmayadi dan Andriaty (2006), katalog perpustakaan adalah daftar buku atau koleksi pustaka dalam suatu perpustakaan atau dalam suatu

koleksi. Oleh karena itu, keberadaan katalog sangat penting untuk memudahkan penelusuran informasi. Adapun menurut Saleh dan Mustafa (1992) dalam Kusmayadi dan Andriaty (2006) menyatakan Katalog on-line atau OPAC merupakan sistem katalog perpustakaan yang menggunakan komputer. Pangkalan datanya biasanya dirancang dan dibuat sendiri oleh perpustakaan dengan menggunakan perangkat lunak komersial atau buatan sendiri. Katalog ini memberikan informasi bibliografis dan letak koleksinya. Katalog biasanya dirancang untuk mempermudah pengguna sehingga tidak perlu bertanya dalam menggunakannya (user friendly).

 

Referensi :

TEMU BALIK INFORMASI PADA DOKUMEN TEKS BERBAHASA

INDONESIA DENGAN METODE VECTOR SPACE RETRIEVAL MODEL Giat Karyono dan Fandy Setyo Utomo2

 

Hasugian, Jonner. (2003). Penggunaan Bahasa Alamiah dan Kosa Kata

Terkontrol Dalam Sistem Temu Kembali Informasi Berbasis Teks. Dalam

USU digital library. Medan: Perpustakaan Universitas Sumatra Utara.

Unduh Materi

Unduh Presentasi