KEVIN – Tugas 5 TBI – Latent Semantic Indexing (LSI)

Latent Semantic Indexing (LSI)

KELOMPOK :

  1. KEVIN SETIAWAN      (14.11.0221)
  2. AHMAD ZAINUR         (14.11.0254)
  3. BAHRUL AMIQ            (14.11.0349)
  4. PUTRANTO DANU P  (14.11.0356)
  5. OKRINDY NUGROHO (14.11.0383)
  6. SATRIO A.P
  7. FURQON N

KELAS : TI14C

A. Latent Semantic Indexing (LSI)

Latent adalah teknik untuk menganalisis keyword-keyword yang ada di satu halaman. Semantic adalah teknik yang dilakukan mesin pencari untuk mencocokkan hubungan antara keyword di satu halaman dengan halaman lain. Indexing adalah Proses pengindeksan oleh search engine ke database mereka.

LSI adalah sebuah algoritma yang mirip dengan proses pemikiran yang sebenarnya “manusia” akan melakukan searching dalam rangka untuk menentukan apakah hasil dari permintaan mereka relevan dengan apa yang akan dicari dengan teknik pengindeksan-analisis, mendaftar atau mengkategorikan kata kunci atau frasa tertentu dalam isi dari berbagai website, buku atau dokumen dengan sedemikian rupa sehingga mereka memiliki kontekstual dan konseptual yang sama atau terkait dengan maksud dan arti meskipun menggunakan kata yang berbeda di dalamnya.

Sederhananya, LSI mampu menentukan relevansi sebuah web/blog dengan cepat, membandingkan isinya dengan web/blog yang sudah ada yang memiliki kepercayaan yang tinggi. Tujuan pengindeksan semantik laten untuk mendapatkan kata kunci dalam teks yang membawa hubungan laten dalam struktur penggunaannya.

B. Penerapan Latent Semantic Indexing

Latent Semantic Indexing tadinya dipergunakan pada AdSense agar iklan yang dipasang lebih terarah dengan kecocokan antara materi iklan dan konten halaman page yang ditumpanginya.

Google mengaplikasikannya pada algoritma ranking, disusul oleh search engine lain. Metode yang dipakai menganalisa kata-kata yang natural dalam bahasa sehari-hari termasuk sinonim dan hubungan-hubungan lain dari kata-kata yang membangun konten kemudian dihubungkan dengan tema halaman secara keseluruhan.

C. Prinsip LSI

a) LSI Melibatkan Analisis Karakter String

Algoritma melibatkan analisis statistik dan matematika yang kompleks dari karakter individu dan string karakter yang digunakan dalam teks yang membuat sebuah halaman web tertentu. LSI digunakan untuk mengevaluasi isi dari file individual dipublikasikan di web. Algoritma ini bukan hanya menganalisa konten halaman tetapi juga temanya.

b) algoritma LSI Google mengambil dan membedakan antara bahasa, kosakata dan semantik.

Jika berpikir cukup mendalam, akan dapat memahami mengapa pengulangan kata kunci adalah sia-sia, dan mengapa kepadatan kata kunci yang rendah (KD) dapat memberikan hasil peringkat yang lebih baik daripada KD tinggi.

Google telah memperkenalkan sarana yang sangat kuat untuk membedakan antara bahasa, kosakata dan semantik. Bagaimana ini berbeda? Berikut caranya:

  1. Bahasa: Kata biasanya mengacu pada bentuk tertulis atau lisan kata-kata tertentu untuk negara tertentu atau masyarakat. Dengan demikian, string teks ‘sakit’ berarti ‘roti’ di Perancis, tapi tidak dalam bahasa Inggris. Google tidak bisa membedakan kecuali mengerti bahasa yang digunakan.
  2. Kosakata: Kata ini merujuk pada kata-kata yang digunakan dalam bahasa tertentu. Hal ini juga dapat merujuk pada berbagai kata-kata yang dikenal oleh orang tertentu dalam bahasa. ‘Bahasa Bad’ mengacu pada penggunaan kosa kata dan bukan bahasa. ‘Kotak’ adalah kata dalam kosa kata bahasa Inggris, tapi kata yang memiliki banyak makna.
  3. Semantik: Kata yang sama dapat digunakan untuk berarti banyak hal. Jadi kata ‘kotak’ bisa berarti sebuah wadah, untuk melawan, untuk membaca poin dari kompas atau jenis semak. Semantik mengacu pada makna kata-kata dalam konteks tertentu. bahasa yang buruk dapat mengekspresikan berarti sangat baik sehingga dapat membentuk semantik yang efektif!
  4. Sintaks: Cara di mana kata-kata digabungkan dalam sebuah kalimat. Dengan demikian, kata-kata ‘anjing menggigit orang’ dapat diekspresikan menggunakan sintaks yang berbeda sebagai ‘pria menggigit anjing.’ Sebelum LSI Google tidak bisa membedakan perbedaan itu hanya terdeteksi kata-kata.

c) Stuffing kata kunci dan Software

Ini menjadi praktek umum untuk halaman web. Banyak orang yang menggunakan mesin pencari untuk menemukan informasi yang sangat penting. Pendapat bahwa algoritma peringkat didirikan adalah bahwa semakin banyak kata kunci, semakin tinggi peringkat. Itu adalah keliru.

Google melihat dan memutuskan untuk melakukan sesuatu tentang hal itu. Dimulai dengan menggunakan algoritma Adsense yang digunakan semantik untuk menetapkan jenis terbaik iklan untuk setiap halaman web tertentu.

d) LSI menggunakan konsep analisis semantik laten

Analisis semantik laten digunakan untuk mensurvei semua kosa kata, sintaksis dan semantik pada halaman untuk membangun arti yang sebenarnya. Dengan cara LSI, Google dapat membandingkan istilah pencarian yang digunakan oleh pelanggan dengan mengindeks halaman web dan membangun yang paling cocok istilah pencarian / keyword dengan menganalisa semua kosa kata pada halaman. Bagaimana cara melakukannya?

  1. Masalah Ambiguitas dalam Bahasa dan Kosakata

Bagaimana mesin tahu apa yang dibicarakan? Dengan cara mengambil string karakter yang membentuk kata-kata, dan mencarinya dalam posting blog yang diindeks dan halaman web.

  1. Pengaruh Terapan Semantik Akuisisi

Jawabannya datang setelah Google membeli sebuah perusahaan Santa Monica pada tahun 2003 yang dikenal sebagai Terapan Semantik. Perusahaan ini bekerja pada algoritma yang diterapkan semantik untuk memahami makna sebenarnya dari teks tertulis. Google membeli perusahaan dan kemudian diterapkan prinsip-prinsip program Adsense-nya.

Hal tersebut adalah program di mana Google menempatkan relevan iklan PPC pada halaman web. prinsip Semantik Terapan digunakan untuk menetapkan jenis terbaik iklan untuk halaman web/blog berdasarkan fokus sebenarnya dari isinya.

Google terus pmengembangkan teknik analisis matematika ini dan akhirnya munul apa yang disebut sebagai Semantic Indexing laten. Menggunakan LSI, adalah mungkin bagi Google untuk mengindeks dan kemudian peringkat halaman Anda untuk arti dan isi total bukan pada hanya penggunaan kata kunci.

D. Bagaimana LSI Algoritma Bekerja

  1. Google akan melihat kosa kata lain pada halaman Anda kemudian melakukan analisis statistik dari konteks dan sintaks dari kosa kata tersebut.
  2. Setelah mengambil faktor peringkat lainnya diperhitungkan, maka ada daftar halaman Anda di halaman hasil pencarian untuk kata kunci yang dicari dan peringkat sesuai dengan manfaat.

E. Tujuan LSI

Inti dari LSI adalah bahwa tidak ada lagi kebutuhan untuk pengulangan kata kunci yang berlebihan. Tapi jangan sampai kita salah kata kunci. Kita masih harus menggunakan kata kunci yang relevan, namun Google menggunakan konsep LSI untuk menentukan apa isi website benar-benar tentang yang dicari. Gunakan kata kunci hemat dan juga menggunakan istilah lain yang berarti hal yang sama dalam konteks yang dicari. Itulah jawaban untuk Bagaimana Algoritma LSI bekerja dan mengapa laten pengindeksan semantik adalah istilah.

Sumber:

https://ryanbian.wordpress.com/2010/06/15/pengertian-latent-semantic-indexing/

http://kemalseo.blogspot.co.id/2013/12/pengertian-latent-semantic-indexing.html

http://id.affdu.com/latent-semantic-indexing.html

File Presentasi : Download