RSS

MESIN PENCARI BERBASISKAN SEMANTIK UNTUK BAHASA INDONESIA

  Sekarang sudah banyak orang menggunakan mesin pencari ( search engine ) untuk mencari berbagai informasi di internet. Salah saru mesin pencari ( search engine ) yang sering digunakan adalah Google Indonesia. Google memiliki user interface yang cukup simple dan dapat mencari di berbagai URL.

  Lalu dikembangkanlah sebuah sistem mesin pencari yang dapat memahami bahasa Indonesia dengan melakukan analisa kandungan dari kalimat. Beberapa mesin pencari telah mampu melakukan identifikasi bahasa yang digunakan pada sebuah dokumen. Proses identifikasi ini biasanya dilakukan dengan cara mengenali beberapa kata di dokumen tersebut yang merupakan ciri atau kekhasan bagi bahasa tertentu, akan tetapi mesin pencari tersebut tidak melakukan analisa terhadap kandungan dari dokumen tersebut. Dalam menganalisa kandungan teks, teknik parsing dan tata bahasa sangat diperlukan untuk memeriksa struktur sintaks dari suatu kalimat yang akan dianalisa. Setelah struktur sintaks dari suatu kalimat sudah dapat diidentifikasi, maka subjek, predikat dan objek dari kalimat tersebut dapat didefinisikan. Penentuan subjek, predikat dan objek tersebut bertujuan untuk menemukan tag-tag yang mungkin dihasilkan dari kalimat tersebut. Tag adalah kata kunci yang diketikkan oleh pengguna. Pemanfaatan tag ini bertujuan untuk mempermudah pengguna ketika melakukan proses pencarian. Pengguna cukup memilih topik yang berkaitan dengan kata kunci yang pertama digunakan untuk memfokuskan hasil pencarian. Pada purwa rupa mesin pencari ini, tag yang memiliki bobot nilai relevansi yang tinggi sesuai dengan konteks kata kunci yang dimasukkan oleh pengguna akan direpresentasikan dengan ukuran font yang paling besar dan begitu juga sebaliknya. Parsing dapat dilakukan dengan menggunakan regular expression. Regular expression ini memerlukan pattern dan corpus untuk mencari kata-kata dalam kalimat.


  Teknologi semantic web digunakan dalam pembuatan mesin pencari ini untuk mengelola informasi, mendefinisikan data semantik dan data semantik tersebut akan digunakan untuk menganotasikan teks dalam suatu artikel.


  Sistem mesin pencari ini berbasiskan komponen Open Source. Hal ini didasarkan atas pertimbangan fleksibilitas yang ada pada komponen Open Source tersebut. Dengan komponen Open Source memungkinkan pengembangan dilakukan secara cepat dengan hasil yang baik tanpa menghabiskan dana untuk lisensi. Sebagai komponen utama untuk proses pencarian, sistem ini menggunakan project Open Source Lucene sebagai komponen yang membantu proses pengindeksasian dan pencarian dokumen. Sebelum artikel-artikel tersebut diindeks, maka dilakukan terlebih dahulu dilakukan konversi artikel dalam bentuk PDF dan HTML ke dalam bentuk teks yang dilakukan oleh prototype tersebut.


  Pendefinisian data semantik untuk masing-masing artikel dibuat dengan menggunakan XML(Extensible Markup Language) yang terintegrasi dengan UIMA(Unstructured Information Management Architecture) yaitu salah satu produk buatan IBM. UIMA memiliki beberapa komponen utama untuk melakukan analisis kandungan teks dengan menggunakan data semantik yang sudah telebih dahulu didefinisikan seperti Collection Reader, Analysis Engine dan CAS Consumer. Collection Reader berfungsi untuk mengumpulkan seluruh file teks yang akan dianalisa dan mengembalikan tipe CAS yang meliputi artikel-artikel yang akan dianalisa. Kemudian, Analysis Engine menggunakan CAS tersebut untuk menganalisa kandungan teks dan menghasilkan CAS consumer yang kaya akan tag. Selanjutnya, CAS Consumer menggunakan CAS tersebut untuk menghasilkan beberapa tag untuk masing-masing artikel. Tag-tag yang dihasilkan untuk masing-masing artikel akan disimpan di basis data oleh prototipe untuk mempercepat proses pencarian.


  Tentu saja agar sistem dapat berjalan dengan baik maka dibutuhkan komponen lainnya, antara lain Tomcat dan MySql. Sedangkan sebagai bahasa pemrograman digunakan Java dengan berbagai pustaka yang mendukung. Maka dapat disimpulkan tiga proses utama yang dijalankan oleh mesin pencari ini adalah melakukan indeks artikel, analisa kandungan teks dalam suatu kalimat dan pencarian dengan menggunakan Lucene.


by :
Reza Aprildarma (54409425)
Kukuh Panji Widodo (53409050)
2ia05


Mengedit paper : Jurnal Sistem Informasi MTI-UI, Volume 4, Nomor 2, ISBN 1412-8896

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

0 komentar:

Posting Komentar