RSS

MESIN PENCARI BERBASISKAN SEMANTIK UNTUK BAHASA INDONESIA

  Sekarang sudah banyak orang menggunakan mesin pencari ( search engine ) untuk mencari berbagai informasi di internet. Salah saru mesin pencari ( search engine ) yang sering digunakan adalah Google Indonesia. Google memiliki user interface yang cukup simple dan dapat mencari di berbagai URL.

  Lalu dikembangkanlah sebuah sistem mesin pencari yang dapat memahami bahasa Indonesia dengan melakukan analisa kandungan dari kalimat. Beberapa mesin pencari telah mampu melakukan identifikasi bahasa yang digunakan pada sebuah dokumen. Proses identifikasi ini biasanya dilakukan dengan cara mengenali beberapa kata di dokumen tersebut yang merupakan ciri atau kekhasan bagi bahasa tertentu, akan tetapi mesin pencari tersebut tidak melakukan analisa terhadap kandungan dari dokumen tersebut. Dalam menganalisa kandungan teks, teknik parsing dan tata bahasa sangat diperlukan untuk memeriksa struktur sintaks dari suatu kalimat yang akan dianalisa. Setelah struktur sintaks dari suatu kalimat sudah dapat diidentifikasi, maka subjek, predikat dan objek dari kalimat tersebut dapat didefinisikan. Penentuan subjek, predikat dan objek tersebut bertujuan untuk menemukan tag-tag yang mungkin dihasilkan dari kalimat tersebut. Tag adalah kata kunci yang diketikkan oleh pengguna. Pemanfaatan tag ini bertujuan untuk mempermudah pengguna ketika melakukan proses pencarian. Pengguna cukup memilih topik yang berkaitan dengan kata kunci yang pertama digunakan untuk memfokuskan hasil pencarian. Pada purwa rupa mesin pencari ini, tag yang memiliki bobot nilai relevansi yang tinggi sesuai dengan konteks kata kunci yang dimasukkan oleh pengguna akan direpresentasikan dengan ukuran font yang paling besar dan begitu juga sebaliknya. Parsing dapat dilakukan dengan menggunakan regular expression. Regular expression ini memerlukan pattern dan corpus untuk mencari kata-kata dalam kalimat.


  Teknologi semantic web digunakan dalam pembuatan mesin pencari ini untuk mengelola informasi, mendefinisikan data semantik dan data semantik tersebut akan digunakan untuk menganotasikan teks dalam suatu artikel.


  Sistem mesin pencari ini berbasiskan komponen Open Source. Hal ini didasarkan atas pertimbangan fleksibilitas yang ada pada komponen Open Source tersebut. Dengan komponen Open Source memungkinkan pengembangan dilakukan secara cepat dengan hasil yang baik tanpa menghabiskan dana untuk lisensi. Sebagai komponen utama untuk proses pencarian, sistem ini menggunakan project Open Source Lucene sebagai komponen yang membantu proses pengindeksasian dan pencarian dokumen. Sebelum artikel-artikel tersebut diindeks, maka dilakukan terlebih dahulu dilakukan konversi artikel dalam bentuk PDF dan HTML ke dalam bentuk teks yang dilakukan oleh prototype tersebut.


  Pendefinisian data semantik untuk masing-masing artikel dibuat dengan menggunakan XML(Extensible Markup Language) yang terintegrasi dengan UIMA(Unstructured Information Management Architecture) yaitu salah satu produk buatan IBM. UIMA memiliki beberapa komponen utama untuk melakukan analisis kandungan teks dengan menggunakan data semantik yang sudah telebih dahulu didefinisikan seperti Collection Reader, Analysis Engine dan CAS Consumer. Collection Reader berfungsi untuk mengumpulkan seluruh file teks yang akan dianalisa dan mengembalikan tipe CAS yang meliputi artikel-artikel yang akan dianalisa. Kemudian, Analysis Engine menggunakan CAS tersebut untuk menganalisa kandungan teks dan menghasilkan CAS consumer yang kaya akan tag. Selanjutnya, CAS Consumer menggunakan CAS tersebut untuk menghasilkan beberapa tag untuk masing-masing artikel. Tag-tag yang dihasilkan untuk masing-masing artikel akan disimpan di basis data oleh prototipe untuk mempercepat proses pencarian.


  Tentu saja agar sistem dapat berjalan dengan baik maka dibutuhkan komponen lainnya, antara lain Tomcat dan MySql. Sedangkan sebagai bahasa pemrograman digunakan Java dengan berbagai pustaka yang mendukung. Maka dapat disimpulkan tiga proses utama yang dijalankan oleh mesin pencari ini adalah melakukan indeks artikel, analisa kandungan teks dalam suatu kalimat dan pencarian dengan menggunakan Lucene.


by :
Reza Aprildarma (54409425)
Kukuh Panji Widodo (53409050)
2ia05


Mengedit paper : Jurnal Sistem Informasi MTI-UI, Volume 4, Nomor 2, ISBN 1412-8896

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS

Perkenalan

Nama saya adalah Reza. saya seorang mahasiswa di salah satu universitas swasta di Indonesia, Universitas Gunadarma. Bisa dibilang kehidupan saya dikampus cukup sibuk, saya mengambil jurusan Teknik Informatika. Di sini saya bisa menambah ilmu saya tentang bahasa pemrograman, komputer dan jaringan.


Dikeluarga, saya adalah anak kedua dari dua bersaudara, memliki satu orang kakak perempuan, satu orang ayah dan satu orang ibu. Banyak orang bilang, kalau anak bungsu itu adalah anak yang paling manja, tapi saya mencoba untuk menghilangkan image tersebut pada diri saya.

Saya sedang mencari sebuah organisasi yang bisa menambah pergaulan, wawasan dan pengalaman agar saya dapat lebih siap dalam menghadapi dunia kerja nanti.

Basket, adalah olahraga yang paling saya minati dan kuasai, tapi pada umumnya saya suka semua olahraga.
IT, adalah suatu hal yang sangat cepat sekali perkembang, oleh karena itu saya mencoba untuk selalu update agar tidak ketinggalan perkembangan IT ini.
Hitam dan Putih, adalah dua warna yang sangat bertolak belakang, namun keduanya sangat indah apabila disatukan.
Bahagia, adalah sebuah kata yang sangat diinginkan oleh semua orang, dan saya juga ingin selalu bahagia.
Membaca, adalah kegiatan yang sangat berguna bagi semua orang, dan saya sedang mencoba untuk bisa melakukan kegiatan tersebut.
Semangat, adalah kata yang bisa membuat orang melakukan sesuatu dengan bahagia.
Teman, adalah seseorang yang bisa kita ajak berdiskusi, bercanda dan diajak berkerja sama.
Sahabat, adalah seseorang yang lebih dari teman, mereka bisa diajak untuk berbagi masalah, kebahagiaan, kesedihan, memberi bantuan dalam semua hal, dan setia.
Pacar, adalah seseorang yang bisa dibilang adalah bagian dari keluarga, karena orang yang saya sayang, saya perhatikan, dan sebaliknya dia pun melakukan hal tersebut kepada saya.

Dan semua ini adalah kehidupan saya yang selalu menimba ilmu, memperbanyak teman, mencari sahabat, memiliki seorang pacar, bermain basket, mencari tahu tentang IT, menyukai warna hitam dan putih, selalu berusaha untuk mendapatkan kebahagiaan, selalu ingin membaca dan selalu bersemangat dalam melakukan hal apapun.

Semua itu akan terangkum didalam Blog saya ini.
Sekian blog perdana saya ini, selamat menikmati :)

  • Digg
  • Del.icio.us
  • StumbleUpon
  • Reddit
  • RSS