RSS

Tag Archives: Text Mining

text mining dan web mining..

Text Mining

Text mining atau dikenal juga sebagai Text data mining atau Knowledge discovery in textual databases merupakan proses semi otomatis pengekstrakan pola dari sejumlah besar sumber-sumber data yang tidak terstruktur. Berikut adalah daerah aplikasi text mining yang paling popular:

  • Information extraction. Identifikasi frase kunci dan hubungan dalam text dengan mencari urutan yang sudah dikenal dalam text dengan mencocokan pola.
  • Topic tracking. Berdasarkan pada profil user dan dokumen yang user lihat, text mining dapat memprediksikan dokumen lain yang diinginkan user.
  • Summarization. Merangkum dokumen untuk menyingkat waktu pada bagian pembaca.
  • Categorization. Mengidentifikasikan tema utama dari dokumen lalu menempatkan dokumen ke dalam set kategori yang sudah dikenal berdasarkan tema tersebut.
  • Clustering. Mengkelompokan dokumen-dokumen yang sama tanpa melakukan set kategori yang sudah dikenal.
  • Concept linking. Menghubungkan dokumen yang berhubungan dengan mengidentifikasikan konsep terbaginya dan dengan demikian membantu user menemukan informasi yang mungkin tidapat mereka temukan dengan metode pencarian tradisional.
  • Question answering. Menemukan jawaban terbaik dari pertanyaan yang diberikan melalui pencocokan pola pengethauan yang diberikan.

Natural Language Processing(NLP) merupakan komponen penting dalam text mining dan merupakan subfield dari artificial intelligence dan computational linguistic. Tantangan dalam pengimplementasian NLP:

  • Part-of-speech tagging
  • Text segmentation
  • Word sense disambiguation
  • Syntactic ambiguity
  • Imperfect or irregular input
  • Speech arts

Berikut merupakan task-task yang dilakukan NLP:

  • Information retrieval
  • Information extraction
  • Named-entity recognition
  • Question answering
  • Automatic summarization
  • Natural language generation
  • Natural language understanding
  • Macbine translation
  • Foreign language reading
  • Foreign language writing
  • Speech recognition
  • Text-to-speech
  • Text proofing
  • Optical character recognition


Text Mining Process sebagai berikut:

  1. Menentukan corpus.
  2. Membuat matriks term-document, dengan menggambarkan indexnya dan mengurangi dimensi matriks.
  3. Mengekstrak knowledge, dengan klasifikasi, clustering, association, dan trend analysis.

Text Mining Tools, sebagai berikut:

  • Commercial software tools, seperti ClearForest, IBM Intelligence Miner Data Mining Suite, Megaputer Text Analyst, SAS Text Miner, SPSS Text Mining,Statistica Text Mining, VantagePoint, dan WordStat analysis.
  • Free software tools, seperti GATE, LingPipe, S-EM (Spy-EM), dan Vivisimo/Clusty.

Web Mining

Web mining atau web data mining merupakan proses menemukan hubungan intrinsic (misal informasi yang berguna dan menarik) dari web data, yang memperlihatkan dalam bentuk text, link, atau penggunaan informasi.

Web content mining menunjuk pada pengekstrakan informasi yang berguna dari web pages. Dokumen mungin saja diekstrak dalam format machine-readble sehingga secara otomatis dapat mengenerate informasi tentang web pages. Web crawler digunakan untuk membaca melalui konten website secara otomatis. Informasi yang didapat tidak hanya dokumen yang seperti dalam text mining tapi juga dokumen tambahan lain seperti hirarki dokumen. Web structure mining merupakan proses pengekstrakan informasi yang berguna dari link-link yang dilekatkan dalam web document.

Web usage mining, merupakan mpengekstrakan informasi yang berguna dari data yang digenerate melalui pengunjungan web dan transaksi. Masand  et al, (2002) menetapkan bahwa paling sedikit ada tiga tipe data yang degenerate melalui web pages visit:

  1. Secara otomatis data yang digenerate  disimpan di server access logs, referrer logs, agent logs, dan client-side cookies.
  2. Profil user.
  3. Metadata, seperti atribut halaman, atribut konten, dan usage data.

Nasraoui (2006) melist aplikasi web mining berikut:

  • Menentukan nilai lifetime dari client.
  • Mendesain strategi pemasaran silang melalui produk.
  • Mengevaluasi kampanye promosi.
  • Mentarget kupon dan iklan pada user group berdasarkan pola akses user.
  • Memprediksikan prilaku user berdasarkan peraturan-peraturan yang dipelajari sebelumnya dan profil user.
  • Mengedepankan informasi dinamis pada user berdasarkan pada ketertarikan mereka dan profil.

Web structure mining, adalah proses menggunakan teori graph untuk menganalisis struktur node dan koneksi dari sebuah situs web. Menurut jenis data web struktural, web structure mining dapat dibagi menjadi dua jenis:

  • Mengekstrak pola dari hyperlink di web: hyperlink adalah komponen struktural yang menghubungkan halaman web ke lokasi yang berbeda.
  • Mining the document structure: Analisis struktur seperti pohon struktur halaman untuk menggambarkan penggunaan HTML atau XML tag.

Web Mining Success Strories.

ASK.com merupakan mesin pencari yang telah diketahui dengan baik. Scholastic.com merupakan took buku online yang khusus untuk buku-buku anak-anak. St.John Health System adalah system perawatan kesehatan dengan 8 rumah sakit, 125 lokasi medis, dan dan lebih dari 3000 tenaga medis. Pemikiran kedepan dari perusahaan-perusahaan seperti ask.com, scholastic.com dan St.John health system yaitu dengan menggunakan secara aktif system web mining untuk menjawab pertanyan penting yang kritis seperti “who?”,”why?”, dan “how?” seperti yang didokumentasikan, keuntungan dari pengintegrasian system ini yaitu keefektifan dan keefisienan yang signifikan, baik dalam masa pertumbuhan pertambahan finansial maupun  pertambahan customer yang loyal dan kepuasan customer.

 
Leave a comment

Posted by on 05/02/2011 in Kuliah

 

Tags: , ,