Data Mining

Suatu istilah yang digunakan untuk mengurai penemuan pengetahuan di dalam database. Data mining merupakan proses yang menggunakan teknik statistik, matematik, kecerdasan buatan dan machine learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan berbagai pengetahuan yang terakit dari berbagai database besar (Tuban, dkk. 2005).

Menurut Gradner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematik (Larose, 2005).

Faktor-faktor yang mendorong kemajuan luar biasa dalam bidang data mining antara lain (Larose, 2005):
  1. Pertumbuhan yang cepat dalam perkumpulan data.
  2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan memiliki akses ke dalam database yang andal.
  3. Adanya peningkatan akses data melalui navigasi web dan internet.
  4. Tekanan kompetisi bisnis untuk meningkatkan penguasaan pasar globalisasi ekonomi.
  5. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan teknologi)
  6. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan kapasitas media penyimpanan.
Hal-hal penting yang terkait dengan data mining adalah:
  1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.
  2. Data yang akan diproses berupa data yang sangat besar.
  3. Tujuan data mining adalah untuk mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat.

Gambar Bidang Ilmu Data Mining.

Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Gambar diatas menunjukan data mining data mining memiliki akar yang panjang  dari bidang ilmu sperti kecerdasan buatan, machine learning, statistik, database, dan juga information retrieval (Pramudiono, 2006).

Istilah data mining dan knowledge discovery in database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. 

Proses KDD secara garis besar dapat dijelaskan sebagai berikut (Fayad, 1996):
  1. Data Selection : Pemilihan (seleksi) data dari kumpulan operasional perlu dilakukan sebelum tahap penggalian informasi KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
  2. Pre-processing/Cleaning : Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang data duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). juga dilakukan proses enrichment, yaitu proses "memperkaya" data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, sperti data atau informasi eksternal.
  3. Transformation : Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
  4. Data Mining : Data mining adalah proses mencari pola atau informasi menarik delam data terpilih dengan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan  metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
  5. Interpretation/Evaluation : pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditentukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.




Sumber : Buku "Algoritma Data Mining", Karya : Kusrini & Emha Taufiq Luthfi

Komentar

Postingan populer dari blog ini

6 Fase CRISP-DM (Cross-Industry Standard For Data Mining)

Penyusunan Algoritma