6 Fase CRISP-DM (Cross-Industry Standard For Data Mining)
CRISP-DM dikembangkan tahun 1996 oleh analis dari beberapa industri seperti DaimlerChrisler, SPSS, dan NCR. CRISP-DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.
Dalam CRISP-DM sebuah proyek data mining memiliki siklus hidup yang terbagi dalam enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari fase sebelumnya. Hubungan penting antarfase digambarkan dengan panah. Sebagai contoh, jika proses berada pada fase modeling. Berdasar pada perilaku dan karakteristik model, proses mungkin harus kembali kepada fase data preparation untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase evaluation.
Gambar Proses Data Mining Menurut CRISP-DM
Berikut enam fase CRISP-DM (Larose, 2005):
- Fase pemahaman bisnis (Bisnis Understanding Phase)
- Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan.
- Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining.
- Menyiapkan strategi awal untuk mencapai tujuan.
- Fase Pemahaman Data (Data Understanding Phase)
- Mengumpulkan data.
- Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.
- Mengevaluasi kualitas data.
- Jika diinginkan, pilih sebagian kecil group data yang mungkin mengandung pola dari permasalahan.
- Fase Pengolahan Data (Data Preparation Phase)
- Siapkan dari data awal, kumpulkan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.
- Pilih kasus dan variabel yang ingin di analisis dan yang sesuai analisis yang akan dilakukan.
- Lakukan perubahan pada beberapa variabel jika dibutuhkan.
- Siapkan data awal sehingga siap untuk perangkat pemodelan.
- Fase Pemodelan (Modeling Phase)
- Pilih dan aplikasikan teknik pemodelan yang sesuai.
- Kalibrasi aturan model untuk mengoptimalkan hasil.
- Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.
- Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.
- Fase Evaluasi (Evaluation Phase)
- Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.
- Menetapkan apakah terdapat model yang memenuhi tujuan pada fasee awal.
- Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik.
- Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.
- Fase Penyebaran (Deployment Phase)
- Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.
- Contoh sederhana penyebaran: Pembuatan laporan.
- Contoh kompleks penyebaran: Penerapan proses data mining secara paralel pada departemen lain.
Sumber : Buku Karya Kusrini & Emha Taufiq Luthfi "Algoritma Data Mining"
Komentar