Begitu banyaknya proyek atau pekerjaan di bidang data science saat ini menyebabkan banyak terjadinya kegagalan pada proyek data science tersebut. Faktor yang menyebabkan terjadinya hal tersebut tentulah banyak parameter yang terlibat. Artikel ini akan membahas beberapa faktor penyebab terjadinya kegagalan tersebut. Tulisan ini merupakan pembahasan awal yang akan membicarakan persoalan ini secara detail. Sehingga diharapkan kegagalan pada pekerjaan di bidang data science dapat dikurangi.
Lingkup Proyek Data science
Penggunaan kecerdasan buatan atau yang lebih dikenal dengan kecerdasan buatan (AI) semakin banyak digunakan untuk memecahkan masalah dengan mengembangkan solusi AI yang bersifat sistem/aplikasi cerdas. Ada dua pendekatan umum untuk mengembangkan sistem kecerdasan, berdasarkan pakar dan sumber pengetahuan, atau pada data yang menggunakan teknik pembelajaran mesin.
Pendekatan kedua adalah pendekatan data science. Ini adalah disiplin ilmu yang menggabungkan setidaknya tiga disiplin ilmu: ilmu komputer (bidang Artificial Intelligence terutama Machine Learning), Matematika/Statistik, dan disiplin pengetahuan domain.
Ada dua langkah yang dilakukan untuk mengimplementasikan sistem intelijen berbasis data.
- Pelatihan: Menemukan pola/pengetahuan dalam kumpulan data (database atau big data) dan menggabungkan pengetahuan ke dalam aplikasi intelijen.
- Penggunaan: Menggunakan aplikasi intelijen menjawab pertanyaan.
Sistem yang dikembangkan memiliki kemampuan yang disesuaikan dengan tujuan dari tugas yang harus diselesaikan:
- Deskriptif
- Diagnostik
- Prediktif
- Preskriptif
Sistem deskriptif mencoba menjelaskan keadaan saat ini. Untuk organisasi, ini adalah penggunaan sistem untuk menjelaskan status keuangan/neraca berdasarkan data indikator keuangan. Sistem intelijen untuk tujuan ini dibuat dari kumpulan data keuangan untuk sebuah perusahaan (misalnya, sebuah perusahaan. Pengetahuan yang dihasilkan oleh proses pemodelan data science sering disebut sebagai model.
Sistem diagnostik menggunakan data historis untuk mencoba menjelaskan mengapa masalah terjadi. Misalkan sistem medis sedang dikembangkan untuk memprediksi mengapa pasien akan mengalami berbagai gejala. Dengan kata lain, apa yang menyebabkan gejala-gejala tersebut pada pasien ini?
Sistem prediktif mencoba memprediksi/memprediksi hasil di masa depan berdasarkan data historis. Sebuah sistem yang memprediksi apakah harga saham akan naik atau turun di masa depan adalah contoh dari sistem prediktif.
Sistem preskriptif membawa aplikasi ke tingkat berikutnya dengan memberikan saran perbaikan. Oleh karena itu, sistem medis tidak hanya dapat mendiagnosis penyakit, tetapi juga menyarankan perawatan dan pengobatan untuk diberikan.
Sementara jenis tugas yang bisa dikembangkan adalah:
- Regresi atau estimasi
- Klasifikasi
- Klustering
- Asosiasi
- Deteksi Anomali
- Sequence Mining
- Rekomendasi
Proyek Data Science Gagal? Inilah faktornya.
Banyak proyek pengembangan data science dianggap sebagai proyek yang dapat menguntungkan organisasi karena menggunakan teknologi AI yang berbeda, terutama algoritma pembelajaran mesin yang berbeda, dan memiliki basis data dan data besar, tetapi telah tercapai. Kegagalan proyek data science lebih besar daripada kegagalan proyek TI lainnya.
Proyek data science gagal disebabkan oleh banyak faktor. Beberapa faktor utamanya adalah:
1. Lingkup Masalah
Masalah yang akan dipecahkan tidak jelas atau tidak dapat diselesaikan dengan menggunakan data. Di sisi lain, bidang AI menjadi “istilah teknis” yang dapat menyelesaikan semua jenis masalah, dan dapat dikatakan “terlalu menjanjikan”. Berikut info grafis yang bersumber dari sebuah paparan yang berjudul Project Management In AI.
2. Data
Seringkali data yang dibutuhkan tidak ada, jumlahnya terbatas, atau kualitasnya buruk (banyak kesalahan, ketidaklengkapan, dll.). Tidak tepat digunakan karena para pengembang (data scientist) tidak memahami arti dari data tersebut. Masalah lainnya adalah datanya terdistorsi (bias). Hal ini dapat menyebabkan model yang tidak akurat dalam hasil.
3. Model
Model yang dihasilkan salah karena tidak mendapatkan model yang cukup akurat atau model yang dihasilkan tidak dapat dipahami. Kedua hal ini menyebabkan model tidak menerima dukungan instalasi, yaitu proyek dianggap gagal.
4. Algoritma kompleks
Pemilihan algoritma machine learning sangat mempengaruhi model yang dapat dilatih. Terlalu banyak algoritma dengan model yang berbeda memperumit tugas data scientis. Oleh karena itu, hanya algoritma profisiensi tertentu yang diterapkan, bahkan jika modelnya bisa lebih baik jika algoritma lain digunakan.
5. Sumber Daya Manusia
Kegiatan data science sering dianggap sebagai kegiatan satu atau lebih data scientist, padahal dalam kenyataannya banyak pihak yang terlibat dalam pengembangan sistem cerdas ini.
Pengembangan Sistem Artifisial Intelijen berdasarkan data
Tidak Sama Dengan
Data + Machine Learning Algorithms
Oleh karena itu, pendekatan yang menurutnya pengembangan sistem intelijen adalah aktivitas menggunakan data dan menggunakan algoritma pembelajaran mesin pada data ini tidak tepat.
Metodologi diperlukan untuk membuatnya menjadi sistem intelijen yang sukses (dipasang/digunakan dan digunakan). Metodologi pengembangan didefinisikan sebagai metode berulang yang digunakan untuk memecahkan masalah dengan menggunakan pendekatan data dan data science melalui urutan langkah yang ditentukan. Terkait masalah ini akan dibahas pada artikel berikutnya.
Untuk artikel lain terkait dengan data science silahkan lihat kumpulan artikelnya di sini.