Data mining adalah proses yang menggabungkan statistika, ilmu komputer, kecerdasan buatan, dan pembelajaran mesin untuk mengekstrak serta mengidentifikasi informasi dan pengetahuan yang berguna dari database berskala besar. Teknik ini sangat diperlukan di berbagai bidang karena kemampuannya untuk menghasilkan informasi dan pengetahuan (knowledge) yang berharga bagi pengambilan keputusan yang lebih baik. Dengan pemanfaatan data mining, banyak masalah dapat diidentifikasi dan diatasi melalui analisis data secara mendalam.
Dalam perkuliahan kali ini, pemateri, yaitu Dr. Ir. M. Yazdi Pusadan, S.Kom., M.Eng, memberikan contoh penerapan data mining dengan studi kasus buah kakao (Theobroma cacao). Terdapat tiga permasalahan utama pada tanaman kakao yang menjadi sorotan dalam kajian ini, yakni penyakit busuk buah, hama kepik penghisap, dan hama penggerek. Ketiga masalah ini berpotensi mengancam hasil produksi kakao sehingga memerlukan solusi untuk deteksi dini agar dapat ditangani dengan tepat.
Tujuan dari percobaan ini adalah untuk mengembangkan sistem yang mampu mendeteksi jenis hama dan penyakit pada buah kakao berdasarkan fitur warna dari model HSV (Hue, Saturation, Value). Dalam metode HSV ini, ilmu data mining diaplikasikan untuk membantu dalam proses klasifikasi gambar dan mendeteksi keberadaan hama atau penyakit. Beberapa langkah yang harus dilakukan dalam mendeteksi hama dan penyakit menggunakan HSV antara lain:
Akuisisi citra dilakukan sebagai tahap awal untuk mengumpulkan data gambar yang akan disimpan di dalam database. Gambar-gambar ini kemudian dikonversi menjadi bentuk matriks yang siap untuk dilatih oleh sistem. Tahap selanjutnya adalah preprocessing, yang meliputi proses pengolahan gambar untuk meningkatkan kualitas citra agar lebih siap diproses lebih lanjut. Setelah itu, dilakukan cropping untuk memotong bagian gambar yang tidak diperlukan dan resize untuk menormalisasi ukuran gambar. Terakhir, dilakukan ekstraksi fitur, yaitu proses pengambilan fitur-fitur penting dari gambar yang relevan untuk analisis.
Selain menggunakan metode HSV, metode K-Nearest Neighbors (KNN) juga diterapkan dalam proses deteksi. Langkah-langkah pada metode KNN mencakup penentuan nilai k (jumlah tetangga terdekat), perhitungan jarak antar data, pengurutan data berdasarkan jarak terkecil, dan menentukan kelas data uji berdasarkan mayoritas tetangga terdekat. Dengan metode KNN, klasifikasi dapat dilakukan dengan membandingkan karakteristik gambar baru dengan gambar-gambar yang sudah ada dalam database.
Metode lainnya yang digunakan adalah K-Fold Cross Validation, yang berfungsi untuk meningkatkan akurasi dan konsistensi hasil klasifikasi. Langkah-langkah yang harus dilakukan pada metode ini adalah membagi dataset menjadi k bagian atau fold, memilih sampel secara bergantian dari setiap fold, dan memilih nilai k yang ideal, biasanya antara 5 hingga 10. Metode ini membantu dalam memvalidasi keakuratan sistem secara menyeluruh.
Berdasarkan hasil uji dan analisis yang disampaikan oleh Dr. Ir. M. Yazdi Pusadan, sistem deteksi jenis hama dan penyakit buah kakao memiliki akurasi sebesar 82,22% pada nilai k sebesar 5 dan 7, menggunakan metode uji Multiclass Confusion Matrices. Akurasi validasi data menggunakan metode K-Fold Cross Validation mencapai 81,99% dengan rata-rata akurasi dari fold 1 hingga 5, dengan nilai k optimal pada KNN sebesar 5 dan pada K-Fold sebesar 5. Dari hasil ini, nilai k optimal untuk sistem deteksi ini adalah k sebesar 5, yang menunjukkan bahwa sistem dapat secara akurat mendeteksi hama dan penyakit pada buah kakao.