Implementasi RapidMiner untuk Klasifikasi Risiko Kanker Payudara Menggunakan Metode Naive Bayes Berbasis Cross Validation
Keywords:
Breast Cancer, Data Mining, Naive BayesAbstract
Prediksi kekambuhan (recurrence) kanker payudara pasca-mastektomi merupakan tantangan klinis yang kompleks karena melibatkan interaksi berbagai variabel biologis pasien. Ketidakpastian prognosis ini menuntut adanya sistem pendukung keputusan medis yang akurat untuk menentukan urgensi pengobatan lanjutan. Penelitian ini bertujuan untuk membangun model klasifikasi risiko kekambuhan menggunakan algoritma Naive Bayes Classifier, yang dipilih karena keunggulannya dalam menangani probabilitas bersyarat pada data atribut nominal. Dataset yang digunakan bersumber dari UCI Machine Learning Repository (Institute of Oncology, Ljubljana) yang terdiri dari 286 rekam medis, mencakup 9 atribut prediktor kategorikal seperti tumor-size, inv-nodes, dan deg-malig. Dataset ini memiliki tantangan berupa missing values dan ketidakseimbangan kelas (class imbalance), dengan proporsi 201 kasus no-recurrence berbanding 85 kasus recurrence. Penelitian ini menerapkan metodologi Knowledge Discovery in Database (KDD) menggunakan perangkat lunak RapidMiner Studio. Tahapan pra-pemrosesan meliputi penamaan atribut manual dan imputasi data yang hilang menggunakan modus statistik. Validasi model dilakukan secara ketat menggunakan metode 10-Fold Cross-Validation untuk meminimalisir bias evaluasi. Hasil eksperimen menunjukkan bahwa model Naive Bayes menghasilkan tingkat Akurasi sebesar [72,03 %], Presisi sebesar [78,14 %], dan Recall sebesar [83,58 %]. Tingginya nilai akurasi namun dengan variasi pada nilai recall mengindikasikan pengaruh ketidakseimbangan data terhadap sensitivitas model dalam mendeteksi kasus positif. Kesimpulannya, Naive Bayes terbukti efektif dan komputasional efisien untuk dataset medis berdimensi kecil dengan fitur kategorikal, namun teknik penyeimbang data (resampling) disarankan untuk penelitian lanjutan guna meningkatkan deteksi pada kelas minoritas.
References
Prediksi kekambuhan (recurrence) kanker payudara pasca-mastektomi merupakan tantangan klinis yang kompleks karena melibatkan interaksi berbagai variabel biologis pasien. Ketidakpastian prognosis ini menuntut adanya sistem pendukung keputusan medis yang akurat untuk menentukan urgensi pengobatan lanjutan. Penelitian ini bertujuan untuk membangun model klasifikasi risiko kekambuhan menggunakan algoritma Naive Bayes Classifier, yang dipilih karena keunggulannya dalam menangani probabilitas bersyarat pada data atribut nominal. Dataset yang digunakan bersumber dari UCI Machine Learning Repository (Institute of Oncology, Ljubljana) yang terdiri dari 286 rekam medis, mencakup 9 atribut prediktor kategorikal seperti tumor-size, inv-nodes, dan deg-malig. Dataset ini memiliki tantangan berupa missing values dan ketidakseimbangan kelas (class imbalance), dengan proporsi 201 kasus no-recurrence berbanding 85 kasus recurrence. Penelitian ini menerapkan metodologi Knowledge Discovery in Database (KDD) menggunakan perangkat lunak RapidMiner Studio. Tahapan pra-pemrosesan meliputi penamaan atribut manual dan imputasi data yang hilang menggunakan modus statistik. Validasi model dilakukan secara ketat menggunakan metode 10-Fold Cross-Validation untuk meminimalisir bias evaluasi. Hasil eksperimen menunjukkan bahwa model Naive Bayes menghasilkan tingkat Akurasi sebesar [72,03 %], Presisi sebesar [78,14 %], dan Recall sebesar [83,58 %]. Tingginya nilai akurasi namun dengan variasi pada nilai recall mengindikasikan pengaruh ketidakseimbangan data terhadap sensitivitas model dalam mendeteksi kasus positif. Kesimpulannya, Naive Bayes terbukti efektif dan komputasional efisien untuk dataset medis berdimensi kecil dengan fitur kategorikal, namun teknik penyeimbang data (resampling) disarankan untuk penelitian lanjutan guna meningkatkan deteksi pada kelas minoritas.
Downloads
Published
Issue
Section
License
Copyright (c) 2025 M.Fery Ardiansyah, Hasbi Firmansyah, Wahyu Asriyani, Rizki Prasetyo Tulodho

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.










