Implementasi RapidMiner untuk Klasifikasi Risiko Kanker Payudara Menggunakan Metode Naive Bayes Berbasis Cross Validation

Authors

  • M.Fery Ardiansyah Universitas Pancasakti Tegal
  • Hasbi Firmansyah Universitas Pancasakti Tegal
  • Wahyu Asriyani Universitas Pancasakti Tegal
  • Rizki Prasetyo Tulodho Universitas Pancasakti Tegal

Keywords:

Breast Cancer, Data Mining, Naive Bayes

Abstract

Prediksi kekambuhan (recurrence) kanker payudara pasca-mastektomi merupakan tantangan klinis yang kompleks karena melibatkan interaksi berbagai variabel biologis pasien. Ketidakpastian prognosis ini menuntut adanya sistem pendukung keputusan medis yang akurat untuk menentukan urgensi pengobatan lanjutan. Penelitian ini bertujuan untuk membangun model klasifikasi risiko kekambuhan menggunakan algoritma Naive Bayes Classifier, yang dipilih karena keunggulannya dalam menangani probabilitas bersyarat pada data atribut nominal. Dataset yang digunakan bersumber dari UCI Machine Learning Repository (Institute of Oncology, Ljubljana) yang terdiri dari 286 rekam medis, mencakup 9 atribut prediktor kategorikal seperti tumor-size, inv-nodes, dan deg-malig. Dataset ini memiliki tantangan berupa missing values dan ketidakseimbangan kelas (class imbalance), dengan proporsi 201 kasus no-recurrence berbanding 85 kasus recurrence. Penelitian ini menerapkan metodologi Knowledge Discovery in Database (KDD) menggunakan perangkat lunak RapidMiner Studio. Tahapan pra-pemrosesan meliputi penamaan atribut manual dan imputasi data yang hilang menggunakan modus statistik. Validasi model dilakukan secara ketat menggunakan metode 10-Fold Cross-Validation untuk meminimalisir bias evaluasi. Hasil eksperimen menunjukkan bahwa model Naive Bayes menghasilkan tingkat Akurasi sebesar [72,03 %], Presisi sebesar [78,14 %], dan Recall sebesar [83,58 %]. Tingginya nilai akurasi namun dengan variasi pada nilai recall mengindikasikan pengaruh ketidakseimbangan data terhadap sensitivitas model dalam mendeteksi kasus positif. Kesimpulannya, Naive Bayes terbukti efektif dan komputasional efisien untuk dataset medis berdimensi kecil dengan fitur kategorikal, namun teknik penyeimbang data (resampling) disarankan untuk penelitian lanjutan guna meningkatkan deteksi pada kelas minoritas.

References

Prediksi kekambuhan (recurrence) kanker payudara pasca-mastektomi merupakan tantangan klinis yang kompleks karena melibatkan interaksi berbagai variabel biologis pasien. Ketidakpastian prognosis ini menuntut adanya sistem pendukung keputusan medis yang akurat untuk menentukan urgensi pengobatan lanjutan. Penelitian ini bertujuan untuk membangun model klasifikasi risiko kekambuhan menggunakan algoritma Naive Bayes Classifier, yang dipilih karena keunggulannya dalam menangani probabilitas bersyarat pada data atribut nominal. Dataset yang digunakan bersumber dari UCI Machine Learning Repository (Institute of Oncology, Ljubljana) yang terdiri dari 286 rekam medis, mencakup 9 atribut prediktor kategorikal seperti tumor-size, inv-nodes, dan deg-malig. Dataset ini memiliki tantangan berupa missing values dan ketidakseimbangan kelas (class imbalance), dengan proporsi 201 kasus no-recurrence berbanding 85 kasus recurrence. Penelitian ini menerapkan metodologi Knowledge Discovery in Database (KDD) menggunakan perangkat lunak RapidMiner Studio. Tahapan pra-pemrosesan meliputi penamaan atribut manual dan imputasi data yang hilang menggunakan modus statistik. Validasi model dilakukan secara ketat menggunakan metode 10-Fold Cross-Validation untuk meminimalisir bias evaluasi. Hasil eksperimen menunjukkan bahwa model Naive Bayes menghasilkan tingkat Akurasi sebesar [72,03 %], Presisi sebesar [78,14 %], dan Recall sebesar [83,58 %]. Tingginya nilai akurasi namun dengan variasi pada nilai recall mengindikasikan pengaruh ketidakseimbangan data terhadap sensitivitas model dalam mendeteksi kasus positif. Kesimpulannya, Naive Bayes terbukti efektif dan komputasional efisien untuk dataset medis berdimensi kecil dengan fitur kategorikal, namun teknik penyeimbang data (resampling) disarankan untuk penelitian lanjutan guna meningkatkan deteksi pada kelas minoritas.

Downloads

Published

2025-12-25