Abstrak |
Diabetes adalah salah satu penyakit paling mematikan dan mahal. Saat ini, sistem deteksi penyakit diabetes secara otomatis terus dikembangkan menggunakan pendekatan deep learning (DL), yang memberikan akurasi tinggi dalam mengklasifikasikan pasien menjadi dua kelas: menderita diabetes atau tidak. Sayangnya, DL adalah metode black box dengan kompleksitas tinggi dan tidak dapat menjelaskan model yang dihasilkan secara ilmiah. Makalah ini mengusulkan kerangka kerja berbasis tetangga terdekat yang baru untuk menangani isu-isu tersebut dalam mengklasifikasikan Pima India Diabetes Dataset (PIDD). Pengelompokan dengan k-means clustering (KMC) pertama kali dilakukan untuk menghilangkan noise atau outlire dan menyimpan data yang kompeten di data pelatihan. Dimensi data yang kemudian direduksi menggunakan autoencoder (AE) untuk meminimalkan jarak data intra-kelas tetapi memaksimalkan data antar-kelas. Metode klasifikasi k-nearest neighbor (KNN) dan dua varian: aturan tetangga terdekat semu (PNNR) dan tetangga terdekat semu berbasis rata-rata lokal (LMPNN), digunakan untuk mendeteksi diabetes. Investigasi berdasarkan 5-fold cross validation (FCV) menginformasikan bahwa kombinasi KMC, AE, dan LMPNN mencapai rata-rata akurasi terbaik 98,98 , yang sedikit lebih tinggi daripada model deteksi berbasis DL canggih yang menghasilkan 98,07 . |