Klasifikasi Data Mining Untuk Memprediksi Kualitas Air Yang Dapat Dikonsumsi Menggunakan Algoritma Random Forest

Wardani, Saylendra Arga (2025) Klasifikasi Data Mining Untuk Memprediksi Kualitas Air Yang Dapat Dikonsumsi Menggunakan Algoritma Random Forest. Undergraduate thesis, Universitas Nusantara PGRI Kediri.

[img] Text (Full text)
RAMA_57201_2113030052.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (5MB) | Request a copy
[img] Text (Similarity)
RAMA_57201_2113030052_SIMILARITY.pdf - Accepted Version
Available under License Creative Commons Public Domain Dedication.

Download (964kB)
[img] Text (Cover sd BAB 1 + references)
RAMA_57201_2113030052_0721029101_0713018402_01_front_ref.pdf - Accepted Version
Available under License Creative Commons Public Domain Dedication.

Download (1MB)
[img] Text (BAB 2)
RAMA_57201_2113030052_0721029101_0713018402_02.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (398kB) | Request a copy
[img] Text (BAB 3)
RAMA_57201_2113030052_0721029101_0713018402_03.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (300kB) | Request a copy
[img] Text (BAB 4)
RAMA_57201_2113030052_0721029101_0713018402_04.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (899kB) | Request a copy
[img] Text (BAB 5)
RAMA_57201_2113030052_0721029101_0713018402_05.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (184kB) | Request a copy
[img] Text (References)
RAMA_57201_2113030052_0721029101_0713018402_06_ref.pdf - Bibliography
Available under License Creative Commons Public Domain Dedication.

Download (194kB)
[img] Text (Lampiran)
RAMA_57201_2113030052_0721029101_0713018402_07_lamp.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (3MB) | Request a copy

Abstract

Ketersediaan air minum yang layak merupakan salah satu faktor krusial dalam menjamin kesehatan masyarakat. Penilaian terhadap potabilitas air memerlukan pendekatan analitik yang andal, terutama dalam memanfaatkan data parameter fisik dan kimia air. Beberapa studi terdahulu belum mengoptimalkan proses validasi model, sehingga berisiko menghasilkan estimasi kinerja yang kurang representatif. Penelitian ini bertujuan untuk mengkaji performa algoritma Random Forest dalam mengklasifikasikan kelayakan air minum serta mengidentifikasi fitur-fitur yang paling berpengaruh melalui analisis feature importance. Dataset yang digunakan adalah “Water Quality and Potability” yang tersedia secara publik melalui platform Kaggle. Tahapan praproses data meliputi imputasi terhadap nilai yang hilang, deteksi dan penghapusan outlier menggunakan metode Interquartile Range (IQR), normalisasi data dengan StandardScaler, serta penyeimbangan distribusi kelas menggunakan metode upsampling. Evaluasi model dilakukan menggunakan metrik akurasi, presisi, recall, dan F1-score, serta divalidasi menggunakan teknik Stratified K-Fold Cross Validation dengan 10 lipatan. Hasil penelitian menunjukkan bahwa algoritma Random Forest mampu menghasilkan akurasi sebesar 81,68% pada data uji dan rata-rata 78,23% pada evaluasi menggunakan validasi silang. Kinerja ini lebih unggul dibandingkan studi sebelumnya yang belum menerapkan validasi secara menyeluruh. Selain itu, fitur Hardness, pH, Chloramines, dan Solids teridentifikasi sebagai atribut yang paling signifikan dalam memengaruhi klasifikasi potabilitas. Penerapan algoritma Random Forest yang dikombinasikan dengan validasi K-Fold terbukti efektif dalam membangun model klasifikasi kualitas air yang akurat dan andal. Keterbatasan penelitian terletak pada keterbatasan jumlah dan variasi data. Penelitian selanjutnya direkomendasikan untuk menguji pendekatan serupa pada dataset yang lebih besar atau dengan algoritma pembelajaran mesin lainnya.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: Data Mining, Random Forest, Kualitas Air, Klasifikasi, K-Fold Cross Validation, Feature Importance.
Subjects: 100 Mathematics and natural science > 123 Computer science
340 Health sciences > 350 General health science
340 Health sciences > 351 Public health
340 Health sciences > 379 Medical analyst
340 Health sciences > 406 Food pharmacy and food safety analysis
410 Engineering science > 457 Computer engineering
410 Engineering science > 459 Computer science
410 Engineering science > 461 Information systems
410 Engineering science > 462 Information technology
580 Humaniora social science > 610 Social sciences
710 Education science > 762 Physical education and health sciences
710 Education science > 771 Biology education
900 Other sciences > 900 Other sciences
Divisions: Fakultas Teknik dan Ilmu Komputer > S1-Sistem Informasi
Depositing User: Saylendra Arga Wardani
Last Modified: 07 Aug 2025 04:26
URI: http://repository.unpkediri.ac.id/id/eprint/20178

Actions (login required)

View Item View Item