OPTIMASI PRE-PROCESSING MENGGUNAKAN REGULAR EXPRESSION DAN COSINE SIMILARITY UNTUK UJI KEMIRIPAN KALIMAT BAHASA INDONESIA

Musta'in, Ahmad Dzaky Hafidz (2025) OPTIMASI PRE-PROCESSING MENGGUNAKAN REGULAR EXPRESSION DAN COSINE SIMILARITY UNTUK UJI KEMIRIPAN KALIMAT BAHASA INDONESIA. Undergraduate thesis, Universitas Nusantara PGRI Kediri.

[img] Text (Full Text)
RAMA_55201_2113020216.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (2MB) | Request a copy
[img] Text (Similarity)
RAMA_55201_2113020216_SIMILARITY.pdf - Accepted Version
Available under License Creative Commons Public Domain Dedication.

Download (206kB)
[img] Text (Cover sd BAB 1 + References)
RAMA_55201_2113020216_0706118101_0703018704_01_front_ref.pdf - Accepted Version
Available under License Creative Commons Public Domain Dedication.

Download (913kB)
[img] Text (BAB 2)
RAMA_55201_2113020216_0706118101_0703018704_02.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (773kB) | Request a copy
[img] Text (BAB 3)
RAMA_55201_2113020216_0706118101_0703018704_03.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (785kB) | Request a copy
[img] Text (BAB 4)
RAMA_55201_2113020216_0706118101_0703018704_04.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (547kB) | Request a copy
[img] Text (BAB 5)
RAMA_55201_2113020216_0706118101_0703018704_05.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (324kB) | Request a copy
[img] Text (References)
RAMA_55201_2113020216_0706118101_0703018704_06_ref.pdf - Bibliography
Available under License Creative Commons Public Domain Dedication.

Download (326kB)
[img] Text (Lampiran)
RAMA_55201_2113020216_0706118101_0703018704_07_lamp.pdf - Accepted Version
Restricted to Registered users only
Available under License Creative Commons Public Domain Dedication.

Download (1MB) | Request a copy

Abstract

Pengukuran kemiripan kalimat dalam bahasa Indonesia kerap menghadapi kendala pada format teks yang tidak standar, salah satunya adalah angka Romawi. Pada beberapa sistem, angka sering kali dihapus atau diabaikan selama proses pra-pemrosesan, sehingga menurunkan akurasi hasil pengukuran kemiripan. Penelitian ini mengusulkan solusi dengan mengintegrasikan regular expression (regex) dalam tahap pre-processing untuk mendeteksi dan mengonversi angka Romawi sebelum dilakukan perhitungan kemiripan menggunakan metode cosine similarity. Sistem diuji pada 35 pasangan kalimat yang telah diberi label secara manual. Hasil pengujian menunjukkan bahwa sistem berhasil mengklasifikasikan tingkat kemiripan kalimat dengan akurasi sebesar 89%. Evaluasi dilakukan menggunakan confusion matrix, classification report, serta analisis terhadap kasus kesalahan klasifikasi. Temuan ini menunjukkan bahwa penambahan penanganan angka Romawi dalam pre-processing dapat meningkatkan keandalan sistem dalam pengolahan teks bahasa Indonesia.

Item Type: Thesis (Undergraduate)
Uncontrolled Keywords: Angka Romawi, Cosine Similarity, Kemiripan Kalimat, Optimasi Pre-Processing, Regular Expression
Subjects: 410 Engineering science > 457 Computer engineering
410 Engineering science > 459 Computer science
410 Engineering science > 462 Information technology
710 Education science > 786 Informatics engineering
Divisions: Fakultas Teknik dan Ilmu Komputer > S1-Teknik Informatika
Depositing User: Ahmad Dzaky Hafidz Musta'in
Last Modified: 07 Aug 2025 00:49
URI: http://repository.unpkediri.ac.id/id/eprint/20101

Actions (login required)

View Item View Item