TEXT SUMMARIZATION PADA ARTIKEL BERITA MENGGUNAKAN VECTOR SPACE MODEL DAN COSINE SIMILARITY

Mardi Siswo Utomo Universitas Stikubank
Jati Sasongko Wibowo Universitas Stikubank
Eko Nur Wahyudi Universitas Stikubank

DOI: https://doi.org/10.35315/informatika.v14i1.9163

Abstract

Sebuah artikel yang panjang akan membuat pembaca membutuhkan waktu yang lebih lama untuk dapat menyelesaikan bacaan dan pemahamannya. Sehingga dibutuhkan sebuah bentuk ringkasan untuk mempercepat pembaca dalam memahami secara singkat isi dari artikel secara keseluruhan. Umumnya ringkasan dibuat oleh penulis dalam bentuk tulisan manual untuk menggambarkan isi keseluruhan artikel. Sehingga dibutuhkan untuk membuat ringkasan secara otomatis dengan tidak merubah isi substansi dari artikel. Meringkas secara otomatis menggunakan metode vector space model dan cosine similarity. VSM digunakan untuk memberikan bobot nilai pada semua kata yang ada di artikel. CS digunakan untuk menghitung kemiripan antara judul artikel dengan isi artikel. Selain kedua algoritma yang telah disebutkan, masih ada beberapa proses atau metode yang dilakukan khususnya pada tahap pre-processing. Diantaranya crawling, tokenization, punctuation removal, stopword, dan stemming. Hasil dari pre-processing ini baru kemudian dilakukan proses menggunakan algoritma vector space model dan cosine similarity, dan terakhir diurutkan berdasarkan nilai cosine similarity tertinggi. Hasil dari proses peringkasan berupa sebuah paragraf yang diambil dari beberapa kalimat yang mempunyai nilai kemiripan dengan judul paling tinggi. Pada penelitian ini dari 104 kalimat yang ada pada artikel di dapat 5 kalimat yang mempunyai nilai kemiripan paling tinggi. Lima kalimat ini dijadikan satu paragraf sebagai hasil dari proses peringkasan artikel.

DB Error: Table './ojs/metrics' is marked as crashed and last (automatic?) repair failed