PRE-PROCESSING PEMBENTUKAN DATA LATIH TERHADAP REVIEW NOVEL INDONESIA PADA SITUS GOODREADS
Abstract
Goodreads merupakan situs jaringan sosial yang mengkhususkan pada katalogisasi buku. Goodreads mempunyai konten friend, group, maupun discussion. Goodreads memungkinkan anggota untuk menampilkan daftar buku sudah dibaca (read), buku yang sedang dibaca (currently reading), dan akan dibaca (to read). Dalam situs ini, pengguna dapat saling berbagi rekomendasi buku bacaan dengan memberikan review maupun komentar. Review tersebut dapat membantu penulis dalam menganalisis riset atas opini publik, serta untuk membantu pengguna atau pembaca sebelum membeli buku dengan melihat sentimen review yang ada, apakah buku tersebut layak di beli atau tidak. Membaca komentar review secara keseluruhan dapat memakan waktu, namun jika hanya sedikit komentar review yang dibaca evaluasi akan menjadi bias. Untuk mengatasi masalah tersebut, digunakan klasifikasi analisis sentimen yang digunakan untuk mengelompokkan review menjadi opini positif atau opini negatif secara otomatis. Tahap yang akan dilakukan sebelum klasifikasi adalah text pre-processing sebagai langkah awal dari text mining, proses ini bertujuan untuk mengubah dan menyiapkan data/dokumen ke bentuk yang lebih cocok dan tepat dalam merepresentasikan data untuk digunakan pada proses-proses selanjutnya. Dalam penelitian ini digunakan untuk membentuk data latih pada tahap klasifikasi. Tahapan pada pre-processing terdiri dari case folding, tokenizing, stopword removal, dan stemming menggunakan Algoritma Nazief Adriani. Data review yang digunakan dalam sistem ini terdiri dari 330 data latih.