Liputan6.com, Jakarta - Penggunaan model bahasa besar (Large Language Model, LLM), termasuk ChatGPT yang sedang populer untuk menyelesaikan tugas dapat menyebabkan plagiarisme lebih dari sekadar menyalin dan menempelkan (copy-paste) konten, menurut sebuah studi oleh para peneliti di Penn State University.
Studi ini mengidentifikasi tiga bentuk plagiarisme: kata demi kata, parafrase, dan ide. Mereka menemukan model bahasa melakukan ketiganya.
Baca Juga
Model bahasa yang disesuaikan dengan baik mengurangi plagiarisme kata demi kata, tetapi meningkatkan kasus parafrase dan penggunaan ide tanpa atribusi.
Advertisement
Selain itu, para peneliti menemukan contoh-contoh model bahasa yang mengekspos informasi pribadi seseorang melalui ketiga bentuk plagiarisme.
Penelitian ini menyoroti perlunya penelitian lebih lanjut mengenai generator teks dan pertanyaan etis dan filosofis yang muncul dari penggunaannya.
Para peneliti membangun sebuah pipeline untuk deteksi plagiarisme otomatis dan mengujinya dengan GPT-2 OpenAI, menggunakan 210.000 teks yang dihasilkan untuk menguji plagiarisme pada model bahasa yang telah dilatih sebelumnya dan model bahasa yang telah disempurnakan.
Mereka menyempurnakan tiga model bahasa untuk fokus pada dokumen ilmiah, artikel ilmiah yang terkait dengan COVID-19, dan klaim paten.
Mereka menggunakan mesin pencari sumber terbuka untuk mengambil 10 dokumen pelatihan teratas yang paling mirip dengan setiap teks yang dihasilkan dan memodifikasi algoritme penyelarasan teks yang sudah ada untuk mendeteksi lebih baik contoh-contoh plagiarisme kata demi kata, parafrase, dan ide.
Besar Dataset dan Parameter Berpengaruh
Para peneliti menemukan bahwa semakin besar dataset dan parameter yang digunakan untuk melatih model, semakin sering plagiarisme terjadi.
Temuan tim menunjukkan bahwa meskipun hasil dari model-model ini mungkin menarik dan menyenangkan untuk digunakan, mereka dapat membahayakan orisinalitas dan kreativitas konten dalam korpus pelatihan.
Seperti yang dijelaskan oleh penulis utama Jooyoung Lee, "Orang-orang mengejar model bahasa yang besar karena semakin besar modelnya, kemampuan generasi meningkat... Ini adalah temuan yang penting."
Studi saat ini dapat membantu para peneliti AI membangun model bahasa lebih kuat, andal, dan bertanggung jawab di masa depan. Namun, para peneliti memperingatkan individu untuk berhati-hati saat menggunakan generator teks, karena mereka dapat menghasilkan konten plagiat yang mengakibatkan konsekuensi negatif bagi pengguna.
Â
Advertisement
Masalah etika dan hak cipta
Meskipun memanfaatkan model bahasa sebagai mesin pencari atau stack overflow untuk men-debug kode mungkin tidak masalah, menggunakannya untuk tujuan lain dapat mengakibatkan plagiarisme.
Menurut Thai Le, asisten profesor ilmu komputer dan informasi di University of Mississippi yang mulai mengerjakan proyek ini sebagai kandidat doktor di Penn State, "Dalam praktiknya, kita perlu memperhatikan masalah etika dan hak cipta yang ditimbulkan oleh pembuat teks."
Dongwon Lee, profesor ilmu informasi dan teknologi di Penn State menambahkan, "Sekarang, saatnya mengajarkan mereka untuk menulis dengan lebih baik, dan perjalanan kita masih panjang."
National Science Foundation mendukung penelitian ini. Para peneliti akan mempresentasikan temuan mereka pada Konferensi Web ACM 2023, yang berlangsung pada 30 April-4 Mei di Austin, Texas.