Barang Bajakan di Mangga Dua hingga QRIS Jadi Hambatan Dagang RI-AS, Solusinya?

Bagaimana Model Bahasa Besar Seperti LLM pada ChatGPT Bekerja?

Model bahasa besar (Large Language Model, LLM), seperti GPT-3 dari OpenAI, telah memikat para peneliti dengan kemampuannya untuk menghasilkan teks yang mirip dengan manusia dalam berbagai bentuk, mulai dari puisi hingga kode pemrograman.

oleh M Hidayat Diperbarui 14 Feb 2023, 19:30 WIB

Diterbitkan 14 Feb 2023, 19:30 WIB

Ilustrasi menggunakan ChatGPT OpenAI di smartphone (Liputan6.com/Giovani Dio Prasasti)... Selengkapnya

Liputan6.com, Jakarta - Model bahasa besar (Large Language Model, LLM), seperti GPT-3 dari OpenAI, telah memikat para peneliti dengan kemampuannya untuk menghasilkan teks yang mirip dengan manusia dalam berbagai bentuk, mulai dari puisi hingga kode pemrograman.

Jaringan saraf tiruan (artificial neural network, ANN), yang dilatih dengan sekumpulan data, mampu memprediksi teks yang mengikuti input yang diberikan.

Namun, pada dasarnya terobosan terbaru dalam bidang machine learning lebih dari itu. Itu adalah fenomena in-context learning, di mana model bahasa besar dapat belajar untuk menyelesaikan tugas baru tanpa memperbarui parameternya.

In-context learning, yang merupakan terobosan di bidang machine learning, memungkinkan model bahasa besar untuk mempelajari tugas baru tanpa menjalani proses latih ulang. Sebaliknya, mereka mempelajari tugas dengan menggunakan informasi yang terkandung dalam model besar itu sendiri.

Model bahasa besar pada ChatGPT ini kemudian dapat menerapkan algoritme pembelajaran sederhana untuk melatih model linear yang lebih kecil, yang terkandung di dalam dirinya sendiri, untuk menyelesaikan tugas baru.

Di sisi lain, parameter model yang lebih besar tetap seperti aslinya, yang membuat proses pembelajaran ini menjadi sangat efisien.

Ekin Akyürek, mahasiswa pascasarjana ilmu komputer dan penulis utama makalah bertajuk "What Learning Algorithm Is In-Context Learning? Investigations with Linear Models" mengeksplorasi fenomena ini, bersama dengan para peneliti dari Massachusetts Institute of Technology (MIT), Google Research, dan Stanford University.

Proses Latih Model

Mereka menyoroti pentingnya memahami in-context learning dan meyakini bahwa pemahaman yang lebih baik tentang in-context learning dapat membuat model mampu menyelesaikan tugas-tugas baru tanpa perlu latih ulang, yang sering kali merupakan proses yang mahal.

Alasan mengapa model bahasa besar dapat melakukan in-context learning terletak pada bagaimana mereka dilatih. GPT-3, misalnya, memiliki ratusan miliar parameter dan dilatih dengan membaca sejumlah besar teks dari miliaran situs web di internet.

Itu menyebabkan model mengulangi pola yang telah dia lihat selama proses latih, alih-alih belajar untuk melakukan tugas-tugas baru. Akyürek dan rekan-rekannya percaya bahwa in-context learning tidak hanya mencocokkan pola yang telah model lihat sebelumnya, tetapi juga belajar untuk melakukan tugas-tugas baru.

Transformator

Untuk menguji hipotesis ini, para peneliti menggunakan model jaringan saraf yang dikenal sebagai transformator, yang memiliki arsitektur serupa dengan GPT-3, tetapi telah dilatih secara khusus untuk in-context learning.

Evaluasi teoretis terhadap arsitektur transformator menunjukkan bahwa transformator dapat menulis model linier dalam keadaan tersembunyi, yaitu lapisan antara lapisan input dan output.

Transformator kemudian dapat melakukan pembaruan model linier itu dengan menerapkan algoritma pembelajaran yang lebih sederhana, membuat simulasi dan melatih versi yang lebih kecil dari dirinya sendiri.

Eksperimen probing dilakukan untuk mencoba dan memulihkan solusi model linier di dalam lapisan tersembunyi transformator. Hasilnya, terungkap bahwa parameter tersebut memang ditulis dalam keadaan tersembunyi.

Menjanjikan

Pekerjaan teoretis di bidang ini dapat mengarah pada pengembangan transformator yang mampu melakukan in-context learning dengan menambahkan hanya dua lapisan ke jaringan saraf.

Para peneliti menilai, in-context learning memiliki potensi besar untuk machine learning karena ia mampu membuat proses pembelajaran menjadi lebih efisien dan hemat biaya. Masa depan penelitian ini dapat mengarah pada eksplorasi lebih lanjut ke dalam algoritma pembelajaran yang dapat diterapkan oleh model-model besar.

Dengan kata lain, fenomena in-context learning dalam model bahasa besar, seperti GPT-3, sangat menjanjikan untuk masa depan machine learning.

Dengan pemahaman yang lebih baik tentang proses ini, para peneliti dapat memungkinkan model untuk menyelesaikan tugas-tugas baru tanpa perlu pelatihan ulang, sehingga proses pembelajaran menjadi lebih efisien dan hemat biaya.