Meskipun AI terlihat canggih, namun AI memiliki keterbatasan yang signifikan. Salah satunya adalah AI tidak bisa mengenali jumlah huruf “r” dalam kata “strawberry”. Mengapa AI tidak bisa mengeja ‘strawberry’? Model bahasa besar (LLM) dapat menulis esai dan memecahkan persamaan dalam hitungan detik. Mereka dapat mensintesiskan terabyte data lebih cepat daripada manusia membuka buku. Namun, AI tampaknya membuat kesalahan besar yang membuat banyak orang tertawa dan membuat meme yang viral.
Menurut produk AI seperti GPT-4o dan Claude, saat ditanya berapa kali huruf “r” muncul dalam kata “strawberry”, jawabannya adalah dua kali. Jawaban tersebut tentu saja salah karena jawaban yang benar adalah ada tiga huruf “r” dalam kata strawberry. Mengapa demikian? Kegagalan model bahasa besar untuk memahami konsep huruf dan suku kata merupakan indikasi bahwa benda ini tidak memiliki otak. Mereka tidak berpikir seperti manusia. Mereka bukan manusia, bahkan tidak mirip manusia.
Sebagian besar LLM dibangun di atas transformer, semacam arsitektur pembelajaran mendalam. Model transformer memecah teks menjadi token, yang dapat berupa kata-kata lengkap, suku kata, atau huruf, tergantung pada modelnya. “LLM didasarkan pada arsitektur transformer ini, yang secara khusus tidak benar-benar membaca teks. Apa yang terjadi ketika Anda memasukkan perintah adalah perintah tersebut diterjemahkan ke dalam sebuah enkode,” kata Matthew Guzdial, seorang peneliti AI dan asisten profesor di University of Alberta, kepada TechCrunch.
“Hal ini karena transformer tidak dapat menerima atau mengeluarkan teks yang sebenarnya secara efisien. Sebaliknya, teks tersebut diubah menjadi representasi numerik dari dirinya sendiri, yang kemudian dikontekstualisasikan untuk membantu AI menghasilkan respons yang logis. Dengan kata lain, AI mungkin mengetahui bahwa token “straw” dan “berry” membentuk “strawberry,” tetapi mungkin tidak memahami bahwa “strawberry” terdiri dari huruf “s,” “t,” “r,” “a,” “w,” “b,” “e,” “r,” “r,” dan “y,” dalam urutan tertentu.
Oleh karena itu, ia tidak dapat memberi tahu Anda berapa banyak huruf – apalagi berapa banyak huruf “r” – yang muncul dalam kata “strawberry.” Ini bukan masalah yang mudah untuk diperbaiki, karena masalah ini tertanam dalam arsitektur yang membuat LLM ini berfungsi. Kyle Wiggers dari TechCrunch menyelidiki masalah ini bulan lalu dan berbicara dengan Sheridan Feucht, seorang mahasiswa PhD di Northeastern University yang mempelajari interpretabilitas LLM.
“Agak sulit untuk menjawab pertanyaan tentang apa sebenarnya ‘kata’ yang seharusnya untuk model bahasa, dan bahkan jika kita mendapatkan pakar manusia untuk menyetujui kosakata token yang sempurna, model mungkin masih akan merasa berguna untuk ‘mengelompokkan’ hal-hal lebih jauh lagi,” kata Feucht kepada TechCrunch. “Dugaan saya adalah tidak ada yang namanya tokenizer sempurna karena ketidakjelasan semacam ini.”
Masalah ini menjadi lebih rumit saat LLM mempelajari lebih banyak bahasa. Misalnya, beberapa metode tokenisasi mungkin berasumsi bahwa spasi dalam kalimat akan selalu mendahului kata baru, tetapi banyak bahasa seperti Cina, Jepang, Thailand, Laos, Korea, Khmer, dan lainnya tidak menggunakan spasi untuk memisahkan kata. Peneliti AI Google DeepMind Yennie Jun menemukan dalam sebuah studi pada 2023 bahwa beberapa bahasa membutuhkan token hingga 10 kali lebih banyak daripada bahasa Inggris untuk mengomunikasikan makna yang sama.
“Mungkin lebih baik membiarkan model melihat karakter secara langsung tanpa menerapkan tokenisasi, tetapi saat ini hal itu tidak layak secara komputasi untuk transformer,” kata Feucht. Generator gambar seperti Midjourney dan DALL-E tidak menggunakan arsitektur transformer yang ada di balik generator teks seperti ChatGPT. Sebaliknya, generator gambar biasanya menggunakan model difusi, yang merekonstruksi gambar dari noise. Model difusi dilatih pada basis data gambar yang besar, dan mereka diberi insentif untuk mencoba menciptakan kembali sesuatu seperti yang mereka pelajari dari data pelatihan.
Asmelash Teka Hadgu, salah satu pendiri Lesan dan seorang peneliti di DAIR Institute, mengatakan kepada TechCrunch, bahwa generator gambar cenderung bekerja lebih baik pada artefak seperti mobil dan wajah orang. “Dan kurang baik pada hal-hal yang lebih kecil seperti jari dan tulisan tangan.”.