Dalam proses menggunakan AI, kita bertanya padanya sebuah pertanyaan, ia menjawab dengan sangat baik, tetapi kita tidak bisa tahu dari mana kalimat itu berasal, apakah itu "tebakan" atau apakah benar ia pernah melihatnya di sejumlah data pelatihan. Ini seperti ketika Anda bertanya pada seseorang, ia memberi tahu Anda jawabannya, setiap kalimat ia mengatakan "saya rasa itu benar", tetapi tidak pernah memberikan sumbernya.
Secara sederhana, model bahasa tradisional menggunakan teknik n-gram. 1️⃣uni-gram adalah melihat kata tunggal 2️⃣bi-gram adalah dua kata yang digabungkan bersama 3️⃣tri-gram adalah kombinasi tiga kata
Logika bahasa di atas akan memberikan sebagian konteks, tetapi kontennya sangat terbatas, hanya melihat masalah yang ada, menjawab berdasarkan hubungan kalimat kecil, tetapi mengabaikan logika pertanyaan saat ini dalam keseluruhan percakapan.
Dan Infini-gram adalah pendekatan lain. Ini tidak hanya melihat masalah yang ada, tetapi menggunakan cara yang mirip dengan "pencocokan simbol", di mana setiap segmen yang dihasilkan model dibandingkan dengan semua "pernyataan" yang mungkin muncul dalam set pelatihan, untuk melihat dari mana ia belajar dan kontribusi siapa yang terkait.
Misalnya, Anda bertanya kepada model: "Bagaimana cara menentukan apakah sebuah dompet adalah Bot?" Model umum akan memberi tahu Anda: "Alamat ini biasanya melakukan perdagangan frekuensi tinggi pada beberapa kontrak DEX dalam waktu yang sangat singkat."
Teknologi di baliknya sebenarnya cukup keras, menggunakan kerangka ∞-gram berbasis suffix-array —— pada dasarnya, ia telah membangun indeks untuk semua segmen dalam kumpulan pelatihan sebelumnya, dan saat output, langsung membandingkannya tanpa perlu menjalankan model lagi, juga tidak bergantung pada perhitungan gradien. Ini berarti cepat, stabil, dan dapat direproduksi.
Bagi pengguna, Anda dapat mengetahui apakah jawaban model itu "original" atau "salinan". Bagi kontributor data, Anda dapat memperoleh "hak atribusi" yang layak dan bahkan "insentif ekonomi". Ini menyediakan antarmuka yang "dapat dijelaskan" untuk otoritas pengawas.
Apa yang dilakukan OpenLedger bukanlah membuat model lebih "pintar", tetapi lebih "bertanggung jawab" - bisa menjelaskan setiap pernyataan dengan jelas: "Mengapa saya mengatakan ini, dari mana saya belajar".
Menurut saya, sistem Proof of Attribution yang diusulkan oleh OpenLedger adalah langkah kunci menuju "AI yang dapat dipercaya", dan mungkin merupakan infrastruktur inti untuk membangun kepemilikan data dan pelacakan kontribusi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Dalam proses menggunakan AI, kita bertanya padanya sebuah pertanyaan, ia menjawab dengan sangat baik, tetapi kita tidak bisa tahu dari mana kalimat itu berasal, apakah itu "tebakan" atau apakah benar ia pernah melihatnya di sejumlah data pelatihan. Ini seperti ketika Anda bertanya pada seseorang, ia memberi tahu Anda jawabannya, setiap kalimat ia mengatakan "saya rasa itu benar", tetapi tidak pernah memberikan sumbernya.
Secara sederhana, model bahasa tradisional menggunakan teknik n-gram.
1️⃣uni-gram adalah melihat kata tunggal
2️⃣bi-gram adalah dua kata yang digabungkan bersama
3️⃣tri-gram adalah kombinasi tiga kata
Logika bahasa di atas akan memberikan sebagian konteks, tetapi kontennya sangat terbatas, hanya melihat masalah yang ada, menjawab berdasarkan hubungan kalimat kecil, tetapi mengabaikan logika pertanyaan saat ini dalam keseluruhan percakapan.
Dan Infini-gram adalah pendekatan lain. Ini tidak hanya melihat masalah yang ada, tetapi menggunakan cara yang mirip dengan "pencocokan simbol", di mana setiap segmen yang dihasilkan model dibandingkan dengan semua "pernyataan" yang mungkin muncul dalam set pelatihan, untuk melihat dari mana ia belajar dan kontribusi siapa yang terkait.
Misalnya, Anda bertanya kepada model: "Bagaimana cara menentukan apakah sebuah dompet adalah Bot?"
Model umum akan memberi tahu Anda: "Alamat ini biasanya melakukan perdagangan frekuensi tinggi pada beberapa kontrak DEX dalam waktu yang sangat singkat."
Teknologi di baliknya sebenarnya cukup keras, menggunakan kerangka ∞-gram berbasis suffix-array —— pada dasarnya, ia telah membangun indeks untuk semua segmen dalam kumpulan pelatihan sebelumnya, dan saat output, langsung membandingkannya tanpa perlu menjalankan model lagi, juga tidak bergantung pada perhitungan gradien. Ini berarti cepat, stabil, dan dapat direproduksi.
Bagi pengguna, Anda dapat mengetahui apakah jawaban model itu "original" atau "salinan".
Bagi kontributor data, Anda dapat memperoleh "hak atribusi" yang layak dan bahkan "insentif ekonomi".
Ini menyediakan antarmuka yang "dapat dijelaskan" untuk otoritas pengawas.
Apa yang dilakukan OpenLedger bukanlah membuat model lebih "pintar", tetapi lebih "bertanggung jawab" - bisa menjelaskan setiap pernyataan dengan jelas: "Mengapa saya mengatakan ini, dari mana saya belajar".
Menurut saya, sistem Proof of Attribution yang diusulkan oleh OpenLedger adalah langkah kunci menuju "AI yang dapat dipercaya", dan mungkin merupakan infrastruktur inti untuk membangun kepemilikan data dan pelacakan kontribusi.