Kemampuan Teks Panjang Menjadi "Standar" Baru bagi Perusahaan Model Besar
Model besar sedang meningkatkan kemampuan pemrosesan teksnya dengan kecepatan luar biasa, dari awalnya 4000 token berkembang menjadi 400.000 token saat ini. Kemampuan pemrosesan teks panjang tampaknya telah menjadi standar baru untuk mengukur kekuatan penyedia model besar.
Saat ini, perusahaan dan lembaga penelitian model besar terkemuka di dalam dan luar negeri menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Model GPT dari OpenAI telah mengalami beberapa peningkatan, dengan panjang konteks meningkat dari 4 ribu menjadi 32 ribu token. Anthropic bahkan berhasil meningkatkan panjang konteks hingga 100 ribu token. Kimi Chat yang diluncurkan oleh Yuezhi Anmian di dalam negeri mendukung input 200 ribu karakter Han, setara dengan sekitar 400 ribu token.
Peningkatan kemampuan teks panjang berarti model dapat menangani teks input yang lebih panjang, meningkatkan kemampuan pemahaman bacaan. Dari awal yang hanya bisa membaca sebuah artikel pendek, kini dapat menangani sebuah novel panjang. Ini tidak hanya memperluas skenario aplikasi model, tetapi juga memberikan kemungkinan untuk peningkatan kecerdasan di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, panjang teks tidak berarti semakin panjang semakin baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak dapat langsung disamakan dengan peningkatan efektivitas. Yang lebih penting adalah pemanfaatan konten konteks yang efektif oleh model.
Pendiri Dark Side of the Moon, Yang Zhiling, percaya bahwa batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks. Teknologi teks panjang dapat menyelesaikan beberapa masalah awal model besar, dan juga merupakan salah satu teknologi kunci untuk mendorong penerapan industri.
Saat ini, teknologi teks panjang menunjukkan potensi besar dalam ekstraksi informasi, generasi kode, peran bermain, dan sebagainya. Namun, dalam aplikasi praktis masih ada beberapa masalah, seperti ketidakmampuan untuk terhubung ke internet untuk mendapatkan informasi terbaru, dan proses generasi tidak dapat dijeda untuk modifikasi.
Teks panjang menghadapi dilema "segitiga ketidakmungkinan": sulit untuk menjaga keseimbangan antara panjang teks, perhatian, dan daya komputasi. Ini terutama disebabkan oleh jumlah perhitungan mekanisme perhatian diri dalam struktur Transformer yang meningkat secara kuadrat seiring dengan panjang konteks.
Untuk mengatasi situasi ini, saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Metode umum untuk mengoptimalkan model
Meskipun "trik segitiga" dari teks panjang saat ini tidak memiliki solusi, ini juga memberikan arahan eksplorasi bagi produsen model besar: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan biaya komputasi, untuk mengolah informasi yang cukup sambil memperhatikan batasan perhitungan perhatian dan biaya komputasi.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
16 Suka
Hadiah
16
6
Bagikan
Komentar
0/400
ChainDoctor
· 07-24 11:17
Intinya tetap adalah ilmu yang tersegmentasi.
Lihat AsliBalas0
GigaBrainAnon
· 07-24 06:55
Ah, sekali lagi membahas panjang.
Lihat AsliBalas0
quiet_lurker
· 07-24 06:52
Siapa yang bisa bertahan dengan biaya GPU yang mahal?
Lihat AsliBalas0
Blockwatcher9000
· 07-24 06:51
Apa gunanya teks panjang, tidak bisa dijelaskan dalam sepuluh kata?
Lihat AsliBalas0
ForkLibertarian
· 07-24 06:51
Baru sekarang saya tahu bahwa semakin panjang tidak selalu lebih baik.
Lihat AsliBalas0
AlwaysMissingTops
· 07-24 06:46
Panjang pendek adalah masalah yang sebenarnya sulit.
Pengolahan teks panjang model besar menjadi standar baru, tantangan dan peluang berjalan beriringan.
Kemampuan Teks Panjang Menjadi "Standar" Baru bagi Perusahaan Model Besar
Model besar sedang meningkatkan kemampuan pemrosesan teksnya dengan kecepatan luar biasa, dari awalnya 4000 token berkembang menjadi 400.000 token saat ini. Kemampuan pemrosesan teks panjang tampaknya telah menjadi standar baru untuk mengukur kekuatan penyedia model besar.
Saat ini, perusahaan dan lembaga penelitian model besar terkemuka di dalam dan luar negeri menjadikan perpanjangan panjang konteks sebagai arah peningkatan utama. Model GPT dari OpenAI telah mengalami beberapa peningkatan, dengan panjang konteks meningkat dari 4 ribu menjadi 32 ribu token. Anthropic bahkan berhasil meningkatkan panjang konteks hingga 100 ribu token. Kimi Chat yang diluncurkan oleh Yuezhi Anmian di dalam negeri mendukung input 200 ribu karakter Han, setara dengan sekitar 400 ribu token.
Peningkatan kemampuan teks panjang berarti model dapat menangani teks input yang lebih panjang, meningkatkan kemampuan pemahaman bacaan. Dari awal yang hanya bisa membaca sebuah artikel pendek, kini dapat menangani sebuah novel panjang. Ini tidak hanya memperluas skenario aplikasi model, tetapi juga memberikan kemungkinan untuk peningkatan kecerdasan di bidang profesional seperti keuangan, hukum, dan penelitian.
Namun, panjang teks tidak berarti semakin panjang semakin baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak dapat langsung disamakan dengan peningkatan efektivitas. Yang lebih penting adalah pemanfaatan konten konteks yang efektif oleh model.
Pendiri Dark Side of the Moon, Yang Zhiling, percaya bahwa batas atas model besar ditentukan oleh kemampuan langkah tunggal dan jumlah langkah eksekusi, di mana kemampuan langkah tunggal terkait dengan jumlah parameter, sedangkan jumlah langkah eksekusi adalah panjang konteks. Teknologi teks panjang dapat menyelesaikan beberapa masalah awal model besar, dan juga merupakan salah satu teknologi kunci untuk mendorong penerapan industri.
Saat ini, teknologi teks panjang menunjukkan potensi besar dalam ekstraksi informasi, generasi kode, peran bermain, dan sebagainya. Namun, dalam aplikasi praktis masih ada beberapa masalah, seperti ketidakmampuan untuk terhubung ke internet untuk mendapatkan informasi terbaru, dan proses generasi tidak dapat dijeda untuk modifikasi.
Teks panjang menghadapi dilema "segitiga ketidakmungkinan": sulit untuk menjaga keseimbangan antara panjang teks, perhatian, dan daya komputasi. Ini terutama disebabkan oleh jumlah perhitungan mekanisme perhatian diri dalam struktur Transformer yang meningkat secara kuadrat seiring dengan panjang konteks.
Untuk mengatasi situasi ini, saat ini ada tiga solusi utama:
Meskipun "trik segitiga" dari teks panjang saat ini tidak memiliki solusi, ini juga memberikan arahan eksplorasi bagi produsen model besar: mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan biaya komputasi, untuk mengolah informasi yang cukup sambil memperhatikan batasan perhitungan perhatian dan biaya komputasi.