Seiring dengan perkembangan pesat teknologi model besar, kemampuan untuk memproses teks panjang telah menjadi salah satu indikator penting dalam mengukur kinerja model. Dari awal 4000 token hingga kini 400.000 token, model besar telah mencapai kemajuan signifikan dalam pemrosesan teks panjang.
Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka menjadikan perpanjangan panjang konteks sebagai fokus peningkatan. Misalnya, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan memperluas panjang konteks hingga 100.000 token sekaligus. Kimi Chat yang diluncurkan oleh Yuanzhi Anmian di dalam negeri mendukung input teks sekitar 400.000 token.
Peningkatan kemampuan pemrosesan teks panjang tidak hanya berarti model dapat menangani lebih banyak informasi, tetapi juga meletakkan dasar untuk aplikasi di bidang profesional seperti keuangan, hukum, dan penelitian. Bidang-bidang ini sering kali membutuhkan pemrosesan dokumen kompleks dalam jumlah besar, dengan tuntutan yang tinggi terhadap kemampuan merangkum, pemahaman bacaan, dan pertanyaan jawab.
Namun, dukungan untuk input konteks yang lebih panjang tidak sama dengan peningkatan kinerja model secara menyeluruh. Penelitian menunjukkan bahwa pemanfaatan konten konteks yang efektif oleh model adalah kunci. Saat ini, eksplorasi teknologi teks panjang masih berlanjut, 400.000 token mungkin baru saja merupakan awal.
Alasan utama untuk mendorong perkembangan teknologi teks panjang adalah sebagai berikut:
Mengatasi kesulitan penerapan saat ini, seperti masalah memori dalam skenario karakter virtual, analisis konten mendalam di bidang profesional, dll.
Memberikan dukungan untuk aplikasi Agent dan AI yang berbasis di masa depan, yang memerlukan informasi historis untuk pengambilan keputusan dan menjaga pengalaman yang kohesif.
Mengurangi masalah ilusi model dan meningkatkan akurasi penalaran dengan memberikan lebih banyak informasi konteks.
Mendorong model besar untuk berkembang ke arah profesionalisasi, personalisasi, dan pendalaman, membuka jalan bagi penerapan industri dan kemunculan super APP.
Namun, perkembangan teknologi teks panjang juga menghadapi dilema "segitiga yang tidak mungkin": kontradiksi antara panjang teks, perhatian, dan kekuatan komputasi. Ini terutama berasal dari kompleksitas perhitungan mekanisme perhatian diri dalam struktur Transformer yang tumbuh secara kuadrat seiring dengan panjang konteks.
Untuk mengatasi masalah ini, saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang, seperti membagi teks panjang menjadi beberapa teks pendek.
Mengoptimalkan perhitungan mekanisme perhatian diri, seperti teknologi LongLoRA yang mengurangi jumlah perhitungan melalui perhitungan kelompok.
Mengoptimalkan model, seperti LongLLaMA yang mencapai ekstrapolasi untuk urutan yang lebih panjang melalui fine-tuning.
Meskipun teknologi teks panjang masih menghadapi tantangan, itu memberikan kemungkinan baru untuk pengembangan lebih lanjut dan penerapan model besar. Di masa depan, penyedia model besar akan terus mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi untuk mencapai kemampuan pemrosesan teks panjang yang lebih kuat.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
16 Suka
Hadiah
16
4
Bagikan
Komentar
0/400
OnlyOnMainnet
· 11jam yang lalu
Apakah kamu bisa menangani artikel yang begitu panjang...
Lihat AsliBalas0
MissedTheBoat
· 07-20 07:14
Melihatnya saja sudah menghabiskan uang! Memikirkan biaya listrik saja sudah pusing
Lihat AsliBalas0
TheShibaWhisperer
· 07-20 07:13
Pecahkan langitnya~
Lihat AsliBalas0
ser_ngmi
· 07-20 06:52
Jangan berputar lagi, sudah 400.000 dan masih belum cukup.
Kemajuan kemampuan pemrosesan teks panjang model besar: kompetisi dan tantangan dari 4000 hingga 400.000 token
Di Balik Teks Panjang Vendor Model Besar
Seiring dengan perkembangan pesat teknologi model besar, kemampuan untuk memproses teks panjang telah menjadi salah satu indikator penting dalam mengukur kinerja model. Dari awal 4000 token hingga kini 400.000 token, model besar telah mencapai kemajuan signifikan dalam pemrosesan teks panjang.
Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka menjadikan perpanjangan panjang konteks sebagai fokus peningkatan. Misalnya, OpenAI telah meningkatkan panjang konteks GPT-3.5 dan GPT-4 masing-masing menjadi 16.000 dan 32.000 token melalui beberapa pembaruan. Anthropic bahkan memperluas panjang konteks hingga 100.000 token sekaligus. Kimi Chat yang diluncurkan oleh Yuanzhi Anmian di dalam negeri mendukung input teks sekitar 400.000 token.
Peningkatan kemampuan pemrosesan teks panjang tidak hanya berarti model dapat menangani lebih banyak informasi, tetapi juga meletakkan dasar untuk aplikasi di bidang profesional seperti keuangan, hukum, dan penelitian. Bidang-bidang ini sering kali membutuhkan pemrosesan dokumen kompleks dalam jumlah besar, dengan tuntutan yang tinggi terhadap kemampuan merangkum, pemahaman bacaan, dan pertanyaan jawab.
Namun, dukungan untuk input konteks yang lebih panjang tidak sama dengan peningkatan kinerja model secara menyeluruh. Penelitian menunjukkan bahwa pemanfaatan konten konteks yang efektif oleh model adalah kunci. Saat ini, eksplorasi teknologi teks panjang masih berlanjut, 400.000 token mungkin baru saja merupakan awal.
Alasan utama untuk mendorong perkembangan teknologi teks panjang adalah sebagai berikut:
Mengatasi kesulitan penerapan saat ini, seperti masalah memori dalam skenario karakter virtual, analisis konten mendalam di bidang profesional, dll.
Memberikan dukungan untuk aplikasi Agent dan AI yang berbasis di masa depan, yang memerlukan informasi historis untuk pengambilan keputusan dan menjaga pengalaman yang kohesif.
Mengurangi masalah ilusi model dan meningkatkan akurasi penalaran dengan memberikan lebih banyak informasi konteks.
Mendorong model besar untuk berkembang ke arah profesionalisasi, personalisasi, dan pendalaman, membuka jalan bagi penerapan industri dan kemunculan super APP.
Namun, perkembangan teknologi teks panjang juga menghadapi dilema "segitiga yang tidak mungkin": kontradiksi antara panjang teks, perhatian, dan kekuatan komputasi. Ini terutama berasal dari kompleksitas perhitungan mekanisme perhatian diri dalam struktur Transformer yang tumbuh secara kuadrat seiring dengan panjang konteks.
Untuk mengatasi masalah ini, saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang, seperti membagi teks panjang menjadi beberapa teks pendek.
Mengoptimalkan perhitungan mekanisme perhatian diri, seperti teknologi LongLoRA yang mengurangi jumlah perhitungan melalui perhitungan kelompok.
Mengoptimalkan model, seperti LongLLaMA yang mencapai ekstrapolasi untuk urutan yang lebih panjang melalui fine-tuning.
Meskipun teknologi teks panjang masih menghadapi tantangan, itu memberikan kemungkinan baru untuk pengembangan lebih lanjut dan penerapan model besar. Di masa depan, penyedia model besar akan terus mencari titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi untuk mencapai kemampuan pemrosesan teks panjang yang lebih kuat.