Обробка довгих текстів великими моделями стає новою нормою: виклики та можливості існують одночасно.

2025-07-24 06:26:55

Генерація анотацій у процесі

Довгострокові можливості стають новим "стандартом" для виробників великих моделей

Великі моделі підвищують свою здатність обробки тексту з неймовірною швидкістю, від початкових 4000 токенів до теперішніх 400000 токенів. Здається, що здатність обробки довгих текстів стала новим стандартом для оцінки потужності виробників великих моделей.

В даний час провідні компанії та дослідницькі установи в галузі великих моделей вітчизняного та закордонного ринку акцентують увагу на розширенні довжини контексту як напрямку важливих оновлень. Моделі серії GPT від OpenAI пройшли кілька оновлень, довжина контексту зросла з 4 тисяч до 32 тисяч токенів. Anthropic підняла довжину контексту до 100 тисяч токенів. Внутрішня компанія «Темна сторона Місяця» представила Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що еквівалентно приблизно 400 тисячам токенів.

Покращення здатності до обробки довгих текстів означає, що модель може працювати з довшими вхідними текстами, що підвищує її здатність до розуміння прочитаного. Від початкової можливості прочитати лише короткий текст до теперішньої здатності обробляти довгий роман. Це не лише розширює сфери застосування моделі, але й відкриває можливості для інтелектуального оновлення у фінансовій, юридичній, науковій та інших професійних сферах.

Однак, довжина тексту не завжди означає покращення. Дослідження показали, що підтримка моделей для більш довгого контексту не завжди призводить до покращення результатів. Більш важливим є ефективне використання контенту контексту моделлю.

Засновник "Темної сторони Місяця" Ян Чжілін вважає, що межа великих моделей визначається як здатністю на одному кроці, так і кількістю виконуваних кроків, де здатність на одному кроці пов'язана з кількістю параметрів, а кількість виконуваних кроків — це довжина контексту. Технологія довгих текстів може вирішити деякі ранні проблеми великих моделей і є однією з ключових технологій для впровадження в промисловість.

Наразі технології довгих текстів демонструють великий потенціал у таких сферах, як витяг інформації, генерація коду, рольова гра тощо. Але в реальних застосуваннях все ще існують деякі проблеми, такі як неможливість підключення до мережі для отримання останньої інформації, неможливість призупинення та внесення змін під час процесу генерації тощо.

Технології довгих текстів стикаються з проблемою "неможливого трикутника": важко врахувати довжину тексту, увагу та обчислювальну потужність. Це в основному викликано тим, що обсяг обчислень механізму самоуваги в структурі Transformer зростає в квадратній пропорції з довжиною контексту.

Щоб вирішити цю проблему, наразі існує три основні варіанти:

Використання зовнішніх інструментів для обробки довгих текстів
Оптимізація обчислень механізму самостійної уваги
Загальні методи оптимізації моделей

Хоча "трикутник неможливості" довгих текстів тимчасово безвихідний, це також вказує на напрямок для розробників великих моделей: знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю, щоб обробляти достатню інформацію, одночасно враховуючи обчислення уваги та обмеження витрат на обчислення.

TOKEN-3.67%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

16 лайків

Нагородити
16
6
Поділіться

Прокоментувати

0/400

ChainDoctor

· 07-24 11:17

Сказати прямо, це все ще питання поділу на сегменти.