Постачальники великих моделей: за лаштунками довгих текстів
З розвитком технології великих моделей, здатність обробляти довгі тексти стала одним із важливих показників оцінки продуктивності моделі. Від початкових 4000 токенів до нинішніх 400 000 токенів, великі моделі досягли значного прогресу в обробці довгих текстів.
Наразі кілька провідних компаній з великими мовними моделями та дослідницькі інститути розглядають розширення довжини контексту як пріоритет оновлення. Наприклад, OpenAI неодноразово оновлювала GPT-3.5 та GPT-4, збільшивши довжину контексту до 16 тисяч та 32 тисяч токенів відповідно. Anthropic навіть одноразово розширила довжину контексту до 100 тисяч токенів. Вітчизняний проєкт "Місячна темрява" запустив Kimi Chat, який підтримує введення тексту приблизно до 400 тисяч токенів.
Покращення здатності обробки довгих текстів означає не лише те, що модель може обробляти більше інформації, але й закладає основу для застосування в таких професійних сферах, як фінанси, право та наука. Ці сфери часто вимагають обробки великої кількості складних документів, маючи високі вимоги до підсумування, розуміння прочитаного та здатності відповідати на запитання.
Однак підтримка більшої довжини вхідного контексту не є рівнозначною всебічному підвищенню продуктивності моделі. Дослідження показують, що ефективне використання контенту контексту є ключовим. Наразі дослідження технологій довгих текстів триває, і 400 тисяч токенів можуть бути лише початком.
Основні причини розвитку технологій обробки довгих текстів можна звести до наступних пунктів:
Вирішення поточних труднощів впровадження застосунків, таких як проблеми пам'яті у віртуальних персонажах, глибокий аналіз змісту в професійних сферах тощо.
Надати підтримку майбутнім агентам та додаткам з нативним штучним інтелектом, які потребують історичної інформації для ухвалення рішень та підтримки узгодженого досвіду.
Зменшити проблеми ілюзій моделі та підвищити точність висновків, надаючи більше контекстуальної інформації.
Сприяти розвитку великих моделей у напрямках спеціалізації, індивідуалізації та поглиблення, прокладаючи шлях для впровадження в промисловість та появи супер-додатків.
Однак розвиток технологій довгих текстів також стикається з труднощами "неможливого трикутника": суперечністю між довжиною тексту, увагою і обчислювальною потужністю. Це в основному зумовлено тим, що обчислювальна складність механізму самостійної уваги в структурі Transformer зростає квадратним чином зі збільшенням довжини контексту.
Для вирішення цієї проблеми наразі існує три основні рішення:
Використовуйте зовнішні інструменти для обробки довгих текстів, такі як розділення довгих текстів на кілька коротких для обробки.
Оптимізуйте обчислення механізму самопривабливості, наприклад, технологія LongLoRA зменшує обчислювальне навантаження через групові обчислення.
Оптимізуйте модель, наприклад, LongLLaMA реалізує екстраполяцію для довших послідовностей через доопрацювання.
Хоча технології довгих текстів все ще стикаються з викликами, вони відкривають нові можливості для подальшого розвитку та впровадження великих моделей. У майбутньому постачальники великих моделей продовжать шукати оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю для досягнення більш потужних можливостей обробки довгих текстів.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
16 лайків
Нагородити
16
4
Поділіться
Прокоментувати
0/400
OnlyOnMainnet
· 12год тому
Чи зможеш впоратися з такою довгою статтею...
Переглянути оригіналвідповісти на0
MissedTheBoat
· 07-20 07:14
Дивитися на це — просто витрати! Думка про рахунок за електрику просто лякає.
Переглянути оригіналвідповісти на0
TheShibaWhisperer
· 07-20 07:13
Ламаємо стелю~
Переглянути оригіналвідповісти на0
ser_ngmi
· 07-20 06:52
Не вертись, вже 400 тисяч, і цього ще недостатньо.
Прогрес у обробці довгих текстів великими моделями: конкуренція та виклики від 4000 до 400000 токенів
Постачальники великих моделей: за лаштунками довгих текстів
З розвитком технології великих моделей, здатність обробляти довгі тексти стала одним із важливих показників оцінки продуктивності моделі. Від початкових 4000 токенів до нинішніх 400 000 токенів, великі моделі досягли значного прогресу в обробці довгих текстів.
Наразі кілька провідних компаній з великими мовними моделями та дослідницькі інститути розглядають розширення довжини контексту як пріоритет оновлення. Наприклад, OpenAI неодноразово оновлювала GPT-3.5 та GPT-4, збільшивши довжину контексту до 16 тисяч та 32 тисяч токенів відповідно. Anthropic навіть одноразово розширила довжину контексту до 100 тисяч токенів. Вітчизняний проєкт "Місячна темрява" запустив Kimi Chat, який підтримує введення тексту приблизно до 400 тисяч токенів.
Покращення здатності обробки довгих текстів означає не лише те, що модель може обробляти більше інформації, але й закладає основу для застосування в таких професійних сферах, як фінанси, право та наука. Ці сфери часто вимагають обробки великої кількості складних документів, маючи високі вимоги до підсумування, розуміння прочитаного та здатності відповідати на запитання.
Однак підтримка більшої довжини вхідного контексту не є рівнозначною всебічному підвищенню продуктивності моделі. Дослідження показують, що ефективне використання контенту контексту є ключовим. Наразі дослідження технологій довгих текстів триває, і 400 тисяч токенів можуть бути лише початком.
Основні причини розвитку технологій обробки довгих текстів можна звести до наступних пунктів:
Вирішення поточних труднощів впровадження застосунків, таких як проблеми пам'яті у віртуальних персонажах, глибокий аналіз змісту в професійних сферах тощо.
Надати підтримку майбутнім агентам та додаткам з нативним штучним інтелектом, які потребують історичної інформації для ухвалення рішень та підтримки узгодженого досвіду.
Зменшити проблеми ілюзій моделі та підвищити точність висновків, надаючи більше контекстуальної інформації.
Сприяти розвитку великих моделей у напрямках спеціалізації, індивідуалізації та поглиблення, прокладаючи шлях для впровадження в промисловість та появи супер-додатків.
Однак розвиток технологій довгих текстів також стикається з труднощами "неможливого трикутника": суперечністю між довжиною тексту, увагою і обчислювальною потужністю. Це в основному зумовлено тим, що обчислювальна складність механізму самостійної уваги в структурі Transformer зростає квадратним чином зі збільшенням довжини контексту.
Для вирішення цієї проблеми наразі існує три основні рішення:
Використовуйте зовнішні інструменти для обробки довгих текстів, такі як розділення довгих текстів на кілька коротких для обробки.
Оптимізуйте обчислення механізму самопривабливості, наприклад, технологія LongLoRA зменшує обчислювальне навантаження через групові обчислення.
Оптимізуйте модель, наприклад, LongLLaMA реалізує екстраполяцію для довших послідовностей через доопрацювання.
Хоча технології довгих текстів все ще стикаються з викликами, вони відкривають нові можливості для подальшого розвитку та впровадження великих моделей. У майбутньому постачальники великих моделей продовжать шукати оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю для досягнення більш потужних можливостей обробки довгих текстів.