За кулисами длинных текстов от производителей больших моделей
С быстрым развитием технологий больших моделей способность обрабатывать длинные тексты стала одним из важных показателей производительности модели. С первоначальных 4000 токенов до сегодняшних 400000 токенов большие модели добились значительного прогресса в обработке длинных текстов.
В настоящее время несколько ведущих компаний по разработке больших моделей и исследовательских учреждений делают акцент на увеличение длины контекста. Например, OpenAI многократно обновляла GPT-3.5 и GPT-4, увеличив длину контекста до 16 000 и 32 000 токенов соответственно. Anthropic даже разом увеличила длину контекста до 100 000 токенов. Внутренний проект "Темная сторона Луны" представил Kimi Chat, который поддерживает ввод текста объемом около 400 000 токенов.
Улучшение способности обработки длинных текстов означает не только то, что модель может обрабатывать больше информации, но и закладывает основу для применения в таких профессиональных областях, как финансы, юриспруденция и научные исследования. Эти области часто требуют обработки большого объема сложных документов и предъявляют высокие требования к способностям к резюмированию, пониманию прочитанного и ответам на вопросы.
Тем не менее, поддержка более длинного входного контекста не равнозначна полному улучшению производительности модели. Исследования показывают, что ключевым моментом является эффективное использование модели контентом контекста. В настоящее время исследования технологий длинных текстов продолжаются, 400000 токенов могут быть лишь началом.
Основные причины развития технологий длинного текста следующие:
Решить текущие проблемы внедрения приложений, такие как проблемы памяти в сценах виртуальных персонажей, анализ глубокого контента в профессиональных областях и др.
Поддержка будущих приложений Agent и AI, которые требуют использования исторической информации для принятия решений и поддержания последовательного опыта.
Снижайте проблемы с галлюцинациями модели и повышайте точность вывода, предоставляя больше контекстной информации.
Продвигать развитие больших моделей в направлениях профессионализации, персонализации и углубления, прокладывая путь для внедрения в индустрию и появления супер приложений.
Однако развитие технологий длинных текстов также сталкивается с проблемой "невозможного треугольника": противоречием между длиной текста, вниманием и вычислительной мощностью. Это в основном связано с тем, что вычислительная сложность механизма самовнимания в структуре Transformer растет квадратично в зависимости от длины контекста.
Для решения этой проблемы в настоящее время существует три основных варианта:
Используйте внешние инструменты для обработки длинных текстов, например, разбивайте длинные тексты на несколько коротких для обработки.
Оптимизируйте вычисления механизма самовнимания, такие как технология LongLoRA, которая снижает объем вычислений за счет групповых расчетов.
Оптимизация модели, например LongLLaMA, достигается за счет дообучения для экстраполяции более длинных последовательностей.
Хотя технологии длинного текста все еще сталкиваются с проблемами, они открывают новые возможности для дальнейшего развития и применения больших моделей. В будущем производители больших моделей будут продолжать искать оптимальный баланс между длиной текста, вниманием и вычислительной мощностью для достижения более мощной обработки длинных текстов.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
16 Лайков
Награда
16
4
Поделиться
комментарий
0/400
OnlyOnMainnet
· 13ч назад
Сможешь справиться с такой длинной статьей...
Посмотреть ОригиналОтветить0
MissedTheBoat
· 07-20 07:14
Смотреть на это, как на сжигание денег! Только подумай о счетах за электричество, голова кругом!
Посмотреть ОригиналОтветить0
TheShibaWhisperer
· 07-20 07:13
Ломаем потолок~
Посмотреть ОригиналОтветить0
ser_ngmi
· 07-20 06:52
Не крути больше, уже 400 тысяч, и всё ещё недостаточно.
Прогресс в обработке длинных текстов с помощью больших моделей: конкуренция и вызовы от 4000 до 400000 токенов
За кулисами длинных текстов от производителей больших моделей
С быстрым развитием технологий больших моделей способность обрабатывать длинные тексты стала одним из важных показателей производительности модели. С первоначальных 4000 токенов до сегодняшних 400000 токенов большие модели добились значительного прогресса в обработке длинных текстов.
В настоящее время несколько ведущих компаний по разработке больших моделей и исследовательских учреждений делают акцент на увеличение длины контекста. Например, OpenAI многократно обновляла GPT-3.5 и GPT-4, увеличив длину контекста до 16 000 и 32 000 токенов соответственно. Anthropic даже разом увеличила длину контекста до 100 000 токенов. Внутренний проект "Темная сторона Луны" представил Kimi Chat, который поддерживает ввод текста объемом около 400 000 токенов.
Улучшение способности обработки длинных текстов означает не только то, что модель может обрабатывать больше информации, но и закладывает основу для применения в таких профессиональных областях, как финансы, юриспруденция и научные исследования. Эти области часто требуют обработки большого объема сложных документов и предъявляют высокие требования к способностям к резюмированию, пониманию прочитанного и ответам на вопросы.
Тем не менее, поддержка более длинного входного контекста не равнозначна полному улучшению производительности модели. Исследования показывают, что ключевым моментом является эффективное использование модели контентом контекста. В настоящее время исследования технологий длинных текстов продолжаются, 400000 токенов могут быть лишь началом.
Основные причины развития технологий длинного текста следующие:
Решить текущие проблемы внедрения приложений, такие как проблемы памяти в сценах виртуальных персонажей, анализ глубокого контента в профессиональных областях и др.
Поддержка будущих приложений Agent и AI, которые требуют использования исторической информации для принятия решений и поддержания последовательного опыта.
Снижайте проблемы с галлюцинациями модели и повышайте точность вывода, предоставляя больше контекстной информации.
Продвигать развитие больших моделей в направлениях профессионализации, персонализации и углубления, прокладывая путь для внедрения в индустрию и появления супер приложений.
Однако развитие технологий длинных текстов также сталкивается с проблемой "невозможного треугольника": противоречием между длиной текста, вниманием и вычислительной мощностью. Это в основном связано с тем, что вычислительная сложность механизма самовнимания в структуре Transformer растет квадратично в зависимости от длины контекста.
Для решения этой проблемы в настоящее время существует три основных варианта:
Используйте внешние инструменты для обработки длинных текстов, например, разбивайте длинные тексты на несколько коротких для обработки.
Оптимизируйте вычисления механизма самовнимания, такие как технология LongLoRA, которая снижает объем вычислений за счет групповых расчетов.
Оптимизация модели, например LongLLaMA, достигается за счет дообучения для экстраполяции более длинных последовательностей.
Хотя технологии длинного текста все еще сталкиваются с проблемами, они открывают новые возможности для дальнейшего развития и применения больших моделей. В будущем производители больших моделей будут продолжать искать оптимальный баланс между длиной текста, вниманием и вычислительной мощностью для достижения более мощной обработки длинных текстов.