Обработка длинных текстов с помощью крупных моделей становится новой нормой: вызовы и возможности сосуществуют.

robot
Генерация тезисов в процессе

Возможности работы с длинными текстами становятся новым "стандартом" для производителей крупных моделей

Большие модели значительно увеличили свои способности обработки текста с первоначальных 4000 токенов до нынешних 400000 токенов. Способность обрабатывать длинные тексты, похоже, стала новым стандартом для оценки силы производителей больших моделей.

В настоящее время ведущие компании и исследовательские учреждения в области крупных моделей как в стране, так и за рубежом делают акцент на расширении длины контекста как направлении основных обновлений. Модели GPT от OpenAI многократно обновлялись, и длина контекста увеличилась с 4 тысяч до 32 тысяч токенов. Anthropic даже увеличила длину контекста до 100 тысяч токенов. Внутри страны компания "Лунная сторона" представила Kimi Chat, который поддерживает ввод 200 тысяч иероглифов, что эквивалентно примерно 400 тысячам токенов.

Повышение способности работы с длинными текстами означает, что модель может обрабатывать более длинные входные тексты, что улучшает понимание прочитанного. Сначала она могла читать только короткие статьи, а теперь может обрабатывать целый роман. Это не только расширяет области применения модели, но и предоставляет возможности для интеллектуального обновления в таких профессиональных областях, как финансы, право и научные исследования.

Однако длина текста не всегда является определяющим фактором. Исследования показывают, что увеличение длины входного контекста модели не всегда приводит к улучшению результатов. Более важно эффективно использовать содержание контекста.

Основатель "Темной стороны Луны" Ян Чжилин считает, что пределы больших моделей определяются как способностями на одном шаге, так и количеством выполняемых шагов, при этом способности на одном шаге связаны с количеством параметров, а количество выполняемых шагов — это длина контекста. Технологии длинного текста могут не только решить некоторые ранние проблемы больших моделей, но и являются одной из ключевых технологий для продвижения индустрии.

В настоящее время технологии длинных текстов демонстрируют огромный потенциал в таких областях, как извлечение информации, генерация кода и ролевые игры. Однако в практическом применении все еще существуют некоторые проблемы, такие как невозможность подключения к интернету для получения актуальной информации и невозможность приостановить процесс генерации для внесения изменений.

Долгосрочные технологии текста сталкиваются с дилеммой "невозможного треугольника": трудно учитывать три аспекта: длину текста, внимание и вычислительную мощность. Это в основном связано с тем, что объем вычислений механизма самовнимания в структуре Transformer растет в квадрате по мере увеличения длины контекста.

Для решения этой проблемы в настоящее время существует три основных варианта:

  1. Используйте внешние инструменты для обработки длинных текстов
  2. Оптимизация вычислений механизма самовнимания
  3. Общие методы оптимизации моделей

Хотя "недостижимый треугольник" длинного текста временно не имеет решения, это также указывает производителям крупных моделей направление для исследований: найти оптимальный баланс между длиной текста, вниманием и вычислительной мощностью, чтобы обрабатывать достаточное количество информации, одновременно учитывая ограничения вычислительных затрат и внимания.

TOKEN-3.07%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Поделиться
комментарий
0/400
ChainDoctorvip
· 07-24 11:17
Говоря проще, это все же вопрос сегментации.
Посмотреть ОригиналОтветить0
GigaBrainAnonvip
· 07-24 06:55
А, опять про длину卷.
Посмотреть ОригиналОтветить0
quiet_lurkervip
· 07-24 06:52
Кто сможет справиться с затратами на GPU?
Посмотреть ОригиналОтветить0
Blockwatcher9000vip
· 07-24 06:51
Какова польза длинного текста? Нельзя объяснить за десять слов?
Посмотреть ОригиналОтветить0
ForkLibertarianvip
· 07-24 06:51
Теперь я знаю, что не всегда длинное значит лучше.
Посмотреть ОригиналОтветить0
AlwaysMissingTopsvip
· 07-24 06:46
Длина и краткость - вот в чем настоящая проблема, ха.
Посмотреть ОригиналОтветить0
  • Закрепить