O processamento de longos textos por modelos grandes tornou-se um novo padrão, coexistindo desafios e oportunidades.

robot
Geração de resumo em curso

A capacidade de texto longo torna-se um novo "padrão" para os fabricantes de grandes modelos

Os grandes modelos estão a melhorar a sua capacidade de processamento de texto a uma velocidade impressionante, passando dos iniciais 4000 tokens para os atuais 400000 tokens. A capacidade de processamento de textos longos parece ter-se tornado um novo padrão para medir a força dos fornecedores de grandes modelos.

Atualmente, as principais empresas e instituições de pesquisa de modelos de ponta, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. A série de modelos GPT da OpenAI passou por várias atualizações, aumentando o comprimento do contexto de 4 mil para 32 mil tokens. A Anthropic elevou o comprimento do contexto para 100 mil tokens. O Kimi Chat, lançado pela empresa nacional Yuè zhī àn miàn, suporta a entrada de 200 mil caracteres chineses, o que equivale a cerca de 400 mil tokens.

A melhoria na capacidade de texto longo significa que o modelo pode lidar com entradas de texto mais longas, aumentando a capacidade de compreensão de leitura. Desde inicialmente conseguir ler apenas um pequeno artigo, até agora poder processar um romance longo. Isso não apenas expande o escopo de aplicação do modelo, mas também possibilita a atualização inteligente em áreas profissionais como finanças, direito e pesquisa científica.

No entanto, o comprimento do texto não é necessariamente melhor quando é mais longo. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não se traduz diretamente em uma melhoria nos resultados. O mais importante é a utilização eficaz do conteúdo do contexto pelo modelo.

O fundador da Dark Side of the Moon, Yang Zhilin, acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros, e o número de etapas de execução refere-se ao comprimento do contexto. A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos e é uma das tecnologias-chave para a implementação na indústria.

Atualmente, a tecnologia de texto longo demonstra um grande potencial na extração de informações, geração de código e interpretação de papéis. No entanto, na aplicação prática, ainda existem alguns problemas, como a incapacidade de se conectar à internet para obter informações atualizadas e a impossibilidade de pausar e modificar o processo de geração.

A tecnologia de texto longo enfrenta a dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade computacional. Isso se deve principalmente ao fato de que a quantidade de cálculo do mecanismo de autoatenção na estrutura Transformer cresce em quadrado com o comprimento do contexto.

Para resolver esta situação, atualmente existem três soluções principais:

  1. Usar ferramentas externas para ajudar no processamento de textos longos
  2. Otimização do cálculo do mecanismo de autoatenção
  3. Métodos gerais de otimização de modelos

Embora o dilema do "triângulo impossível" em textos longos não tenha solução por enquanto, isso também indica uma direção de exploração para os fabricantes de grandes modelos: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, a fim de processar informações suficientes enquanto se leva em conta as limitações do cálculo de atenção e do custo computacional.

TOKEN-3.07%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 6
  • Partilhar
Comentar
0/400
ChainDoctorvip
· 07-24 11:17
Dito de forma simples, ainda é uma questão de segmentação.
Ver originalResponder0
GigaBrainAnonvip
· 07-24 06:55
Ah, novamente na duração do volume.
Ver originalResponder0
quiet_lurkervip
· 07-24 06:52
Quem consegue suportar o custo elevado das GPUs?
Ver originalResponder0
Blockwatcher9000vip
· 07-24 06:51
Qual é a utilidade de um texto longo? Não se pode explicar em dez palavras?
Ver originalResponder0
ForkLibertarianvip
· 07-24 06:51
Só agora percebo que mais longo nem sempre é melhor.
Ver originalResponder0
AlwaysMissingTopsvip
· 07-24 06:46
O verdadeiro problema é o comprimento.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)