O processamento de longos textos por modelos grandes tornou-se um novo padrão, coexistindo desafios e oportunidades.

2025-07-24 06:26:55

Geração de resumo em curso

A capacidade de texto longo torna-se um novo "padrão" para os fabricantes de grandes modelos

Os grandes modelos estão a melhorar a sua capacidade de processamento de texto a uma velocidade impressionante, passando dos iniciais 4000 tokens para os atuais 400000 tokens. A capacidade de processamento de textos longos parece ter-se tornado um novo padrão para medir a força dos fornecedores de grandes modelos.

Atualmente, as principais empresas e instituições de pesquisa de modelos de ponta, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. A série de modelos GPT da OpenAI passou por várias atualizações, aumentando o comprimento do contexto de 4 mil para 32 mil tokens. A Anthropic elevou o comprimento do contexto para 100 mil tokens. O Kimi Chat, lançado pela empresa nacional Yuè zhī àn miàn, suporta a entrada de 200 mil caracteres chineses, o que equivale a cerca de 400 mil tokens.

A melhoria na capacidade de texto longo significa que o modelo pode lidar com entradas de texto mais longas, aumentando a capacidade de compreensão de leitura. Desde inicialmente conseguir ler apenas um pequeno artigo, até agora poder processar um romance longo. Isso não apenas expande o escopo de aplicação do modelo, mas também possibilita a atualização inteligente em áreas profissionais como finanças, direito e pesquisa científica.

No entanto, o comprimento do texto não é necessariamente melhor quando é mais longo. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não se traduz diretamente em uma melhoria nos resultados. O mais importante é a utilização eficaz do conteúdo do contexto pelo modelo.

O fundador da Dark Side of the Moon, Yang Zhilin, acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros, e o número de etapas de execução refere-se ao comprimento do contexto. A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos e é uma das tecnologias-chave para a implementação na indústria.

Atualmente, a tecnologia de texto longo demonstra um grande potencial na extração de informações, geração de código e interpretação de papéis. No entanto, na aplicação prática, ainda existem alguns problemas, como a incapacidade de se conectar à internet para obter informações atualizadas e a impossibilidade de pausar e modificar o processo de geração.

A tecnologia de texto longo enfrenta a dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade computacional. Isso se deve principalmente ao fato de que a quantidade de cálculo do mecanismo de autoatenção na estrutura Transformer cresce em quadrado com o comprimento do contexto.

Para resolver esta situação, atualmente existem três soluções principais:

Usar ferramentas externas para ajudar no processamento de textos longos
Otimização do cálculo do mecanismo de autoatenção
Métodos gerais de otimização de modelos

Embora o dilema do "triângulo impossível" em textos longos não tenha solução por enquanto, isso também indica uma direção de exploração para os fabricantes de grandes modelos: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, a fim de processar informações suficientes enquanto se leva em conta as limitações do cálculo de atenção e do custo computacional.

TOKEN-3.07%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

16 gostos

Recompensa
16
6
Partilhar

Comentar

0/400

ChainDoctor

· 07-24 11:17

Dito de forma simples, ainda é uma questão de segmentação.

Ver originalResponder0

GigaBrainAnon

· 07-24 06:55

Ah, novamente na duração do volume.

Ver originalResponder0

quiet_lurker

· 07-24 06:52

Quem consegue suportar o custo elevado das GPUs?

Ver originalResponder0

Blockwatcher9000

· 07-24 06:51

Qual é a utilidade de um texto longo? Não se pode explicar em dez palavras?

Ver originalResponder0

ForkLibertarian

· 07-24 06:51

Só agora percebo que mais longo nem sempre é melhor.

Ver originalResponder0

AlwaysMissingTops

· 07-24 06:46

O verdadeiro problema é o comprimento.

Ver originalResponder0

Tópico
1/3
1Simple Earn Annual Rate 24.4%
9k Popularidade
2Gate Launchpad List IKA
20k Popularidade
3ETH Trading Volume Surges
16k Popularidade
4Gate ETH 10th Anniversary Celebration
23k Popularidade
5Trump’s AI Strategy
20k Popularidade

Pino