A capacidade de texto longo torna-se um novo "padrão" para os fabricantes de grandes modelos
Os grandes modelos estão a melhorar a sua capacidade de processamento de texto a uma velocidade impressionante, passando dos iniciais 4000 tokens para os atuais 400000 tokens. A capacidade de processamento de textos longos parece ter-se tornado um novo padrão para medir a força dos fornecedores de grandes modelos.
Atualmente, as principais empresas e instituições de pesquisa de modelos de ponta, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. A série de modelos GPT da OpenAI passou por várias atualizações, aumentando o comprimento do contexto de 4 mil para 32 mil tokens. A Anthropic elevou o comprimento do contexto para 100 mil tokens. O Kimi Chat, lançado pela empresa nacional Yuè zhī àn miàn, suporta a entrada de 200 mil caracteres chineses, o que equivale a cerca de 400 mil tokens.
A melhoria na capacidade de texto longo significa que o modelo pode lidar com entradas de texto mais longas, aumentando a capacidade de compreensão de leitura. Desde inicialmente conseguir ler apenas um pequeno artigo, até agora poder processar um romance longo. Isso não apenas expande o escopo de aplicação do modelo, mas também possibilita a atualização inteligente em áreas profissionais como finanças, direito e pesquisa científica.
No entanto, o comprimento do texto não é necessariamente melhor quando é mais longo. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não se traduz diretamente em uma melhoria nos resultados. O mais importante é a utilização eficaz do conteúdo do contexto pelo modelo.
O fundador da Dark Side of the Moon, Yang Zhilin, acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros, e o número de etapas de execução refere-se ao comprimento do contexto. A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos e é uma das tecnologias-chave para a implementação na indústria.
Atualmente, a tecnologia de texto longo demonstra um grande potencial na extração de informações, geração de código e interpretação de papéis. No entanto, na aplicação prática, ainda existem alguns problemas, como a incapacidade de se conectar à internet para obter informações atualizadas e a impossibilidade de pausar e modificar o processo de geração.
A tecnologia de texto longo enfrenta a dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade computacional. Isso se deve principalmente ao fato de que a quantidade de cálculo do mecanismo de autoatenção na estrutura Transformer cresce em quadrado com o comprimento do contexto.
Para resolver esta situação, atualmente existem três soluções principais:
Usar ferramentas externas para ajudar no processamento de textos longos
Otimização do cálculo do mecanismo de autoatenção
Métodos gerais de otimização de modelos
Embora o dilema do "triângulo impossível" em textos longos não tenha solução por enquanto, isso também indica uma direção de exploração para os fabricantes de grandes modelos: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, a fim de processar informações suficientes enquanto se leva em conta as limitações do cálculo de atenção e do custo computacional.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
16 Curtidas
Recompensa
16
6
Compartilhar
Comentário
0/400
ChainDoctor
· 07-24 11:17
Dito de forma simples, ainda é uma questão de segmentação.
Ver originalResponder0
GigaBrainAnon
· 07-24 06:55
Ah, novamente na duração do volume.
Ver originalResponder0
quiet_lurker
· 07-24 06:52
Quem consegue suportar o custo elevado das GPUs?
Ver originalResponder0
Blockwatcher9000
· 07-24 06:51
Qual é a utilidade de um texto longo? Não se pode explicar em dez palavras?
Ver originalResponder0
ForkLibertarian
· 07-24 06:51
Só agora percebo que mais longo nem sempre é melhor.
O processamento de longos textos por modelos grandes tornou-se um novo padrão, coexistindo desafios e oportunidades.
A capacidade de texto longo torna-se um novo "padrão" para os fabricantes de grandes modelos
Os grandes modelos estão a melhorar a sua capacidade de processamento de texto a uma velocidade impressionante, passando dos iniciais 4000 tokens para os atuais 400000 tokens. A capacidade de processamento de textos longos parece ter-se tornado um novo padrão para medir a força dos fornecedores de grandes modelos.
Atualmente, as principais empresas e instituições de pesquisa de modelos de ponta, tanto nacionais quanto internacionais, estão focando na expansão do comprimento do contexto como uma direção de atualização prioritária. A série de modelos GPT da OpenAI passou por várias atualizações, aumentando o comprimento do contexto de 4 mil para 32 mil tokens. A Anthropic elevou o comprimento do contexto para 100 mil tokens. O Kimi Chat, lançado pela empresa nacional Yuè zhī àn miàn, suporta a entrada de 200 mil caracteres chineses, o que equivale a cerca de 400 mil tokens.
A melhoria na capacidade de texto longo significa que o modelo pode lidar com entradas de texto mais longas, aumentando a capacidade de compreensão de leitura. Desde inicialmente conseguir ler apenas um pequeno artigo, até agora poder processar um romance longo. Isso não apenas expande o escopo de aplicação do modelo, mas também possibilita a atualização inteligente em áreas profissionais como finanças, direito e pesquisa científica.
No entanto, o comprimento do texto não é necessariamente melhor quando é mais longo. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não se traduz diretamente em uma melhoria nos resultados. O mais importante é a utilização eficaz do conteúdo do contexto pelo modelo.
O fundador da Dark Side of the Moon, Yang Zhilin, acredita que o limite dos grandes modelos é determinado pela capacidade de um único passo e pelo número de etapas de execução, onde a capacidade de um único passo está relacionada à quantidade de parâmetros, e o número de etapas de execução refere-se ao comprimento do contexto. A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos e é uma das tecnologias-chave para a implementação na indústria.
Atualmente, a tecnologia de texto longo demonstra um grande potencial na extração de informações, geração de código e interpretação de papéis. No entanto, na aplicação prática, ainda existem alguns problemas, como a incapacidade de se conectar à internet para obter informações atualizadas e a impossibilidade de pausar e modificar o processo de geração.
A tecnologia de texto longo enfrenta a dilema do "triângulo impossível": é difícil equilibrar o comprimento do texto, a atenção e a capacidade computacional. Isso se deve principalmente ao fato de que a quantidade de cálculo do mecanismo de autoatenção na estrutura Transformer cresce em quadrado com o comprimento do contexto.
Para resolver esta situação, atualmente existem três soluções principais:
Embora o dilema do "triângulo impossível" em textos longos não tenha solução por enquanto, isso também indica uma direção de exploração para os fabricantes de grandes modelos: encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o custo computacional, a fim de processar informações suficientes enquanto se leva em conta as limitações do cálculo de atenção e do custo computacional.