Les fabricants de grands modèles face aux longs textes
Avec le développement rapide de la technologie des grands modèles, la capacité à traiter de longs textes est devenue un indicateur important de la performance des modèles. Depuis les 4000 tokens initiaux jusqu'aux 400 000 tokens d'aujourd'hui, les grands modèles ont fait des progrès significatifs dans le traitement des longs textes.
Actuellement, plusieurs entreprises et institutions de recherche de premier plan dans le domaine des grands modèles considèrent l'extension de la longueur de contexte comme un axe de mise à niveau. Par exemple, OpenAI a augmenté la longueur de contexte de GPT-3.5 et GPT-4 à 16 000 et 32 000 tokens respectivement grâce à plusieurs mises à jour. Anthropic a même étendu la longueur de contexte à 100 000 tokens en une seule fois. Le Kimi Chat lancé par Moon's Dark Side en Chine prend en charge l'entrée d'environ 400 000 tokens de texte.
L'amélioration de la capacité de traitement de texte long signifie non seulement que le modèle peut traiter plus d'informations, mais qu'elle jette également les bases de son application dans des domaines professionnels tels que la finance, le droit et la recherche scientifique. Ces domaines nécessitent souvent le traitement d'un grand nombre de documents complexes, avec des exigences élevées en matière de résumé, de compréhension de lecture et de capacités de questions-réponses.
Cependant, le soutien à une entrée de contexte plus longue ne signifie pas nécessairement une amélioration globale des performances du modèle. Les recherches montrent que l'utilisation efficace du contenu contextuel par le modèle est la clé. Actuellement, l'exploration des techniques de texte long est toujours en cours, 400 000 tokens ne sont peut-être qu'un début.
Les raisons pour lesquelles le développement de la technologie des longs textes est principalement dû aux points suivants :
Résoudre les difficultés d'application actuelles, telles que les problèmes de mémoire dans les scénarios de personnages virtuels, l'analyse approfondie du contenu dans des domaines spécialisés, etc.
Fournir un soutien aux applications Agent et AI natives pour l'avenir, qui ont besoin de s'appuyer sur des informations historiques pour prendre des décisions et maintenir une expérience cohérente.
Réduire les problèmes d'illusion du modèle et améliorer la précision du raisonnement en fournissant plus d'informations contextuelles.
Promouvoir le développement des grands modèles vers des directions spécialisées, personnalisées et approfondies, en ouvrant la voie à l'implantation industrielle et à l'émergence de super applications.
Cependant, le développement des technologies de traitement de longs textes fait également face au dilemme du "triangle impossible" : la contradiction entre la longueur du texte, l'attention et la puissance de calcul. Cela provient principalement de la complexité de calcul du mécanisme d'attention dans la structure Transformer, qui croît de manière quadratique avec la longueur du contexte.
Pour résoudre ce problème, il existe actuellement trois solutions principales :
Utiliser des outils externes pour aider à traiter de longs textes, comme diviser un long texte en plusieurs courts textes à traiter.
Optimiser le calcul des mécanismes d'attention par soi-même, comme la technologie LongLoRA qui réduit le volume de calcul par calcul en groupe.
Optimiser le modèle, comme LongLLaMA qui permet l'extrapolation sur des séquences plus longues grâce à un ajustement.
Bien que la technologie des longs textes continue de rencontrer des défis, elle offre de nouvelles possibilités pour le développement et l'application des grands modèles. À l'avenir, les fabricants de grands modèles continueront à rechercher un équilibre optimal entre la longueur du texte, l'attention et la puissance de calcul, afin d'atteindre des capacités de traitement des longs textes plus puissantes.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
22 J'aime
Récompense
22
5
Partager
Commentaire
0/400
SandwichTrader
· Il y a 5h
Je lis jusqu'à ce que mes yeux soient flous.
Voir l'originalRépondre0
OnlyOnMainnet
· 07-21 19:31
Peux-tu gérer un article si long...
Voir l'originalRépondre0
MissedTheBoat
· 07-20 07:14
Ça fait envie et ça coûte cher ! Rien que d'y penser, je suis déjà en train de me faire du souci pour la facture d'électricité.
Voir l'originalRépondre0
TheShibaWhisperer
· 07-20 07:13
On a cassé le plafond ~
Voir l'originalRépondre0
ser_ngmi
· 07-20 06:52
Ne vous précipitez pas, c'est déjà 400 000 et ce n'est pas suffisant.
Progrès dans la capacité de traitement de longs textes des grands modèles : concurrence et défis de 4000 à 400 000 tokens.
Les fabricants de grands modèles face aux longs textes
Avec le développement rapide de la technologie des grands modèles, la capacité à traiter de longs textes est devenue un indicateur important de la performance des modèles. Depuis les 4000 tokens initiaux jusqu'aux 400 000 tokens d'aujourd'hui, les grands modèles ont fait des progrès significatifs dans le traitement des longs textes.
Actuellement, plusieurs entreprises et institutions de recherche de premier plan dans le domaine des grands modèles considèrent l'extension de la longueur de contexte comme un axe de mise à niveau. Par exemple, OpenAI a augmenté la longueur de contexte de GPT-3.5 et GPT-4 à 16 000 et 32 000 tokens respectivement grâce à plusieurs mises à jour. Anthropic a même étendu la longueur de contexte à 100 000 tokens en une seule fois. Le Kimi Chat lancé par Moon's Dark Side en Chine prend en charge l'entrée d'environ 400 000 tokens de texte.
L'amélioration de la capacité de traitement de texte long signifie non seulement que le modèle peut traiter plus d'informations, mais qu'elle jette également les bases de son application dans des domaines professionnels tels que la finance, le droit et la recherche scientifique. Ces domaines nécessitent souvent le traitement d'un grand nombre de documents complexes, avec des exigences élevées en matière de résumé, de compréhension de lecture et de capacités de questions-réponses.
Cependant, le soutien à une entrée de contexte plus longue ne signifie pas nécessairement une amélioration globale des performances du modèle. Les recherches montrent que l'utilisation efficace du contenu contextuel par le modèle est la clé. Actuellement, l'exploration des techniques de texte long est toujours en cours, 400 000 tokens ne sont peut-être qu'un début.
Les raisons pour lesquelles le développement de la technologie des longs textes est principalement dû aux points suivants :
Résoudre les difficultés d'application actuelles, telles que les problèmes de mémoire dans les scénarios de personnages virtuels, l'analyse approfondie du contenu dans des domaines spécialisés, etc.
Fournir un soutien aux applications Agent et AI natives pour l'avenir, qui ont besoin de s'appuyer sur des informations historiques pour prendre des décisions et maintenir une expérience cohérente.
Réduire les problèmes d'illusion du modèle et améliorer la précision du raisonnement en fournissant plus d'informations contextuelles.
Promouvoir le développement des grands modèles vers des directions spécialisées, personnalisées et approfondies, en ouvrant la voie à l'implantation industrielle et à l'émergence de super applications.
Cependant, le développement des technologies de traitement de longs textes fait également face au dilemme du "triangle impossible" : la contradiction entre la longueur du texte, l'attention et la puissance de calcul. Cela provient principalement de la complexité de calcul du mécanisme d'attention dans la structure Transformer, qui croît de manière quadratique avec la longueur du contexte.
Pour résoudre ce problème, il existe actuellement trois solutions principales :
Utiliser des outils externes pour aider à traiter de longs textes, comme diviser un long texte en plusieurs courts textes à traiter.
Optimiser le calcul des mécanismes d'attention par soi-même, comme la technologie LongLoRA qui réduit le volume de calcul par calcul en groupe.
Optimiser le modèle, comme LongLLaMA qui permet l'extrapolation sur des séquences plus longues grâce à un ajustement.
Bien que la technologie des longs textes continue de rencontrer des défis, elle offre de nouvelles possibilités pour le développement et l'application des grands modèles. À l'avenir, les fabricants de grands modèles continueront à rechercher un équilibre optimal entre la longueur du texte, l'attention et la puissance de calcul, afin d'atteindre des capacités de traitement des longs textes plus puissantes.