Le traitement de longs textes par de grands modèles devient une nouvelle norme : défis et opportunités coexistent.

robot
Création du résumé en cours

La capacité de long texte devient le nouveau "standard" pour les fournisseurs de grands modèles

Les grands modèles améliorent leur capacité de traitement de texte à une vitesse incroyable, passant des 4000 tokens initiaux à actuellement 400 000 tokens. La capacité de traitement de longs textes semble être devenue une nouvelle norme pour évaluer la puissance des fournisseurs de grands modèles.

Actuellement, les principales entreprises de modèles de grande taille et les institutions de recherche tant nationales qu'internationales considèrent l'extension de la longueur du contexte comme une direction de mise à niveau prioritaire. La série de modèles GPT d'OpenAI a été mise à jour plusieurs fois, augmentant la longueur du contexte de 4 000 à 32 000 tokens. Anthropic a même porté la longueur du contexte à 100 000 tokens. Le Kimi Chat, lancé par Yuezhiduanmian en Chine, prend en charge l'entrée de 200 000 caractères chinois, ce qui équivaut à environ 400 000 tokens.

L'amélioration de la capacité de traitement de texte long signifie que le modèle peut gérer des textes d'entrée plus longs, renforçant ainsi sa compréhension de lecture. Passant d'une capacité initiale de lire un court article à la possibilité de traiter un roman complet. Cela non seulement élargit les scénarios d'application du modèle, mais ouvre également la voie à une mise à niveau intelligente dans des domaines professionnels tels que la finance, le droit et la recherche.

Cependant, la longueur du texte n'est pas nécessairement un indicateur de qualité. Des études montrent que le soutien des modèles à une entrée contextuelle plus longue et l'amélioration des performances ne sont pas directement équivalents. Plus important encore est l'utilisation efficace du contenu contextuel par le modèle.

Yang Zhilin, le fondateur de la Face Cachée de la Lune, estime que la limite des grands modèles est déterminée par la capacité d'une seule étape et le nombre d'étapes d'exécution, où la capacité d'une seule étape est liée au nombre de paramètres, et le nombre d'étapes d'exécution est la longueur du contexte. La technologie des textes longs peut à la fois résoudre certains problèmes précoces des grands modèles et constitue l'une des technologies clés pour faire avancer l'industrialisation.

Actuellement, la technologie des longs textes montre un fort potentiel dans des domaines tels que l'extraction d'informations, la génération de code et le jeu de rôle. Cependant, dans les applications réelles, il existe encore quelques problèmes, tels que l'incapacité à se connecter à Internet pour obtenir les dernières informations et l'impossibilité de mettre en pause et de modifier le processus de génération.

Les longs textes techniques font face au dilemme du "triangle impossible" : il est difficile de concilier la longueur du texte, l'attention et la puissance de calcul. Cela provient principalement du fait que la quantité de calcul du mécanisme d'attention dans la structure Transformer augmente de manière quadratique avec la longueur du contexte.

Pour résoudre ce dilemme, il existe actuellement trois solutions principales :

  1. Utiliser des outils externes pour traiter des textes longs.
  2. Optimiser le calcul du mécanisme d'attention auto
  3. Méthodes générales d'optimisation des modèles

Bien que le dilemme du "triangle impossible" des longs textes soit temporairement sans solution, cela indique également une direction d'exploration pour les fabricants de modèles : trouver le meilleur compromis entre la longueur du texte, l'attention et la puissance de calcul, afin de traiter suffisamment d'informations tout en tenant compte des limites de calcul d'attention et de coût de calcul.

TOKEN-3.07%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
ChainDoctorvip
· 07-24 11:17
En d'autres termes, c'est toujours une question de décomposition.
Voir l'originalRépondre0
GigaBrainAnonvip
· 07-24 06:55
Ah, on est encore dans la longueur卷.
Voir l'originalRépondre0
quiet_lurkervip
· 07-24 06:52
Qui peut supporter la flambée des coûts des GPU ?
Voir l'originalRépondre0
Blockwatcher9000vip
· 07-24 06:51
À quoi sert un long texte si dix mots ne suffisent pas ?
Voir l'originalRépondre0
ForkLibertarianvip
· 07-24 06:51
Je viens de réaliser que plus longtemps ne signifie pas nécessairement mieux.
Voir l'originalRépondre0
AlwaysMissingTopsvip
· 07-24 06:46
La longueur et la brièveté sont le véritable problème, hein.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)