Les grands modèles déclenchent une compétition sur la capacité de traitement de longs textes, l'augmentation de la longueur du contexte par 100 fois provoque une transformation dans l'industrie.
Les grands modèles évoluent vers une direction "plus longue"
La longueur du contexte des grands modèles augmente rapidement, passant de 4000 tokens à 400 000 tokens. La capacité de traitement de longs textes semble devenir la nouvelle norme pour les entreprises de grands modèles.
À l'étranger, OpenAI a amélioré la longueur de contexte de GPT-3.5 et GPT-4 à 16 000 et 32 000 tokens respectivement. Anthropic a quant à lui étendu la longueur de contexte à 100 000 tokens en une seule fois. LongLLaMA a même étendu la longueur de contexte à 256 000 tokens, voire plus.
En ce qui concerne le pays, il est rapporté qu'une start-up a lancé un produit d'assistant intelligent capable de prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. De plus, une équipe de recherche a développé une nouvelle technologie permettant d'étendre la longueur de texte du modèle 7B à 100 000 tokens.
Actuellement, de nombreuses entreprises de modèles de pointe et institutions de recherche tant nationales qu'internationales considèrent l'extension de la longueur de contexte comme une direction de mise à niveau clé. La plupart de ces entreprises sont très prisées par le marché des capitaux, avec des valorisations et des montants de financement à des niveaux élevés.
Les grandes entreprises de modèles s'attaquent à la technologie des longs textes, qu'est-ce que cela signifie d'augmenter la longueur du contexte par 100 fois ?
En surface, cela permet au modèle de traiter des textes plus longs et d'avoir une meilleure capacité de lecture. Passant d'une capacité à lire seulement un court article à celle de lire un roman entier.
D'un point de vue plus profond, la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses sont essentielles pour la montée en intelligence de ces domaines.
Cependant, tout comme avec la taille des paramètres, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des recherches montrent que le support par le modèle d'entrées contextuelles plus longues ne se traduit pas directement par une amélioration des performances. Ce qui est plus important, c'est comment le modèle utilise efficacement le contenu contextuel.
Actuellement, l'exploration de la longueur des textes, tant au niveau national qu'international, n'a pas encore atteint le "point critique". 400 000 tokens ne sont peut-être qu'un début, et les grandes entreprises continuent de dépasser cette limite.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
22 J'aime
Récompense
22
7
Partager
Commentaire
0/400
RugpullAlertOfficer
· 07-31 13:09
BTC finira toujours par tomber.
Voir l'originalRépondre0
rekt_but_resilient
· 07-31 03:38
La grande quantité a suffi.
Voir l'originalRépondre0
OnChain_Detective
· 07-29 12:24
Le long jeu d'échecs va commencer
Voir l'originalRépondre0
FloorPriceWatcher
· 07-28 18:05
L'accumulation numérique est la puissance de calcul
Les grands modèles déclenchent une compétition sur la capacité de traitement de longs textes, l'augmentation de la longueur du contexte par 100 fois provoque une transformation dans l'industrie.
Les grands modèles évoluent vers une direction "plus longue"
La longueur du contexte des grands modèles augmente rapidement, passant de 4000 tokens à 400 000 tokens. La capacité de traitement de longs textes semble devenir la nouvelle norme pour les entreprises de grands modèles.
À l'étranger, OpenAI a amélioré la longueur de contexte de GPT-3.5 et GPT-4 à 16 000 et 32 000 tokens respectivement. Anthropic a quant à lui étendu la longueur de contexte à 100 000 tokens en une seule fois. LongLLaMA a même étendu la longueur de contexte à 256 000 tokens, voire plus.
En ce qui concerne le pays, il est rapporté qu'une start-up a lancé un produit d'assistant intelligent capable de prendre en charge l'entrée de 200 000 caractères chinois, soit environ 400 000 tokens. De plus, une équipe de recherche a développé une nouvelle technologie permettant d'étendre la longueur de texte du modèle 7B à 100 000 tokens.
Actuellement, de nombreuses entreprises de modèles de pointe et institutions de recherche tant nationales qu'internationales considèrent l'extension de la longueur de contexte comme une direction de mise à niveau clé. La plupart de ces entreprises sont très prisées par le marché des capitaux, avec des valorisations et des montants de financement à des niveaux élevés.
Les grandes entreprises de modèles s'attaquent à la technologie des longs textes, qu'est-ce que cela signifie d'augmenter la longueur du contexte par 100 fois ?
En surface, cela permet au modèle de traiter des textes plus longs et d'avoir une meilleure capacité de lecture. Passant d'une capacité à lire seulement un court article à celle de lire un roman entier.
D'un point de vue plus profond, la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, la justice et la recherche scientifique. Les capacités de résumé de documents longs, de compréhension de lecture et de questions-réponses sont essentielles pour la montée en intelligence de ces domaines.
Cependant, tout comme avec la taille des paramètres, la longueur du texte n'est pas nécessairement meilleure lorsqu'elle est plus longue. Des recherches montrent que le support par le modèle d'entrées contextuelles plus longues ne se traduit pas directement par une amélioration des performances. Ce qui est plus important, c'est comment le modèle utilise efficacement le contenu contextuel.
Actuellement, l'exploration de la longueur des textes, tant au niveau national qu'international, n'a pas encore atteint le "point critique". 400 000 tokens ne sont peut-être qu'un début, et les grandes entreprises continuent de dépasser cette limite.