AI Battle des Cent Modèles : des Problèmes Académiques aux Compétitions d'Ingénierie

La guerre des cent modèles dans l'industrie de l'IA : des problèmes académiques aux problèmes d'ingénierie

Le mois dernier, l'industrie de l'IA a connu un affrontement sur le thème des animaux.

D'un côté, il y a Llama lancé par Meta, qui est très apprécié par la communauté des développeurs en raison de sa nature open source. La société japonaise (NEC), après avoir étudié le document et le code source de Llama, a rapidement développé une version japonaise de ChatGPT, résolvant ainsi le goulet d'étranglement du développement de l'IA au Japon.

L'autre partie est un grand modèle appelé Falcon. En mai de cette année, Falcon-40B a été lancé, surpassant Llama et se hissant au sommet du "classement des LLM open source". Ce classement est établi par la communauté des modèles open source et fournit des normes pour évaluer les capacités des LLM. Le classement est essentiellement dominé alternativement par Llama et Falcon.

Après la sortie de Llama 2, la famille Llama est temporairement en tête ; mais début septembre, Falcon a lancé la version 180B, obtenant à nouveau un meilleur classement.

Il est intéressant de noter que les développeurs de Falcon proviennent de l'Institut de recherche sur l'innovation technologique d'Abou Dhabi, la capitale des Émirats arabes unis. Les officiels des Émirats ont déclaré qu'ils s'engagent dans ce domaine pour rompre avec le statu quo.

Le lendemain de la publication de la version 180B, le ministre de l'Intelligence Artificielle des Émirats a été sélectionné parmi les "100 personnes les plus influentes dans le domaine de l'IA" par le magazine Time ; parmi les autres sélectionnés figurent le "parrain de l'IA" Geoffrey Hinton et Sam Altman d'OpenAI.

Aujourd'hui, le domaine de l'IA est entré dans une phase de floraison : presque tous les pays et entreprises disposant de ressources financières avancent des projets pour leur propre version de ChatGPT. Dans la région du Golfe, il n'y a pas qu'un seul participant - en août, l'Arabie Saoudite a récemment acheté plus de 3000 puces H100 pour les universités nationales, afin de former des LLM.

Un investisseur a déjà exprimé son mécontentement en disant : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrières ; je ne m'attendais pas à ce que l'entrepreneuriat dans le domaine des grandes technologies soit toujours une compétition entre de nombreuses entreprises..."

Pourquoi une technologie difficile devait-elle devenir une compétition à laquelle tout le monde peut participer ?

Transformer : Un tournant clé dans le développement de l'IA

Les startups américaines, les géants technologiques chinois et les magnats du pétrole du Moyen-Orient qui peuvent poursuivre le rêve des grands modèles doivent tout cela à cet article célèbre : « Attention Is All You Need ».

En 2017, huit informaticiens de Google ont publié l'algorithme Transformer dans cet article. Cet article est actuellement le troisième le plus cité de l'histoire de l'IA, et l'apparition du Transformer a déclenché cette vague actuelle d'IA.

Les différents grands modèles actuels, y compris la série GPT qui a fait sensation dans le monde entier, sont tous basés sur le Transformer.

Avant cela, faire comprendre le texte aux machines a toujours été un défi pour le milieu académique. Contrairement à la reconnaissance d'images, la lecture humaine ne se concentre pas seulement sur les mots et phrases actuels, mais intègre également le contexte pour comprendre. Les premiers réseaux de neurones avaient des entrées indépendantes, ce qui rendait difficile la compréhension de longs textes voire d'articles entiers.

En 2014, le scientifique d'Alphabet Ilia a réalisé une percée. Il a utilisé le réseau de neurones circulaires (RNN) pour traiter le langage naturel, ce qui a considérablement amélioré les performances de Google Traduction. Le RNN introduit un "design circulaire", permettant aux neurones de recevoir à la fois l'entrée actuelle et l'entrée du moment précédent, acquérant ainsi la capacité de "prendre en compte le contexte".

L'apparition des RNN a suscité un grand intérêt de recherche dans le milieu académique. Cependant, les développeurs ont rapidement découvert que les RNN présentent des défauts sérieux : cet algorithme utilise un calcul séquentiel, bien qu'il résolve le problème du contexte, il a une faible efficacité d'exécution et peine à traiter un grand nombre de paramètres.

Depuis 2015, des chercheurs comme Vaswani et al. ont commencé à développer des alternatives aux RNN, dont le résultat final est le Transformer. Par rapport aux RNN, le Transformer présente deux grandes innovations : d'une part, il remplace la conception récurrente par un codage de position, permettant un calcul parallèle et améliorant considérablement l'efficacité de l'entraînement ; d'autre part, il renforce encore la capacité à comprendre le contexte.

Le Transformer a résolu plusieurs problèmes techniques d'un coup, devenant progressivement la solution dominante en traitement du langage naturel. Il a transformé les grands modèles d'une recherche théorique en un problème purement d'ingénierie.

En 2019, OpenAI a développé GPT-2 basé sur Transformer, choquant le monde académique. Google a immédiatement lancé une IA plus performante - Meena. Meena n'apporte pas d'innovation algorithmique par rapport à GPT-2, mais augmente simplement les paramètres d'entraînement et la puissance de calcul. Cette méthode de "piling brut" a profondément impressionné le créateur du Transformer, Ashish Vaswani.

L'avènement des Transformers a ralenti la vitesse d'innovation des algorithmes de base dans le milieu académique. Des éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul et l'architecture des modèles sont progressivement devenus clés dans les compétitions en IA. Toute entreprise ayant une certaine capacité technique peut développer de grands modèles.

Le scientifique en informatique Andrew Ng a déclaré lors d'une conférence à l'université de Stanford : "L'IA est un ensemble d'outils, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement et maintenant l'IA générative. Ce sont toutes des technologies générales, similaires à l'électricité et à Internet."

Bien qu'OpenAI reste le leader des LLM, les analystes en semi-conducteurs estiment que l'avantage de GPT-4 provient principalement de solutions d'ingénierie - si cela devient open source, tout concurrent pourrait le reproduire rapidement. Cet analyste prévoit que d'autres grandes entreprises technologiques pourraient bientôt être en mesure de créer de grands modèles ayant des performances équivalentes à celles de GPT-4.

La vulnérabilité des douves

Aujourd'hui, la "bataille des cent modèles" n'est plus une exagération, mais une réalité objective.

Le rapport indique qu'à la fin de juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant celui des États-Unis qui en compte 114. En dehors de la Chine et des États-Unis, d'autres pays riches ont également lancé des grands modèles locaux, comme Bhashini soutenu par le gouvernement indien et HyperClova X développé par la société Internet sud-coréenne Naver.

Cette scène semble ramener à l'époque des débuts d'Internet, une ère de compétition intense entre le capital et la technologie.

Comme mentionné précédemment, le Transformer a transformé les grands modèles en un simple problème d'ingénierie. Tant qu'il y a des talents, des fonds et du matériel, il est possible de réaliser des modèles en empilant des paramètres. Cependant, la baisse du seuil d'entrée ne signifie pas que tout le monde peut devenir un géant à l'ère de l'IA.

Prenons l'exemple de "Animal Battle" mentionné au début de l'article : bien que Falcon ait dépassé Llama dans certains classements, son impact réel sur le Meta est limité.

Comme tout le monde le sait, les entreprises open-source leurs résultats de recherche afin de partager les avancées technologiques, tout en espérant tirer parti de l'intelligence collective. Avec l'utilisation et l'amélioration continues de Llama par le monde académique et industriel, Meta peut appliquer ces résultats à ses propres produits.

Pour les grands modèles open source, une communauté de développeurs active est la véritable force concurrentielle. Meta a établi une stratégie open source dès la création de son laboratoire d'IA en 2015 ; Zuckerberg, ayant fait ses débuts dans les médias sociaux, comprend bien l'art de "maintenir des relations avec les utilisateurs".

Par exemple, en octobre de cette année, Meta a organisé un événement intitulé "Incitation des créateurs d'IA" : les développeurs utilisant Llama 2 pour résoudre des problèmes sociaux tels que l'éducation et l'environnement ont la possibilité de recevoir un financement de 500 000 dollars.

Aujourd'hui, la série Llama de Meta est devenue la référence des LLM open source. À début octobre, parmi les 10 premiers du classement des LLM open source, 8 sont développés sur la base de Llama 2, utilisant son protocole open source. Rien que sur cette plateforme, il y a plus de 1500 LLM utilisant le protocole open source Llama 2.

Bien sûr, améliorer les performances comme Falcon est aussi une stratégie, mais la plupart des LLM ont encore un écart évident avec GPT-4.

Par exemple, récemment, GPT-4 a obtenu un score de 4,41 et s'est classé premier au test AgentBench. AgentBench a été lancé par plusieurs universités renommées pour évaluer la capacité de raisonnement et de prise de décision des LLM dans des environnements ouverts multidimensionnels. Les résultats du test montrent que le deuxième, Claude, n'a obtenu que 2,77 points, un écart significatif. D'autres LLM open source connus ont généralement des scores autour de 1 point, soit moins d'un quart de celui de GPT-4.

Il est à noter que GPT-4 a été lancé en mars de cette année, ce qui représente encore un résultat plus de six mois après que ses homologues mondiaux aient commencé à rattraper leur retard. OpenAI peut maintenir sa position de leader grâce à son équipe de recherche hautement qualifiée et à son expérience accumulée au fil des ans.

En d'autres termes, l'avantage clé des grands modèles n'est pas la taille des paramètres, mais la construction de l'écosystème (approche open source) ou la capacité d'inférence pure (approche closed source).

Avec l'essor de la communauté open source, les performances des LLM pourraient devenir homogènes, car tout le monde utilise des architectures de modèles et des ensembles de données similaires.

Une autre question plus intuitive est la suivante : à part Midjourney, il semble qu'aucun autre grand modèle ne soit capable de générer des bénéfices.

Les défis de l'ancrage de valeur

En août de cette année, un article intitulé "OpenAI pourrait faire faillite d'ici la fin de 2024" a suscité l'attention. Le sujet principal de l'article peut être résumé comme suit : OpenAI brûle trop d'argent trop rapidement.

Il est mentionné dans le texte qu depuis le développement de ChatGPT, les pertes d'OpenAI se sont rapidement accrues, atteignant environ 540 millions de dollars en 2022, ne pouvant compter que sur les investissements de Microsoft pour maintenir ses opérations.

Bien que le titre soit quelque peu sensationnel, il reflète en effet la situation générale des fournisseurs de grands modèles : un déséquilibre sévère entre les coûts et les revenus.

Des coûts trop élevés font que seuls des fabricants de puces comme Nvidia bénéficient actuellement de l'engouement pour l'IA.

Selon le cabinet de conseil Omdia, Nvidia a vendu plus de 300 000 unités de puces H100 au deuxième trimestre de cette année. Il s'agit d'une puce AI efficace, que les entreprises technologiques et les instituts de recherche du monde entier s'arrachent. Si on empilait ces 300 000 H100, le poids serait équivalent à celui de 4,5 avions Boeing 747.

Les performances d'NVIDIA ont donc explosé, avec une augmentation des revenus de 854 % par rapport à l'année précédente, choquant Wall Street. Actuellement, le prix du H100 sur le marché de l'occasion a été gonflé à 40 000-50 000 dollars, alors que son coût matériel n'est que d'environ 3000 dollars.

Le coût élevé de la puissance de calcul entrave dans une certaine mesure le développement de l'industrie. Sequoia Capital a estimé que les entreprises technologiques du monde entier devraient investir 200 milliards de dollars par an dans l'infrastructure des grands modèles ; en revanche, les grands modèles ne peuvent générer au maximum que 75 milliards de dollars de revenus par an, ce qui crée un écart d'au moins 125 milliards de dollars.

De plus, à l'exception de quelques rares cas comme Midjourney, la plupart des entreprises de logiciels n'ont toujours pas trouvé de modèle économique clair après avoir investi des coûts énormes. Même les leaders du secteur, Microsoft et Adobe, rencontrent des défis dans leurs activités liées à l'IA.

L'outil de génération de code AI GitHub Copilot, développé en collaboration entre Microsoft et OpenAI, facture 10 dollars par mois, mais en raison des coûts d'infrastructure, Microsoft subit en fait une perte de 20 dollars par mois. Les utilisateurs intensifs pourraient même entraîner une perte de 80 dollars par mois pour Microsoft. En conséquence, on peut supposer que le Microsoft 365 Copilot, dont le prix est de 30 dollars, pourrait engendrer des pertes encore plus importantes.

De même, Adobe, qui vient de lancer l'outil Firefly AI, a rapidement introduit un système de points pour empêcher les utilisateurs d'en abuser et de causer des pertes à l'entreprise. Une fois que les utilisateurs dépassent le quota de points alloué chaque mois, Adobe réduira la vitesse du service.

Il est important de noter que Microsoft et Adobe ont déjà des scénarios commerciaux clairs et un grand nombre d'utilisateurs payants. En revanche, la plupart des grands modèles avec de nombreux paramètres ont pour principal scénario d'application la conversation.

Il est indéniable que sans l'émergence d'OpenAI et de ChatGPT, cette révolution de l'IA n'aurait peut-être pas eu lieu. Cependant, à ce stade, la valeur créée par l'entraînement de grands modèles reste discutable.

Avec l'intensification de la concurrence homogène et l'émergence continue de modèles open source, les fournisseurs de grands modèles seuls pourraient faire face à une pression de survie plus importante.

Tout comme le succès de l'iPhone 4 ne dépendait pas seulement de son processeur A4, mais aussi de sa capacité à exécuter diverses applications intéressantes, la véritable valeur de l'IA pourrait se manifester davantage dans ses cas d'utilisation concrets.

GPT1.79%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Reposter
  • Partager
Commentaire
0/400
WalletManagervip
· 08-04 16:48
Il n'est pas utile d'en parler davantage, c'est juste une question de qui a des paramètres de modèle plus grands.
Voir l'originalRépondre0
LuckyHashValuevip
· 08-02 08:00
C'est incroyable ce qu'ils font avec l'IA au Japon.
Voir l'originalRépondre0
PaperHandSistervip
· 08-02 07:54
Ces deux là se disputent sans cesse, mais aucun d'eux n'est aussi fort qu'un GPT4.
Voir l'originalRépondre0
BridgeTrustFundvip
· 08-02 07:46
Une montagne ne peut pas contenir deux moutons. Qui a gagné ?
Voir l'originalRépondre0
SquidTeachervip
· 08-02 07:45
C'est du rouleau rigide, du rouleau rigide !
Voir l'originalRépondre0
SurvivorshipBiasvip
· 08-02 07:35
C'est pas un combat entre un alpaga et un faucon ?
Voir l'originalRépondre0
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)