La "bataille des cent modèles" dans l'industrie de l'IA : les dilemmes commerciaux derrière la révolution de l'ingénierie
Le mois dernier, l'industrie de l'IA a déclenché une "guerre des animaux".
D'un côté, il y a un grand modèle de langage open source lancé par un géant de la technologie, qui, en raison de sa nature ouverte, est très apprécié par la communauté des développeurs. Une entreprise japonaise a rapidement développé une version japonaise de l'IA de conversation après avoir étudié des articles et du code source pertinents, résolvant ainsi le problème de goulet d'étranglement du Japon dans le domaine de l'IA.
L'autre partie est un grand modèle nommé "Faucon". En mai de cette année, le "Faucon-40B" a été lancé, surpassant l'ancien et atteignant le sommet du classement des grands modèles de langage open source.
Ce classement est réalisé par une communauté de modèles open source, offrant des normes pour évaluer les capacités des grands modèles de langage. Le classement est essentiellement une alternance entre les deux pour occuper la première place.
Le premier a temporairement repris la tête du classement après le lancement de la nouvelle version ; mais début septembre, "Hawk" a lancé la version 180B, obtenant à nouveau un classement plus élevé.
Fait intéressant, les développeurs de "Faucon" ne sont pas une entreprise technologique, mais un institut de recherche situé dans la capitale des Émirats arabes unis. Des responsables gouvernementaux ont déclaré : "Nous participons à ce domaine pour renverser les acteurs principaux."
Le lendemain de la publication de la version 180B, le ministre de l'Intelligence Artificielle des Émirats a été sélectionné parmi les "100 personnes les plus influentes dans le domaine de l'IA" par un célèbre magazine; il a été sélectionné avec "le parrain de l'IA" Hinton, le PDG d'une célèbre entreprise d'IA, ainsi que le fondateur d'une entreprise technologique chinoise.
Aujourd'hui, le domaine de l'IA est entré dans une phase de compétition acharnée : tous les pays et entreprises disposant d'une certaine puissance financière, tentent plus ou moins de développer leur propre grand modèle de langage. Rien que dans le cercle des pays du Golfe, il n'y a pas qu'un seul acteur - en août, l'Arabie saoudite a récemment acheté plus de 3000 puces AI de premier ordre pour ses universités nationales, destinées à l'entraînement de grands modèles de langage.
Un investisseur connu s'est moqué sur une plateforme sociale en disant : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrières : la guerre des centaines de groupes, la guerre des centaines de voitures, la guerre des centaines de diffusions ; je ne pensais pas que l'entrepreneuriat dans les grands modèles technologiques serait toujours une guerre des centaines de modèles..."
Comment une technologie dure, réputée pour sa difficulté, est-elle devenue un projet de développement concurrentiel entre les pays ?
Révolution Transformer
Les startups américaines, les géants technologiques chinois et les magnats du pétrole du Moyen-Orient peuvent poursuivre le rêve des grands modèles, grâce à ce célèbre article : "Attention Is All You Need".
En 2017, huit informaticiens ont publié dans cet article l'algorithme Transformer au monde entier. Cet article est actuellement le troisième plus cité de l'histoire de l'intelligence artificielle, et l'émergence du Transformer a déclenché cette vague actuelle d'engouement pour l'intelligence artificielle.
Peu importe de quel pays provient le grand modèle actuel, y compris la série GPT qui fait sensation dans le monde, il est construit sur la base de Transformer.
Avant cela, "apprendre aux machines à lire" était un défi académique reconnu. Contrairement à la reconnaissance d'images, lorsque les humains lisent des mots, ils ne se concentrent pas seulement sur les mots et phrases qu'ils voient actuellement, mais combinent également le contexte pour comprendre.
Par exemple, le terme "Transformer" peut en fait être traduit par "变形金刚", mais les lecteurs de cet article ne le comprendraient certainement pas de cette manière, car tout le monde sait que ce n'est pas un article sur un film d'Hollywood.
Cependant, les premiers réseaux de neurones avaient des entrées indépendantes les unes des autres et n'étaient pas capables de comprendre de longs textes, voire des articles entiers, ce qui expliquait pourquoi des problèmes comme la traduction de "开水间" en "open water room" se produisaient.
Jusqu'en 2014, un scientifique en informatique travaillant dans une certaine entreprise technologique, qui a ensuite changé pour une autre entreprise d'IA, a d'abord réalisé une percée. Il a utilisé des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, ce qui a permis aux performances de la traduction automatique de dépasser rapidement celles des produits concurrents.
Le RNN a proposé un "design cyclique", permettant à chaque neurone de recevoir à la fois les informations d'entrée du moment actuel et celles du moment précédent, ce qui confère au réseau de neurones la capacité de "combiner le contexte".
L'apparition des RNN a enflammé l'enthousiasme de recherche dans le milieu académique, et l'un des auteurs de l'article sur les Transformers a également été captivé par cette technologie. Cependant, les développeurs ont rapidement réalisé qu'il existait un grave défaut dans les RNN :
L'algorithme utilise le calcul séquentiel, il peut certes résoudre les problèmes de contexte, mais son efficacité d'exécution n'est pas élevée et il est difficile de traiter un grand nombre de paramètres.
Le design compliqué des RNN a vite lassé cet auteur. Ainsi, à partir de 2015, lui et sept autres passionnés ont commencé à développer un substitut aux RNN, dont le résultat est le Transformer.
Comparé à RNN, la transformation de Transformer a deux points :
Premièrement, l'utilisation du codage de position a remplacé la conception cyclique des RNN, permettant ainsi le calcul en parallèle - ce changement a considérablement amélioré l'efficacité d'entraînement des Transformers, leur permettant de traiter de grandes données, propulsant l'IA vers l'ère des grands modèles ; deuxièmement, cela a renforcé la capacité de contexte.
Avec le Transformer résolvant de nombreux défauts, il est progressivement devenu la méthode standard dans le domaine du traitement du langage naturel, ayant un certain air de "création du monde". Même les créateurs de RNN ont abandonné la technologie qu'ils avaient eux-mêmes mise sur un piédestal pour se tourner vers le Transformer.
En d'autres termes, le Transformer est le grand maître de tous les grands modèles aujourd'hui, car il a transformé les grands modèles d'un problème de recherche théorique en un problème purement d'ingénierie.
En 2019, une entreprise d'IA a développé un grand modèle de langage basé sur Transformer, qui a émerveillé le monde académique. En réponse, une autre grande entreprise technologique a rapidement lancé une IA plus performante, appelée Meena.
Comparé à son prédécesseur, Meena n'a pas d'innovation dans l'algorithme sous-jacent, mais dispose simplement de 8,5 fois plus de paramètres d'entraînement et de 14 fois plus de puissance de calcul. Les auteurs du papier sur les Transformers ont été très choqués par cette "accumulation violente" et ont immédiatement rédigé un mémorandum intitulé "Meena dévore le monde".
L'émergence des Transformers a considérablement ralenti la vitesse d'innovation des algorithmes de base dans le monde académique. Des éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul, et l'architecture des modèles deviennent progressivement des facteurs cruciaux dans les compétitions en IA. Dès qu'une entreprise technologique possède un certain niveau de compétence technique, elle peut développer un grand modèle.
Ainsi, le scientifique en informatique Andrew Ng a mentionné lors d'une conférence à l'Université de Stanford un point de vue : "L'IA est un ensemble d'outils, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement et maintenant l'intelligence artificielle générative. Tout cela est une technologie générale, similaire à d'autres technologies générales comme l'électricité et Internet."
Une certaine entreprise d'IA reste un indicateur des grands modèles de langage, mais les institutions d'analyse des semi-conducteurs estiment que la compétitivité de son dernier modèle provient de solutions d'ingénierie - si cela est open source, n'importe quel concurrent peut rapidement le reproduire.
Cet analyste s'attend à ce que, peut-être dans peu de temps, d'autres grandes entreprises technologiques puissent également créer des modèles de grande performance.
Un fossé construit sur du verre
Actuellement, la "bataille des centaines de modèles" n'est plus une figure de style, mais une réalité objective.
Des rapports connexes montrent qu'à la fin de juillet de cette année, le nombre de grands modèles nationaux a atteint 130, contre 114 aux États-Unis, réussissant ainsi à prendre de l'avance. Les divers mythes et légendes ne suffisent presque plus aux entreprises technologiques nationales pour nommer leurs produits.
Et en dehors de la Chine et des États-Unis, plusieurs pays relativement riches ont également réalisé un "modèle par pays" : en plus du Japon et des Émirats Arabes Unis, il y a le modèle Bhashini dirigé par le gouvernement indien, HyperClova X développé par une entreprise Internet coréenne, etc.
La bataille qui m’attend semble être revenue à l’époque des pionniers d’Internet, lorsque le ciel était plein de bulles et que la « capacité financière » était bombardée.
Comme mentionné précédemment, le Transformer a transformé les grands modèles en un problème d'ingénierie pur. Tant que quelqu'un a de l'argent et des cartes graphiques, le reste est laissé aux paramètres. Cependant, bien que l'accès ne soit pas difficile, cela ne signifie pas que tout le monde a la chance de devenir un géant à l'ère de l'IA.
Le "guerre des animaux" mentionnée au début est un exemple typique : bien que le "faucon" surpasse ses concurrents dans le classement, il est difficile de dire quel impact cela a eu sur certains géants technologiques.
Comme tout le monde le sait, les entreprises open source leurs résultats de recherche, non seulement pour partager les bienfaits de la technologie avec le grand public, mais aussi dans l'espoir de mobiliser l'intelligence des gens. À mesure que des professeurs d'université, des instituts de recherche et des petites et moyennes entreprises utilisent et améliorent constamment leurs modèles open source, cette entreprise peut appliquer ces résultats à ses propres produits.
Pour les grands modèles open source, une communauté de développeurs active est leur principale force concurrentielle.
Dès la création du laboratoire d'IA en 2015, l'entreprise avait déjà établi un ton ouvert; son fondateur, ayant fait fortune grâce aux réseaux sociaux, comprend parfaitement l'importance de "bien entretenir les relations avec le public".
Par exemple, en octobre, l'entreprise a organisé une activité spéciale "Incitation des créateurs version IA" : les développeurs utilisant son modèle open source pour résoudre des problèmes sociaux tels que l'éducation et l'environnement auront la chance de recevoir un financement de 500 000 dollars.
À ce jour, la série de modèles open source de cette entreprise est devenue le baromètre des grands modèles linguistiques open source.
Au début octobre, parmi le Top 10 du classement d'une communauté de modèles open source, 8 d'entre eux sont basés sur ce modèle open source et utilisent son protocole open source. Rien que dans cette communauté, plus de 1500 grands modèles de langage ont déjà utilisé ce protocole open source.
Bien sûr, améliorer les performances comme "Falcon" n'est pas une mauvaise idée, mais à ce jour, la plupart des grands modèles linguistiques sur le marché présentent encore un écart de performance évident par rapport à un modèle bien connu.
Par exemple, il y a quelques jours, ce modèle bien connu a obtenu la première place au test AgentBench avec un score de 4,41. La norme AgentBench a été lancée conjointement par l'Université Tsinghua, l'Université d'État de l'Ohio et l'Université de Californie à Berkeley, et elle est utilisée pour évaluer la capacité de raisonnement et de prise de décision des grands modèles de langage dans un environnement de génération ouvert multidimensionnel. Le contenu du test comprend des tâches dans huit environnements différents, y compris les systèmes d'exploitation, les bases de données, les graphes de connaissances et les batailles de cartes.
Les résultats des tests montrent que l'autre modèle en deuxième position n'a que 2,77 points, avec un écart encore assez marqué. Quant à ces grands modèles de langue open source très médiatisés, leurs résultats de test se situent généralement autour de 1 point, ce qui est moins d'un quart de celui du premier.
Il faut savoir que ce modèle renommé a été publié en mars de cette année, après que ses homologues mondiaux aient mis plus de six mois pour le rattraper. La raison de cet écart est l'équipe de scientifiques derrière lui, dont la "densité de QI" est extrêmement élevée, ainsi que l'expérience accumulée grâce à des recherches de longue date sur les grands modèles de langage, ce qui leur permet de garder toujours une avance considérable.
C'est-à-dire que la capacité principale des grands modèles n'est pas les paramètres, mais la construction de l'écosystème ( open source ) ou la capacité de raisonnement pure ( closed source ).
Avec l'essor de la communauté open source, les performances des grands modèles de langage pourraient converger, car tout le monde utilise des architectures de modèles similaires et des ensembles de données similaires.
Un autre problème plus intuitif est que, en dehors de certains AI de dessin, il semble qu'aucun grand modèle ne puisse gagner de l'argent.
Point d'ancrage de la valeur
En août de cette année, un article intitulé "Une entreprise d'IA bien connue pourrait faire faillite d'ici la fin de 2024" a suscité beaucoup d'attention. Le sujet de l'article peut presque être résumé en une phrase : cette entreprise brûle trop d'argent trop rapidement.
Il est mentionné dans l'article qu'après le développement de son célèbre modèle de dialogue, les pertes de l'entreprise se sont rapidement aggravées, avec environ 540 millions de dollars de pertes en 2022, attendant simplement qu'un investisseur d'un grand groupe technologique prenne en charge.
Bien que le titre de l'article soit accrocheur, il décrit également la situation actuelle des nombreux fournisseurs de grands modèles : un déséquilibre grave entre les coûts et les revenus.
Des coûts excessifs ont conduit au fait que, pour l'instant, seules certaines entreprises de semi-conducteurs ont gagné beaucoup d'argent grâce à l'intelligence artificielle, avec éventuellement une autre entreprise de semi-conducteurs.
Selon les estimations d'une société de conseil, une entreprise de puces a vendu plus de 300 000 de ses dernières puces AI au cours du deuxième trimestre de cette année. C'est une puce qui a une efficacité d'entraînement AI très élevée, et toutes les entreprises de technologie et les institutions de recherche du monde entier se les arrachent. Si l'on empile ces 300 000 puces vendues, leur poids équivaut à celui de 4,5 avions Boeing 747.
Les performances de cette entreprise de puces ont également décollé, avec un chiffre d'affaires en hausse de 854 % par rapport à l'année précédente, ce qui a laissé Wall Street sans voix. À titre d'information, le prix de cette puce sur le marché de l'occasion a été spéculé entre 40 000 et 50 000 dollars, alors que son coût matériel n'est que d'un peu plus de 3 000 dollars.
Le coût élevé de la puissance de calcul est devenu, dans une certaine mesure, un frein au développement de l'industrie. Un célèbre capital-risque a effectué un calcul : les entreprises technologiques du monde entier devraient dépenser environ 200 milliards de dollars par an pour la construction d'infrastructures de modèles de grande taille ; en revanche, les modèles de grande taille ne peuvent générer au maximum que 75 milliards de dollars de revenus par an, laissant un écart d'au moins 125 milliards de dollars.
De plus, à part quelques cas isolés comme certaines IA de dessin, la plupart des entreprises de logiciels, après avoir engagé des coûts énormes, n'ont pas encore réfléchi à la manière de gagner de l'argent. En particulier, les deux leaders du secteur - un géant de la technologie et une entreprise de logiciels de design - avancent avec quelques difficultés.
Un certain géant de la technologie et une certaine entreprise d'IA ont collaboré pour développer un outil de génération de code IA, bien que
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
19 J'aime
Récompense
19
7
Reposter
Partager
Commentaire
0/400
HappyMinerUncle
· 08-12 05:23
Les outils humains sont vraiment en compétition.
Voir l'originalRépondre0
tokenomics_truther
· 08-11 10:25
À quoi servent les jeux numériques ? Parlons-en après avoir présenté des exemples pratiques.
Voir l'originalRépondre0
TrustMeBro
· 08-11 10:25
C'est encore une bataille de classement, n'est-ce pas ?
Voir l'originalRépondre0
FarmToRiches
· 08-11 10:19
On a l'impression que le jardin ouvert devient de plus en plus coloré en jouant~
Voir l'originalRépondre0
LiquidatedNotStirred
· 08-11 10:17
La bataille des cent modèles, haha, tous mènent au même but.
Voir l'originalRépondre0
GamefiHarvester
· 08-11 10:15
Open Source prendre les gens pour des idiots plus intéressant
La bataille des modèles d'IA : dilemmes commerciaux et exploration de la valeur dans la révolution des ingénieries
La "bataille des cent modèles" dans l'industrie de l'IA : les dilemmes commerciaux derrière la révolution de l'ingénierie
Le mois dernier, l'industrie de l'IA a déclenché une "guerre des animaux".
D'un côté, il y a un grand modèle de langage open source lancé par un géant de la technologie, qui, en raison de sa nature ouverte, est très apprécié par la communauté des développeurs. Une entreprise japonaise a rapidement développé une version japonaise de l'IA de conversation après avoir étudié des articles et du code source pertinents, résolvant ainsi le problème de goulet d'étranglement du Japon dans le domaine de l'IA.
L'autre partie est un grand modèle nommé "Faucon". En mai de cette année, le "Faucon-40B" a été lancé, surpassant l'ancien et atteignant le sommet du classement des grands modèles de langage open source.
Ce classement est réalisé par une communauté de modèles open source, offrant des normes pour évaluer les capacités des grands modèles de langage. Le classement est essentiellement une alternance entre les deux pour occuper la première place.
Le premier a temporairement repris la tête du classement après le lancement de la nouvelle version ; mais début septembre, "Hawk" a lancé la version 180B, obtenant à nouveau un classement plus élevé.
Fait intéressant, les développeurs de "Faucon" ne sont pas une entreprise technologique, mais un institut de recherche situé dans la capitale des Émirats arabes unis. Des responsables gouvernementaux ont déclaré : "Nous participons à ce domaine pour renverser les acteurs principaux."
Le lendemain de la publication de la version 180B, le ministre de l'Intelligence Artificielle des Émirats a été sélectionné parmi les "100 personnes les plus influentes dans le domaine de l'IA" par un célèbre magazine; il a été sélectionné avec "le parrain de l'IA" Hinton, le PDG d'une célèbre entreprise d'IA, ainsi que le fondateur d'une entreprise technologique chinoise.
Aujourd'hui, le domaine de l'IA est entré dans une phase de compétition acharnée : tous les pays et entreprises disposant d'une certaine puissance financière, tentent plus ou moins de développer leur propre grand modèle de langage. Rien que dans le cercle des pays du Golfe, il n'y a pas qu'un seul acteur - en août, l'Arabie saoudite a récemment acheté plus de 3000 puces AI de premier ordre pour ses universités nationales, destinées à l'entraînement de grands modèles de langage.
Un investisseur connu s'est moqué sur une plateforme sociale en disant : "À l'époque, je méprisais l'innovation des modèles commerciaux d'Internet, pensant qu'il n'y avait pas de barrières : la guerre des centaines de groupes, la guerre des centaines de voitures, la guerre des centaines de diffusions ; je ne pensais pas que l'entrepreneuriat dans les grands modèles technologiques serait toujours une guerre des centaines de modèles..."
Comment une technologie dure, réputée pour sa difficulté, est-elle devenue un projet de développement concurrentiel entre les pays ?
Révolution Transformer
Les startups américaines, les géants technologiques chinois et les magnats du pétrole du Moyen-Orient peuvent poursuivre le rêve des grands modèles, grâce à ce célèbre article : "Attention Is All You Need".
En 2017, huit informaticiens ont publié dans cet article l'algorithme Transformer au monde entier. Cet article est actuellement le troisième plus cité de l'histoire de l'intelligence artificielle, et l'émergence du Transformer a déclenché cette vague actuelle d'engouement pour l'intelligence artificielle.
Peu importe de quel pays provient le grand modèle actuel, y compris la série GPT qui fait sensation dans le monde, il est construit sur la base de Transformer.
Avant cela, "apprendre aux machines à lire" était un défi académique reconnu. Contrairement à la reconnaissance d'images, lorsque les humains lisent des mots, ils ne se concentrent pas seulement sur les mots et phrases qu'ils voient actuellement, mais combinent également le contexte pour comprendre.
Par exemple, le terme "Transformer" peut en fait être traduit par "变形金刚", mais les lecteurs de cet article ne le comprendraient certainement pas de cette manière, car tout le monde sait que ce n'est pas un article sur un film d'Hollywood.
Cependant, les premiers réseaux de neurones avaient des entrées indépendantes les unes des autres et n'étaient pas capables de comprendre de longs textes, voire des articles entiers, ce qui expliquait pourquoi des problèmes comme la traduction de "开水间" en "open water room" se produisaient.
Jusqu'en 2014, un scientifique en informatique travaillant dans une certaine entreprise technologique, qui a ensuite changé pour une autre entreprise d'IA, a d'abord réalisé une percée. Il a utilisé des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, ce qui a permis aux performances de la traduction automatique de dépasser rapidement celles des produits concurrents.
Le RNN a proposé un "design cyclique", permettant à chaque neurone de recevoir à la fois les informations d'entrée du moment actuel et celles du moment précédent, ce qui confère au réseau de neurones la capacité de "combiner le contexte".
L'apparition des RNN a enflammé l'enthousiasme de recherche dans le milieu académique, et l'un des auteurs de l'article sur les Transformers a également été captivé par cette technologie. Cependant, les développeurs ont rapidement réalisé qu'il existait un grave défaut dans les RNN :
L'algorithme utilise le calcul séquentiel, il peut certes résoudre les problèmes de contexte, mais son efficacité d'exécution n'est pas élevée et il est difficile de traiter un grand nombre de paramètres.
Le design compliqué des RNN a vite lassé cet auteur. Ainsi, à partir de 2015, lui et sept autres passionnés ont commencé à développer un substitut aux RNN, dont le résultat est le Transformer.
Comparé à RNN, la transformation de Transformer a deux points :
Premièrement, l'utilisation du codage de position a remplacé la conception cyclique des RNN, permettant ainsi le calcul en parallèle - ce changement a considérablement amélioré l'efficacité d'entraînement des Transformers, leur permettant de traiter de grandes données, propulsant l'IA vers l'ère des grands modèles ; deuxièmement, cela a renforcé la capacité de contexte.
Avec le Transformer résolvant de nombreux défauts, il est progressivement devenu la méthode standard dans le domaine du traitement du langage naturel, ayant un certain air de "création du monde". Même les créateurs de RNN ont abandonné la technologie qu'ils avaient eux-mêmes mise sur un piédestal pour se tourner vers le Transformer.
En d'autres termes, le Transformer est le grand maître de tous les grands modèles aujourd'hui, car il a transformé les grands modèles d'un problème de recherche théorique en un problème purement d'ingénierie.
En 2019, une entreprise d'IA a développé un grand modèle de langage basé sur Transformer, qui a émerveillé le monde académique. En réponse, une autre grande entreprise technologique a rapidement lancé une IA plus performante, appelée Meena.
Comparé à son prédécesseur, Meena n'a pas d'innovation dans l'algorithme sous-jacent, mais dispose simplement de 8,5 fois plus de paramètres d'entraînement et de 14 fois plus de puissance de calcul. Les auteurs du papier sur les Transformers ont été très choqués par cette "accumulation violente" et ont immédiatement rédigé un mémorandum intitulé "Meena dévore le monde".
L'émergence des Transformers a considérablement ralenti la vitesse d'innovation des algorithmes de base dans le monde académique. Des éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul, et l'architecture des modèles deviennent progressivement des facteurs cruciaux dans les compétitions en IA. Dès qu'une entreprise technologique possède un certain niveau de compétence technique, elle peut développer un grand modèle.
Ainsi, le scientifique en informatique Andrew Ng a mentionné lors d'une conférence à l'Université de Stanford un point de vue : "L'IA est un ensemble d'outils, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement et maintenant l'intelligence artificielle générative. Tout cela est une technologie générale, similaire à d'autres technologies générales comme l'électricité et Internet."
Une certaine entreprise d'IA reste un indicateur des grands modèles de langage, mais les institutions d'analyse des semi-conducteurs estiment que la compétitivité de son dernier modèle provient de solutions d'ingénierie - si cela est open source, n'importe quel concurrent peut rapidement le reproduire.
Cet analyste s'attend à ce que, peut-être dans peu de temps, d'autres grandes entreprises technologiques puissent également créer des modèles de grande performance.
Un fossé construit sur du verre
Actuellement, la "bataille des centaines de modèles" n'est plus une figure de style, mais une réalité objective.
Des rapports connexes montrent qu'à la fin de juillet de cette année, le nombre de grands modèles nationaux a atteint 130, contre 114 aux États-Unis, réussissant ainsi à prendre de l'avance. Les divers mythes et légendes ne suffisent presque plus aux entreprises technologiques nationales pour nommer leurs produits.
Et en dehors de la Chine et des États-Unis, plusieurs pays relativement riches ont également réalisé un "modèle par pays" : en plus du Japon et des Émirats Arabes Unis, il y a le modèle Bhashini dirigé par le gouvernement indien, HyperClova X développé par une entreprise Internet coréenne, etc.
La bataille qui m’attend semble être revenue à l’époque des pionniers d’Internet, lorsque le ciel était plein de bulles et que la « capacité financière » était bombardée.
Comme mentionné précédemment, le Transformer a transformé les grands modèles en un problème d'ingénierie pur. Tant que quelqu'un a de l'argent et des cartes graphiques, le reste est laissé aux paramètres. Cependant, bien que l'accès ne soit pas difficile, cela ne signifie pas que tout le monde a la chance de devenir un géant à l'ère de l'IA.
Le "guerre des animaux" mentionnée au début est un exemple typique : bien que le "faucon" surpasse ses concurrents dans le classement, il est difficile de dire quel impact cela a eu sur certains géants technologiques.
Comme tout le monde le sait, les entreprises open source leurs résultats de recherche, non seulement pour partager les bienfaits de la technologie avec le grand public, mais aussi dans l'espoir de mobiliser l'intelligence des gens. À mesure que des professeurs d'université, des instituts de recherche et des petites et moyennes entreprises utilisent et améliorent constamment leurs modèles open source, cette entreprise peut appliquer ces résultats à ses propres produits.
Pour les grands modèles open source, une communauté de développeurs active est leur principale force concurrentielle.
Dès la création du laboratoire d'IA en 2015, l'entreprise avait déjà établi un ton ouvert; son fondateur, ayant fait fortune grâce aux réseaux sociaux, comprend parfaitement l'importance de "bien entretenir les relations avec le public".
Par exemple, en octobre, l'entreprise a organisé une activité spéciale "Incitation des créateurs version IA" : les développeurs utilisant son modèle open source pour résoudre des problèmes sociaux tels que l'éducation et l'environnement auront la chance de recevoir un financement de 500 000 dollars.
À ce jour, la série de modèles open source de cette entreprise est devenue le baromètre des grands modèles linguistiques open source.
Au début octobre, parmi le Top 10 du classement d'une communauté de modèles open source, 8 d'entre eux sont basés sur ce modèle open source et utilisent son protocole open source. Rien que dans cette communauté, plus de 1500 grands modèles de langage ont déjà utilisé ce protocole open source.
Bien sûr, améliorer les performances comme "Falcon" n'est pas une mauvaise idée, mais à ce jour, la plupart des grands modèles linguistiques sur le marché présentent encore un écart de performance évident par rapport à un modèle bien connu.
Par exemple, il y a quelques jours, ce modèle bien connu a obtenu la première place au test AgentBench avec un score de 4,41. La norme AgentBench a été lancée conjointement par l'Université Tsinghua, l'Université d'État de l'Ohio et l'Université de Californie à Berkeley, et elle est utilisée pour évaluer la capacité de raisonnement et de prise de décision des grands modèles de langage dans un environnement de génération ouvert multidimensionnel. Le contenu du test comprend des tâches dans huit environnements différents, y compris les systèmes d'exploitation, les bases de données, les graphes de connaissances et les batailles de cartes.
Les résultats des tests montrent que l'autre modèle en deuxième position n'a que 2,77 points, avec un écart encore assez marqué. Quant à ces grands modèles de langue open source très médiatisés, leurs résultats de test se situent généralement autour de 1 point, ce qui est moins d'un quart de celui du premier.
Il faut savoir que ce modèle renommé a été publié en mars de cette année, après que ses homologues mondiaux aient mis plus de six mois pour le rattraper. La raison de cet écart est l'équipe de scientifiques derrière lui, dont la "densité de QI" est extrêmement élevée, ainsi que l'expérience accumulée grâce à des recherches de longue date sur les grands modèles de langage, ce qui leur permet de garder toujours une avance considérable.
C'est-à-dire que la capacité principale des grands modèles n'est pas les paramètres, mais la construction de l'écosystème ( open source ) ou la capacité de raisonnement pure ( closed source ).
Avec l'essor de la communauté open source, les performances des grands modèles de langage pourraient converger, car tout le monde utilise des architectures de modèles similaires et des ensembles de données similaires.
Un autre problème plus intuitif est que, en dehors de certains AI de dessin, il semble qu'aucun grand modèle ne puisse gagner de l'argent.
Point d'ancrage de la valeur
En août de cette année, un article intitulé "Une entreprise d'IA bien connue pourrait faire faillite d'ici la fin de 2024" a suscité beaucoup d'attention. Le sujet de l'article peut presque être résumé en une phrase : cette entreprise brûle trop d'argent trop rapidement.
Il est mentionné dans l'article qu'après le développement de son célèbre modèle de dialogue, les pertes de l'entreprise se sont rapidement aggravées, avec environ 540 millions de dollars de pertes en 2022, attendant simplement qu'un investisseur d'un grand groupe technologique prenne en charge.
Bien que le titre de l'article soit accrocheur, il décrit également la situation actuelle des nombreux fournisseurs de grands modèles : un déséquilibre grave entre les coûts et les revenus.
Des coûts excessifs ont conduit au fait que, pour l'instant, seules certaines entreprises de semi-conducteurs ont gagné beaucoup d'argent grâce à l'intelligence artificielle, avec éventuellement une autre entreprise de semi-conducteurs.
Selon les estimations d'une société de conseil, une entreprise de puces a vendu plus de 300 000 de ses dernières puces AI au cours du deuxième trimestre de cette année. C'est une puce qui a une efficacité d'entraînement AI très élevée, et toutes les entreprises de technologie et les institutions de recherche du monde entier se les arrachent. Si l'on empile ces 300 000 puces vendues, leur poids équivaut à celui de 4,5 avions Boeing 747.
Les performances de cette entreprise de puces ont également décollé, avec un chiffre d'affaires en hausse de 854 % par rapport à l'année précédente, ce qui a laissé Wall Street sans voix. À titre d'information, le prix de cette puce sur le marché de l'occasion a été spéculé entre 40 000 et 50 000 dollars, alors que son coût matériel n'est que d'un peu plus de 3 000 dollars.
Le coût élevé de la puissance de calcul est devenu, dans une certaine mesure, un frein au développement de l'industrie. Un célèbre capital-risque a effectué un calcul : les entreprises technologiques du monde entier devraient dépenser environ 200 milliards de dollars par an pour la construction d'infrastructures de modèles de grande taille ; en revanche, les modèles de grande taille ne peuvent générer au maximum que 75 milliards de dollars de revenus par an, laissant un écart d'au moins 125 milliards de dollars.
De plus, à part quelques cas isolés comme certaines IA de dessin, la plupart des entreprises de logiciels, après avoir engagé des coûts énormes, n'ont pas encore réfléchi à la manière de gagner de l'argent. En particulier, les deux leaders du secteur - un géant de la technologie et une entreprise de logiciels de design - avancent avec quelques difficultés.
Un certain géant de la technologie et une certaine entreprise d'IA ont collaboré pour développer un outil de génération de code IA, bien que