OpenAI's gigantesque GPT-3 évoque les limites des modèles linguistiques pour l'IA

Il y a un peu plus d'un an, OpenAI, une entreprise d'intelligence artificielle basée à San Francisco, a stupéfié le monde en montrant un bond spectaculaire dans ce qui semblait être la puissance des ordinateurs à former des phrases en langage naturel, et même à résoudre des questions, telles que compléter une phrase et formuler de longs passages de texte que les gens jugeaient assez humains.

Le dernier travail de cette équipe montre comment la réflexion d'OpenAI a mûri à certains égards. GPT-3, comme la dernière création est appelée, est apparu la semaine dernière, avec plus de fonctionnalités, créées par certains des mêmes auteurs que la dernière version, dont Alec Radford et Ilya Sutskever, ainsi que plusieurs autres collaborateurs, y compris des scientifiques de l'Université Johns Hopkins.

C'est maintenant un modèle de langage vraiment monstrueux, comme on l'appelle, engloutissant deux ordres de grandeur de texte de plus que son prédécesseur.

Mais dans cette démonstration du plus grand est meilleur, l'équipe d'OpenAI semble s'approcher de quelques vérités plus profondes, à l'image du Dr David Bowman qui a repoussé les limites du connu à la fin du film 2001.

Enfouie dans la section conclusive du document de 72 pages, Les modèles de langage sont des apprenants à faible mémoire, publié la semaine dernière sur le serveur de pré-publication arXiv, se trouve une reconnaissance plutôt frappante.

"Une limitation plus fondamentale de l'approche générale décrite dans cet article - qui consiste à augmenter la taille de tout modèle de type LM, qu'il soit autoregressif ou bidirectionnel - est qu'il peut éventuellement atteindre (ou pourrait déjà atteindre) les limites de l'objectif d'entraînement préalable," écrivent les auteurs.

Les auteurs font remarquer que construire un réseau neuronal qui prédit uniquement les probabilités du mot suivant dans une phrase ou une expression peut avoir ses limites. Le rendre toujours plus puissant et le remplir de toujours plus de texte ne garantit pas forcément de meilleurs résultats. C'est une reconnaissance importante dans un article qui célèbre principalement la réalisation consistant à utiliser plus de puissance de calcul pour résoudre un problème.

Pour comprendre pourquoi la conclusion des auteurs est si importante, considérons comment nous en sommes arrivés là. L'histoire du travail d'OpenAI sur le langage fait partie de l'histoire d'une progression constante d'un type d'approche, avec un succès croissant à mesure que la technologie devenait de plus en plus grande.

L'original GPT et GPT-2 sont tous deux des adaptations de ce qu'on appelle un Transformer, une invention pionnière chez Google en 2017. Le Transformer utilise une fonction appelée attention pour calculer la probabilité qu'un mot apparaisse compte tenu des mots environnants. OpenAI a suscité la controverse il y a un an lorsqu'il a déclaré qu'il ne publierait pas le code source de la plus grande version de GPT-2, car, selon lui, ce code pourrait tomber entre de mauvaises mains et être utilisé de manière abusive pour tromper les gens avec des choses telles que des fausses informations.

Le nouveau document porte GPT à un niveau supérieur en le rendant encore plus grand. La plus grande version de GPT-2, celle qui n'a pas été publiée en tant que source, comportait 1,5 milliard de paramètres. GPT-3 en compte 175 milliards de paramètres. Un paramètre est un calcul dans un réseau neuronal qui applique un poids plus ou moins important à certains aspects des données, afin de donner à ces aspects une importance plus ou moins grande dans le calcul global des données. Ce sont ces poids qui donnent forme aux données et confèrent au réseau neuronal une perspective apprise sur les données.

Au fil du temps, l'augmentation des poids a conduit à des résultats de test de référence incroyables de la famille de programmes GPT et d'autres dérivés importants de Transformer, tels que BERT de Google, des résultats qui se sont révélés constamment impressionnants.

Peu importe que beaucoup de gens aient souligné que ces modèles de langage ne semblent vraiment pas comprendre le langage de manière significative. Ils réussissent brillamment les tests, et cela compte pour quelque chose.

La dernière version montre à nouveau des progrès quantitatifs. Comme GPT-2 et d'autres programmes basés sur les Transformers, GPT-3 est entraîné sur l'ensemble de données Common Crawl, un corpus de près d'un billion de mots de textes extraits du Web. "Le jeu de données et la taille du modèle sont d'environ deux ordres de grandeur plus grands que ceux utilisés pour GPT-2", écrivent les auteurs.

GPT-3 avec 175 milliards de paramètres est capable de ce que les auteurs décrivent comme étant de "l'apprentissage méta". L'apprentissage méta signifie que le réseau neuronal GPT n'est pas ré-entraîné pour effectuer une tâche telle que la complétion de phrases. En étant donné un exemple de tâche, tel qu'une phrase incomplète, puis la phrase complétée, GPT-3 se chargera de compléter n'importe quelle phrase incomplète qui lui est donnée.

GPT-3 est capable d'apprendre à accomplir une tâche avec une seule indication, mieux, dans certains cas, que les versions du Transformer qui ont été ajustées, pour ainsi dire, pour effectuer spécifiquement cette tâche. Ainsi, GPT-3 est le triomphe d'une généralité globale. Il suffit de lui fournir une énorme quantité de texte jusqu'à ce que ses poids soient optimaux, et il peut ensuite bien se débrouiller dans de nombreuses tâches spécifiques sans aucun développement supplémentaire.

C'est là que l'histoire atteint un dénouement frappant dans le nouvel article. Après avoir énuméré les résultats impressionnants de GPT-3 sur des tâches linguistiques allant de la complétion de phrases à l'inférence du raisonnement logique des déclarations en passant par la traduction entre les langues, les auteurs soulignent les lacunes.

« Malgré les améliorations quantitatives et qualitatives considérables de GPT-3, notamment par rapport à son prédécesseur direct, GPT-2, il présente encore des faiblesses notables. »

Ces faiblesses incluent l'incapacité d'atteindre une précision significative sur ce qu'on appelle la NLI adversaire. La NLI, ou l'inférence de langage naturel, est un test où le programme doit déterminer la relation entre deux phrases. Des chercheurs de Facebook et de l'Université de Caroline du Nord ont introduit une version adversaire, où les humains créent des paires de phrases difficiles à résoudre pour l'ordinateur.

GPT-3 fait "un peu mieux que le hasard" sur des choses comme Adversarial NLI, écrivent les auteurs. Pire encore, en augmentant la puissance de traitement de leur système à 175 milliards de poids, les auteurs ne sont pas exactement certains de la raison pour laquelle ils ont échoué dans certaines tâches.

Voilà quand ils arrivent à la conclusion, citée ci-dessus, que peut-être nourrir simplement un énorme corpus de texte à une machine gigantesque n'est pas la réponse ultime.

Encore plus surprenante est l'observation suivante. Tenter de prédire ce qui va se passer avec la langue pourrait être une approche erronée, écrivent les auteurs. Ils pourraient viser le mauvais endroit.

"Avec des objectifs d'auto-apprentissage, la spécification de la tâche repose sur le fait de contraindre la tâche souhaitée à devenir un problème de prédiction", écrivent-ils, "alors que finalement, les systèmes linguistiques utiles (par exemple, les assistants virtuels) pourraient être mieux considérés comme prenant des actions orientées vers un but plutôt que de simplement faire des prédictions."

Les auteurs laissent pour une autre fois le soin de préciser comment ils aborderont cette nouvelle direction potentiellement fascinante.

Malgré la réalisation que plus grand ne soit pas nécessairement meilleur, les résultats améliorés de GPT-3 sur de nombreuses tâches devraient alimenter, plutôt que calmer, le désir de réseaux neuronaux de plus en plus grands. Avec 175 milliards de paramètres, GPT-3 est le roi des grands réseaux neuronaux, pour le moment. Une présentation en avril par la société de puces IA Tenstorrent décrivait des futurs réseaux neuronaux avec plus d'un billion de paramètres.

Pour une grande partie de la communauté de l'apprentissage automatique, le modèle de langage de plus en plus grand va rester l'état de l'art.

Le gigantesque GPT-3 d'OpenAI laisse entrevoir les limites des modèles linguistiques pour l'intelligence artificielle

Articles connexes