Qu'est-ce que GPT-3? Tout ce que votre entreprise doit savoir sur le programme linguistique révolutionnaire d'IA OpenAI

GPT-3 est un programme informatique créé par la startup privée basée à San Francisco, OpenAI. Il s'agit d'un gigantesque réseau neuronal et, à ce titre, il fait partie du segment de l'apprentissage profond du machine learning, lui-même une branche du domaine de l'informatique connue sous le nom d'intelligence artificielle ou IA. Ce programme est meilleur que tous les programmes précédents pour produire des lignes de texte qui semblent avoir été écrites par un être humain.

La raison pour laquelle une telle percée pourrait être utile aux entreprises est qu'elle a un énorme potentiel pour automatiser des tâches. GPT-3 peut répondre à n'importe quel texte qu'une personne saisit dans l'ordinateur avec un nouveau texte approprié au contexte. Saisissez une phrase complète en anglais dans une boîte de recherche, par exemple, et il est plus probable que vous obteniez une réponse complète et pertinente. Cela signifie que GPT-3 peut éventuellement amplifier les efforts humains dans une grande variété de situations, des questions et réponses pour le service client à la recherche de documents de vérification diligente à la génération de rapports.

Observez le bref exemple suivant de ce qu'une personne tape dans l'ordinateur et comment GPT-3 renvoie une réponse :

Demande fournie par l'utilisateur : Q: Qui a joué Tess dans Touched by an Angel ?

GPT-3-generated completion : A: Delloreese Patricia Early (6 juillet 1931 { 19 novembre 2017), connue professionnellement sous le nom de Della Reese

Le programme est actuellement en version bêta privée, pour laquelle les personnes peuvent s'inscrire sur une liste d'attente. Il est proposé par OpenAI en tant qu'API accessible via le cloud, et les entreprises qui ont obtenu l'accès ont développé des applications fascinantes qui utilisent la génération de texte pour améliorer toutes sortes de programmes, allant de la simple réponse aux questions à la production de code de programmation.

Avec le potentiel de l'automatisation viennent de grands inconvénients. GPT-3 est gourmand en calcul, ce qui le rend inutilisable pour la plupart des entreprises dans n'importe quel environnement sur site concevable. Son texte généré peut être impressionnant à première vue, mais les longues compositions ont tendance à devenir quelque peu incohérentes. De plus, il a un grand potentiel pour amplifier les biais, y compris le racisme et le sexisme.

COMMENT FONCTIONNE GPT-3 ?

GPT-3 est un exemple de ce qu'on appelle un modèle de langage, qui est un type particulier de programme statistique. Dans ce cas, il a été créé comme un réseau neuronal.

Le nom GPT-3 est un acronyme signifiant "pré-entraînement générateur", dont c'est la troisième version jusqu'à présent. Il est générateur car contrairement à d'autres réseaux neuronaux qui produisent un score numérique ou une réponse oui ou non, GPT-3 peut générer de longues séquences de texte original en sortie. Il est pré-entraîné dans le sens où il n'a été construit avec aucune connaissance de domaine, même s'il peut accomplir des tâches spécifiques à un domaine, telles que la traduction de langues étrangères.

Un modèle de langage, dans le cas de GPT-3, est un programme qui calcule à quel point il est probable qu'un mot apparaisse dans un texte donné les autres mots dans le texte. C'est ce qui est connu sous le nom de probabilité conditionnelle des mots.

Par exemple, dans la phrase Je voulais faire une omelette, donc je suis allé(e) au frigo et j'ai sorti quelques ____, le vide peut être rempli par n'importe quel mot, même des absurdités, étant donné l'infinie combinabilité de la langue. Mais le mot "œufs" obtient probablement un score assez élevé pour remplir ce vide dans la plupart des textes normaux, plus élevé que, disons, "éléphants". Nous disons que la probabilité d'œufs dans ces conditions textuelles est plus élevée que la probabilité d'éléphants.

Lorsque le réseau neural est en cours de développement, appelée la phase d'entraînement, GPT-3 est alimenté de millions et millions d'échantillons de texte et il convertit les mots en ce que l'on appelle des vecteurs, c'est-à-dire des représentations numériques. Cela constitue une forme de compression de données. Le programme tente ensuite de décompresser ce texte compressé pour en faire une phrase valide. La tâche de compression et de décompression développe la précision du programme dans le calcul de la probabilité conditionnelle des mots.

Une fois que le modèle a été entraîné, c'est-à-dire que ses calculs de probabilité conditionnelle sur des milliards de mots sont le plus précis possible, il peut prédire quels mots viennent ensuite lorsqu'il est sollicité par une personne qui tape un mot ou des mots initiaux. Cette action de prédiction est connue en apprentissage automatique sous le nom d'inférence.

Cela conduit à un effet miroir frappant. Non seulement des mots probables émergent, mais aussi la texture et le rythme d'un genre ou la forme d'une tâche écrite, tels que des ensembles de questions-réponses, sont reproduits. Ainsi, par exemple, GPT-3 peut se voir donner des noms de poètes célèbres et des échantillons de leur travail, puis le nom d'un autre poète et seulement le titre d'un poème imaginaire, et GPT-3 produira un nouveau poème de manière cohérente avec le rythme et la syntaxe du poète dont le nom a été sollicité.

Considérez l'exemple suivant de GPT-3 qui crée un poème à partir de zéro qui ressemble un peu à l'œuvre de Wallace Stevens, après avoir reçu des titres, des noms et des exemples d'autres poètes et de leurs œuvres :

Entrée fournie par un être humain : La Ville  DE C. P. CAVAFY TRADUIT PAR EDMUND KEELEY [Texte du poème omis]

Entrée fournie par l'humain : QUELQUES ARBRES John Ashbery [Texte du poème omis]

Entrée fournie par l'utilisateur : Ombres sur le chemin, Wallace Stevens

GPT-3-generated completion : -------- Poème Généré 1 --------   Je dois avoir des ombres sur le chemin  Si je dois marcher Je dois avoir  Chaque pas fait lentement et seul  Pour l'avoir déjà prêt    Et je dois penser en lignes de gris  Avoir des pensées sombres pour être mon guide  Je dois regarder le bleu et le vert  Et ne jamais laisser mon œil  Oublier que la couleur est mon amie  Et le violet doit aussi m'entourer  Le jaune du soleil n'est pas plus  Intrusif que la neige bleutée  Qui tombe sur nous tous. Je dois avoir  Des pensées grises et des pensées bleues qui marchent avec moi  Si je dois m'éloigner du tout.

Générer une réponse signifie que GPT-3 peut aller bien au-delà de simplement produire du texte. Il peut se débrouiller dans toutes sortes de tests, y compris des tests de raisonnement impliquant une réponse en langage naturel. Par exemple, si l'on donne à GPT-3 un essai sur les tarifs de location des propriétés de Manhattan et une affirmation résumant le texte, telle que "Manhattan est bon marché", ainsi que la question "vrai ou faux ?", GPT-3 répondra à cette demande complète en retournant le mot "faux", car l'affirmation ne correspond pas à l'argument de l'essai.

Entrée fournie par l'humain : La tendance à la baisse des loyers peut sembler surprenante étant donné que certaines communautés de New York se plaignent de la perte de leurs commerces locaux préférés à cause des loyers élevés. Mais malgré le récent fléchissement, pour bon nombre de ces détaillants, le saut reste encore trop important par rapport aux tarifs de location de la fin des années 1970, lors de la signature de leurs baux. Bien sûr, la récente baisse des prix ne signifie pas que Manhattan est bon marché.

Entrée fournie par l'utilisateur : question : Manhattan est bon marché. vrai, faux, ou ni l'un ni l'autre ?

Entrée fournie par l'utilisateur : réponse :

GPT-3-généré achèvement : faux

La capacité de GPT-3 à répondre de manière cohérente à une tâche donnée, y compris des formes auxquelles il n'a jamais été exposé auparavant, en fait un modèle linguistique "few-shot". Au lieu d'être largement ajusté, ou "entraîné", comme on dit, sur une tâche donnée, GPT-3 possède déjà tellement d'informations sur les différentes manières dont les mots se combinent qu'il peut être donné seulement une poignée d'exemples d'une tâche, ce qu'on appelle une étape de fine-tuning, et il acquiert la capacité d'effectuer également cette nouvelle tâche.

La capacité de reproduire les styles de langage naturels et d'obtenir des scores relativement élevés aux tests basés sur le langage peut donner l'impression que GPT-3 approche une sorte de maîtrise du langage similaire à celle de l'homme. Comme nous le verrons, ce n'est pas le cas.

Des informations techniques supplémentaires peuvent être trouvées dans le document officiel de GPT-3 publié par les scientifiques d'OpenAI.

QUE PEUT FAIRE GPT-3 ?

OpenAI est désormais aussi célèbre - voire tristement célèbre - pour les pratiques de publication de son code que pour le code lui-même. Lorsque l'entreprise a dévoilé GPT-2, le prédécesseur, le jour de la Saint-Valentin 2019, elle refusait initialement de rendre disponible au public la version la plus performante, arguant qu'elle était trop dangereuse à relâcher dans la nature en raison du risque de production massive de textes faux et trompeurs. OpenAI l'a depuis rendu disponible en téléchargement.

Cette fois-ci, OpenAI ne fournit pas de téléchargements. Au lieu de cela, il a activé un point de terminaison API basé sur le cloud, faisant de GPT-3 une offre en tant que service. (Pensez-y comme à LMaaS, un modèle de langage en tant que service.) La raison, soutient OpenAI, est à la fois de limiter l'utilisation de GPT-3 par des acteurs malveillants et de gagner de l'argent.

"Il n'y a pas de 'bouton annuler' avec le code source ouvert", a déclaré OpenAI à ZDNet par l'intermédiaire d'un porte-parole.

"Lancer GPT-3 via une API nous permet de contrôler en toute sécurité son utilisation et de révoquer l'accès si nécessaire."

Actuellement, le service OpenAI API est réservé aux parties approuvées; il existe une liste d'attente à laquelle vous pouvez vous inscrire pour y accéder.

"Actuellement, l'API est en version bêta contrôlée avec un petit nombre de développeurs qui soumettent une idée pour quelque chose qu'ils aimeraient réaliser en utilisant l'API", a déclaré OpenAI à ZDNet.

Aussi: Le générateur de texte AI "dangereux" d'OpenAI est disponible : Les gens trouvent les mots "convaincants"

Il existe des exemples intrigants de ce qui peut être fait par des entreprises du programme bêta. Sapling, une entreprise soutenue par le fonds de capital-risque Y Combinator, propose un programme qui repose sur un logiciel de CRM. Lorsqu'un représentant du service clientèle gère une demande d'aide entrante, par exemple par e-mail, le programme utilise GPT-3 pour suggérer une phrase entière en tant que réponse parmi les réponses les plus probables.

Le créateur de jeux Latitude utilise GPT-3 pour améliorer son jeu d'aventure basé sur du texte, AI Dungeon. Habituellement, un jeu d'aventure nécessiterait un arbre de décision complexe pour scripter de nombreux chemins possibles à travers le jeu. Au lieu de cela, GPT-3 peut générer dynamiquement un état de gameplay changeant en réponse aux actions tapées par les utilisateurs.

Déjà, l'automatisation des tâches va au-delà du langage naturel pour générer du code informatique. Le code est un langage, et GPT-3 peut déduire la syntaxe la plus probable des opérateurs et des opérandes dans différents langages de programmation, et peut produire des séquences qui peuvent être compilées et exécutées avec succès.

Un exemple précoce a enflammé Twitter, grâce à la startup de développement d'applications Debuild. Le chef de l'entreprise, Sharif Shameem, a pu concevoir un programme dans lequel vous saisissez la description d'une interface logicielle en anglais simple, et GPT-3 répond en générant du code informatique utilisant l'extension de syntaxe JSX pour JavaScript. Ce code produit une interface utilisateur correspondant à ce que vous avez décrit.

C'est incroyable. Avec GPT-3, j'ai créé un générateur de mise en page où il vous suffit de décrire la mise en page que vous souhaitez, et il génère le code JSX pour vous. Q U O I pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 juillet 2020

Shameem a démontré qu'en décrivant une interface utilisateur avec plusieurs boutons, avec une seule phrase il pouvait décrire un programme entier, même si c'est un programme simple tel que le calcul arithmétique de base et l'affichage du résultat, et GPT-3 pourrait générer tout le code nécessaire et afficher l'application en cours d'exécution.

J'ai simplement construit une application React *fonctionnelle* en décrivant ce que je voulais à GPT-3. Je suis toujours sous le charme. pic.twitter.com/UUKSYz2NJO

— Sharif Shameem (@sharifshameem) 17 juillet 2020

OpenAI a reçu "des dizaines de milliers de demandes d'accès à l'API à ce jour et nous sommes prudents quant à l'accès en apprenant ce que ces modèles peuvent faire dans le monde réel", a déclaré la société à ZDNet. "Par conséquent, la liste d'attente peut être longue."

La tarification pour un éventuel service commercial est encore à déterminer. Interrogé sur la date de sortie de la version bêta, OpenAI a déclaré à ZDNet, "pas dans un avenir proche."

"Lancer un modèle aussi puissant signifie que nous devons avancer lentement et réfléchir à son impact sur les entreprises, les industries et les personnes", a déclaré l'entreprise. "Le format d'une API nous permet d'étudier et de modérer son utilisation de manière appropriée, mais nous ne sommes pas pressés de le rendre disponible en général en raison de ses limites."

Si vous êtes impatient(e) d'attendre la liste d'attente beta, vous pouvez en attendant télécharger la version précédente, GPT-2, qui peut être exécutée sur un ordinateur portable en utilisant une installation Docker. Le code source est publié dans le même dépôt Github, au format Python pour le framework TensorFlow. Vous n'obtiendrez pas les mêmes résultats que GPT-3, bien sûr, mais c'est une façon de commencer à vous familiariser.

N'oubliez pas également que de nouveaux modèles de langage avec des capacités similaires apparaissent constamment, et certains d'entre eux peuvent être suffisants pour vos besoins. Par exemple, Google a récemment publié une version de son modèle de langage BERT, appelé LaBSE, qui présente une amélioration marquée dans la traduction de langues. Il est disponible en téléchargement via le TensorFlow Hub.

Aussi: Le gigantesque GPT-3 d'OpenAI met en évidence les limites des modèles de langage pour l'IA

QUELLE EST L'HISTOIRE DE GPT-3 ?

GPT-3, dévoilé en mai, est la troisième version d'un programme introduit pour la première fois en 2018 par OpenAI et suivi l'année dernière par GPT-2. Ces trois programmes sont un exemple d'innovation rapide dans le domaine des modèles de langage, grâce à deux grandes avancées, toutes deux survenues en 2015.

La première avancée a été l'utilisation de ce qui est appelé l'attention. Le scientifique en IA, Yoshua Bengio, et ses collègues de l'institut Mila pour l'IA à Montréal ont observé que les modèles de langage, lorsqu'ils comprimaient une phrase en anglais puis la décomprimaient, utilisaient tous un vecteur de longueur fixe. Chaque phrase était compressée dans un vecteur de taille identique, quelle que soit la longueur de la phrase.

Bengio et son équipe ont conclu que cette approche rigide était un obstacle. Un modèle de langage devrait pouvoir rechercher plusieurs vecteurs de longueurs différentes pour trouver les mots qui optimisent la probabilité conditionnelle. C'est pourquoi ils ont conçu un moyen de permettre au réseau neuronal de compresser de manière flexible les mots en vecteurs de tailles différentes, ainsi que de permettre au programme de rechercher de manière flexible à travers ces vecteurs pour trouver le contexte qui importerait. Ils ont appelé cela l'attention.

L'attention est devenue un élément essentiel dans les modèles linguistiques. Deux ans plus tard, les scientifiques de Google l'ont utilisée pour créer un programme de modèle linguistique appelé le Transformer. Le Transformer a obtenu des scores incroyables lors des tests de manipulation du langage. Il est devenu le modèle linguistique de référence et a également été utilisé par Google pour créer ce qui est connu sous le nom de BERT, un autre modèle linguistique très réussi. Le Transformer est également devenu la base de GPT-1.

Libéré de la nécessité de manipuler rigoureusement un vecteur de taille fixe, le Transformer et ses descendants peuvent se déplacer partout dans différentes parties d'un texte donné et trouver des dépendances conditionnelles qui s'étendent sur un contexte beaucoup plus large.

Cette liberté a ouvert la voie à une autre innovation qui est arrivée en 2015 et qui était encore plus centrale pour le travail d'OpenAI, connue sous le nom d'apprentissage non supervisé.

La priorité jusqu'à présent pour la plupart des modèles de langage avait été l'apprentissage supervisé avec ce qu'on appelle des données étiquetées. Étant donné une entrée, un réseau neuronal se voit également donné un exemple de sortie comme version objective de la réponse. Ainsi, si la tâche est la traduction, une phrase en anglais pourrait être l'entrée, et une traduction en français créée par un humain serait fournie comme objectif désiré, et la paire de phrases constitue un exemple étiqueté.

L'essai du réseau neuronal de générer une traduction en français serait comparé à la phrase officielle en français, et la différence entre les deux représente l'erreur du réseau neuronal dans ses prédictions, ce qu'on appelle la fonction de perte ou fonction objective.

La phase de formation a pour but de réduire cet écart d'erreur entre la sortie suggérée du réseau neuronal et la sortie cible. Lorsque cet écart est aussi réduit que possible, la fonction objective a été optimisée et le réseau neuronal du modèle de langage est considéré comme entraîné.

Mais obtenir la sortie souhaitée soigneusement étiquetée peut poser problème car cela nécessite beaucoup de curatelle des données, comme l'assemblage de paires de phrases exemples par jugement humain, ce qui est fastidieux et consommateur de ressources. Andrew Dai et Quoc Le de Google ont émis l'hypothèse qu'il était possible de réduire la quantité de données étiquetées nécessaires si le modèle linguistique était d'abord entraîné de manière non supervisée.

Au lieu de recevoir une paire de phrases, le réseau ne recevait que des phrases simples et devait les comprimer en un vecteur puis les décompresser pour retrouver la phrase d'origine. La fonction de perte à optimiser était la recréation de la phrase d'origine. Ils ont constaté que plus d'exemples non étiquetés étaient comprimés et décompressés de cette manière, plus ils pouvaient remplacer de nombreuses données étiquetées sur des tâches telles que la traduction.

En 2018, l'équipe OpenAI a combiné ces deux éléments, le mécanisme d'attention développé par Bengio et ses collègues, qui se déplacerait à travers de nombreux vecteurs de mots, et l'approche de pré-formation non supervisée de Dai et Le qui avalerait de grandes quantités de texte, le compresserait et le décompresserait pour reproduire le texte original.

Ils ont pris un Transformer standard et lui ont donné le contenu du BookCorpus, une base de données compilée par l'Université de Toronto et le MIT, composée de plus de 7 000 textes de livres publiés totalisant près d'un million de mots, soit un total de 5 Go. GPT-1 a été entraîné à compresser et décompresser ces livres.

Ainsi a commencé une histoire de trois ans avec des ensembles de données de plus en plus importants. Les chercheurs d'OpenAI, en supposant que plus de données rendaient le modèle plus précis, ont repoussé les limites de ce que le programme pouvait ingérer. Avec GPT-2, ils ont abandonné le BookCorpus au profit d'un jeu de données interne, composé de huit millions de pages Web extraites des liens sortants de Reddit, pour un total de 40 Go de données.

L'entraînement de GPT-3 est encore plus gigantesque, avec le populaire ensemble de données CommonCrawl comprenant les pages Web de 2016 à 2019. Il s'agit nominalement de 45 To de données textuelles compressées, bien qu'OpenAI l'ait soigneusement sélectionné pour supprimer les doublons et améliorer la qualité. La version finale représente 570 Go de données. OpenAI l'a également complété avec plusieurs ensembles de données supplémentaires de différentes natures, y compris des données de livres.

COMMENT GPT-3 DÉPEND DE LA PUISSANCE DE CALCUL ?

Avec l'arrivée de GPT-1, 2 et 3, l'échelle de calcul est devenue un ingrédient essentiel pour le progrès. Les modèles utilisent de plus en plus de puissance informatique lorsqu'ils sont en cours d'entraînement pour obtenir de meilleurs résultats.

Ce qui optimise un réseau neuronal pendant l'entraînement est l'ajustement de ses poids. Les poids, également appelés paramètres, sont des matrices, des tableaux de lignes et de colonnes par lesquels chaque vecteur est multiplié. Par la multiplication, les nombreux vecteurs de mots, ou fragments de mots, se voient attribuer un poids plus élevé ou plus faible dans la sortie finale lorsque le réseau neuronal est ajusté pour réduire l'écart d'erreur.

OpenAI a constaté que pour bien performer sur leurs ensembles de données de plus en plus volumineux, ils devaient ajouter de plus en plus de poids.

Le Transformer original de Google comptait 110 millions de poids. GPT-1 a suivi ce design. Avec GPT-2, ce nombre a été augmenté à 1,5 milliard de poids. Avec GPT-3, le nombre de paramètres a explosé à 175 milliards, faisant de GPT-3 le plus grand réseau neuronal jamais vu dans le monde.

La multiplication est une chose simple, mais lorsque 175 milliards de poids doivent être multipliés par chaque bit de données d'entrée, à travers des milliards d'octets de données, cela devient un exercice incroyable de traitement informatique parallèle.

openai-compute-used-in-training-gpt-3-versus-others.jpg

Already with GPT-1, in 2018, OpenAI was pushing at the boundaries of practical computing. Bulking up on data meant bulking up on GPUs. Prior language models had fit within a single GPU because the models themselves were small. GPT-1 took a month to train on eight GPUs operating in parallel.

Avec GPT-3, OpenAI a été un peu discret. Il n'a pas décrit précisément la configuration informatique exacte utilisée pour l'entraînement, si ce n'est qu'elle était basée sur un cluster de puces Nvidia V100 fonctionnant sur Microsoft Azure. La société a décrit le nombre total de cycles de calcul nécessaires, indiquant que cela équivaut à effectuer mille billions d'opérations en virgule flottante par seconde par jour pendant 3 640 jours.

L'assembleur d'ordinateurs et opérateur de cloud Lambda Computing a estimé qu'il faudrait à un seul GPU 355 ans pour effectuer autant de calculs, ce qui, au prix standard d'une instance GPU dans le cloud, coûterait 4,6 millions de dollars. Et puis il y a la mémoire. Pour stocker toutes les valeurs de poids, il faut de plus en plus de mémoire à mesure que le nombre de paramètres augmente. Les 175 milliards de paramètres de GPT-3 nécessitent 700 Go, soit 10 fois plus que la mémoire d'un seul GPU.

C'est ce genre de besoins en énergie énormes qui propulse le domaine des puces informatiques. Cela a fait grimper le cours de l'action de Nvidia, le principal fournisseur de GPU pour l'apprentissage de l'IA, de près de 5 000 % au cours des dix dernières années. Cela a donné naissance à un ensemble de start-up soutenues par des centaines de millions de dollars de financement en capital-risque, notamment Cerebras Systems, Graphcore et Tachyum. La concurrence continuera de prospérer tant que la construction de modèles de plus en plus grands restera la trajectoire du domaine.

OpenAI a produit ses propres recherches sur la puissance informatique croissante nécessaire. La société a noté dès 2018 que les cycles de calcul consommés par les plus grands modèles d'entraînement en IA doublaient tous les 3,4 mois depuis 2012, ce qui représente un taux d'expansion plus rapide que celui de la célèbre loi de Moore sur la croissance des transistors des puces. (Notez bien que la société a également produit des recherches montrant que, sur une base unitaire, les modèles de plus en plus grands se révèlent plus efficaces que les réseaux neuronaux antérieurs qui effectuaient le même travail.)

Déjà, des modèles sont en cours de développement qui utilisent plus d'un billion de paramètres, selon les informations fournies par des entreprises impliquées dans des projets d'IA top-secrets. Ce n'est probablement pas la limite, tant que les entreprises d'envergure hyper-scalables telles que Google sont prêtes à consacrer leurs vastes centres de données à des modèles de plus en plus grands. La plupart des chercheurs en IA conviennent que le fait de devenir de plus en plus grand sera la norme pour les modèles d'apprentissage automatique pendant encore un certain temps.

"En ce qui concerne l'impact sur l'IA en tant que domaine, la partie la plus excitante de GPT-3 est qu'elle montre que nous ne sommes pas du tout proches des limites de la mise à l'échelle de l'IA", a déclaré Kenny Daniel, CTO du fournisseur d'outils de gestion de l'IA Algorithmia, à ZDNet.

Outre la stimulation de l'utilisation du calcul, l'autre grand impact de GPT-3 sera clairement la manière dont il accélère la programmation et le développement d'applications en général. La démonstration de Shameem d'un programme JSX construit en tapant simplement une phrase n'est que la partie visible de l'iceberg.

QUELS SONT LES LIMITES DE GPT-3 ?

Malgré une amélioration considérable par rapport à la version précédente, GPT-3 présente de nombreuses limitations, comme le soulignent les auteurs eux-mêmes. "Bien que dans l'ensemble la qualité soit élevée, les échantillons de GPT-3 se répètent parfois sémantiquement au niveau du document, perdent de la cohérence sur des passages suffisamment longs", indiquent-ils dans l'article publié.

Le programme échoue également à bien se comporter sur un certain nombre de tests individuels. "Plus précisément, GPT-3 éprouve des difficultés avec des questions du type 'Si je mets du fromage dans le réfrigérateur, va-t-il fondre?' écrivent les auteurs, décrivant le type de choses de bon sens qui échappent à GPT-3.

Il y avait tellement d'excitation peu de temps après la sortie de GPT-3 que le PDG de l'entreprise, Sam Altman, a publiquement demandé aux gens de modérer leur enthousiasme.

"La hype autour du GPT-3 est bien trop importante", a tweeté Altman le 19 juillet. "C'est impressionnant (merci pour les compliments sympas !) mais il a encore de sérieuses faiblesses et fait parfois des erreurs très bêtes", a-t-il écrit. "L'IA va changer le monde, mais le GPT-3 n'est qu'un simple aperçu très précoce. Nous avons encore beaucoup à comprendre."

L'hype autour de GPT-3 est beaucoup trop grand. C'est impressionnant (merci pour les compliments agréables !) mais cela présente encore de sérieuses faiblesses et parfois fait des erreurs très stupides. L'IA va changer le monde, mais GPT-3 n'est qu'un simple aperçu précoce. Il nous reste encore beaucoup de choses à comprendre.

— Sam Altman (@sama) 19 juillet 2020

D'autres personnes extérieures à OpenAI ont donné leur propre réalité. Un utilisateur expérimenté de plusieurs générations de GPT, Max Woolf, a écrit sur son blog personnel que GPT-3 est meilleur que ce qui précède, mais seulement en moyenne. Il existe un spectre de qualité du texte généré, de sorte que certains exemples rencontrés semblent remarquables, tandis que d'autres ne sont pas très bons du tout. Woolf compare GPT-3 à Siri d'Apple, qui a la fâcheuse habitude de produire des déchets à de nombreuses occasions. (L'essai de Woolf mérite d'être lu dans son intégralité pour une dissection réfléchie de GPT-3.)

En effet, à mesure que l'on lit de plus en plus d'exemples de GPT-3, en particulier de longs passages de texte, l'enthousiasme initial est susceptible de s'estomper. Sur de longues étendues, GPT-3 a tendance à perdre le fil, comme on dit. Peu importe le genre ou la tâche, sa production textuelle devient de plus en plus alambiquée et fastidieuse, avec des incohérences internes dans le récit.

Certains programmeurs, malgré leur enthousiasme, ont répertorié les nombreuses lacunes, des choses comme les tentatives ratées de GPT-3 pour faire des blagues de papa. En donnant le setup de la blague de papa en entrée, "Qu'est-ce que dit une assiette à l'autre?", la réponse appropriée de la blague de papa est "Dîner gratuit pour tout le monde!" Mais GPT-3 pourrait répondre à la place avec le non-humoristique "Trempe-moi!"

Réponse humaine : Q. Que dit une assiette à une autre assiette ?

GPT-3-généré achèvement : A. Trempez-moi !

Alors que GPT-3 peut répondre à des questions supposées de bon sens, telles que le nombre d'yeux qu'a une girafe, il ne peut pas détourner une question absurde et se laisse entraîner à donner une réponse absurde. Posez-lui la question "Combien d'yeux mon pied a-t-il ?", il répondra fidèlement : "Mon pied a deux yeux."

Une façon de considérer toute cette médiocrité est que l'obtention de bons résultats de GPT-3 nécessite dans une certaine mesure un investissement dans la création de requêtes efficaces. Certaines requêtes conçues par des humains inciteront le programme à obtenir de meilleurs résultats que d'autres requêtes. C'est une nouvelle version de l'adage "des entrées médiocres, des sorties médiocres". Les requêtes semblent devenir un nouveau domaine de programmation à part entière, nécessitant à la fois du savoir-faire et de l'ingéniosité.

Le biais est une considération importante, non seulement avec GPT-3 mais avec tous les programmes qui reposent sur une distribution conditionnelle. L'approche sous-jacente du programme est de renvoyer exactement ce qui lui est donné, comme un miroir. Cela a le potentiel de reproduire les biais présents dans les données. Une discussion académique sur des biais importants dans GPT-2 a déjà eu lieu.

Avec GPT-3, la scientifique en IA chez Nvidia, Anima Anandkumar, a sonné l'alarme sur la tendance à produire des résultats biaisés, y compris des résultats racistes et sexistes.

Je suis troublé de voir cela diffusé sans rendre des comptes sur le biais. Entraîné sur le corpus de @reddit avec énormément de #racisme et de #sexisme. J'ai travaillé avec ces modèles et le texte qu'ils produisent est choquamment biaisé. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— Prof. Anima Anandkumar (@AnimaAnandkumar) 11 juin 2020

Interrogé à propos de la critique d'Anandkumar, OpenAI a déclaré à ZDNet : "Comme pour tous les modèles génératifs de plus en plus puissants, l'équité et les abus nous préoccupent."

"C'est l'une des raisons pour lesquelles nous partageons cette technologie via une API et que nous la lançons en version bêta privée pour commencer", a déclaré OpenAI à ZDNet. L'entreprise précise qu'elle "ne soutiendra pas les cas d'utilisation que nous jugeons causer des dommages physiques ou mentaux aux personnes, y compris, mais sans s'y limiter, le harcèlement, la tromperie intentionnelle, la radicalisation, l'astroturfing ou le spam".

OpenAI a déclaré à ZDNet qu'elle utilise un type familier de "jeu de guerre" à chapeau blanc et chapeau noir pour détecter les dangers du programme :

Nous avons déployé ce que nous appelons une « équipe rouge » dont la tâche est de continuellement briser le système de filtration de contenu afin que nous puissions en apprendre davantage sur la manière et la raison pour lesquelles le modèle retourne de mauvaises sorties. Son homologue est l'"équipe bleue", dont la tâche est de mesurer et de réduire les biais.

Un autre gros problème est la nature très large et la plus basse dénominateur commun de GPT-3, le fait qu'il renforce uniquement la partie la plus large d'une courbe de probabilité conditionnelle. Il existe ce qu'on appelle la longue traîne, et parfois une graisse queue, d'une distribution de probabilité. Ce sont des instances moins courantes qui peuvent constituer les exemples les plus innovants d'utilisation du langage. Se concentrer sur la reproduction du texte le plus prévalent dans une société risque de chasser la créativité et l'exploration.

Pour l'instant, la réponse d'OpenAI à ce problème est un paramètre que l'on peut ajuster dans GPT-3 appelé "valeur de température". En jouant avec ce réglage, on peut ajuster GPT-3 pour sélectionner des combinaisons de mots moins probables et ainsi produire un texte peut-être plus inhabituel.

Une autre préoccupation majeure pour une entreprise est qu'il est impossible de paramétrer GPT-3 avec des données spécifiques à l'entreprise. Sans pouvoir faire aucun réglage, il est difficile de spécialiser GPT-3 pour un domaine industriel, par exemple. Il se pourrait que toute entreprise utilisant le service API se retrouve avec du texte qu'il faudra retravailler davantage pour le rendre applicable à un domaine spécifique. Peut-être que des start-ups telles que Sapling formeront un écosystème, l'équivalent de fournisseurs de solutions, qui résoudront ce problème. Peut-être, mais il reste encore à voir.

Si cela ne suffisait pas à susciter des inquiétudes, il y a un autre problème qui est que, en tant que service cloud, GPT-3 est une boîte noire. Cela signifie que les entreprises qui utiliseraient le service n'ont aucune idée de la manière dont il parvient à son résultat - une perspective particulièrement risquée lorsqu'on envisage des questions de partialité. Un écosystème de parties telles que Sapling, qui améliorent GPT-3, pourrait ajouter d'autres niveaux d'opacité tout en améliorant le service.

En tant que sous-section du problème de la boîte noire, GPT-3 peut parfois simplement mémoriser ce qu'il a absorbé sur le web. Cela soulève des problèmes de droits d'auteur. Si une entreprise utilise la sortie du service API qui est un matériel protégé par des droits d'auteur, cette entreprise pourrait enfreindre les droits d'auteur d'une autre entité. Interrogé sur les droits d'auteur, OpenAI a déclaré à ZDNet que les droits d'auteur du texte généré par GPT-3 "appartiennent à l'utilisateur, et non à OpenAI." Ce que cela signifie concrètement reste à voir.

Pour le moment, le plus gros problème pratique est l'échelle requise pour former et exécuter GPT-3. OpenAI le reconnaît également dans le rapport officiel. Les auteurs écrivent que des travaux doivent être effectués pour calculer comment le coût des grands modèles est amorti dans le temps en fonction de la valeur de la production finale.

Aussi : Non, cette IA ne peut pas terminer votre phrase

GPT-3 APPREND-IL VRAIMENT ?

En utilisant le sens étroit du mot, GPT-3 apprend dans le sens où ses poids de paramètre sont automatiquement ajustés via l'ingestion des données d'entraînement afin que le modèle de langage devienne meilleur que ce que sa programmation explicite seule permettrait. Dans ce sens, GPT-3 constitue une avancée dans la quête de plusieurs décennies visant à permettre à un ordinateur d'apprendre une fonction permettant de transformer des données sans qu'un être humain encode explicitement cette fonction.

Cela dit, on peut se demander si la machine est réellement intelligente ou si elle apprend réellement. Il y a de nombreuses façons de débattre de cette question, mais une réflexion occasionnelle suggère que bon nombre de ce que nous pourrions appeler la pensée humaine ne se produit pas ici.

Considérez si vous pouviez garder en mémoire un score numérique représentant combien de mots sont susceptibles d'apparaître les uns à la suite des autres. Diriez-vous que votre capacité à former des phrases, des phrases, des paragraphes et des passages entiers de texte était réfléchie ? Vous diriez probablement que c'était simplement statistique, et que quelque chose d'autre manquait.

Des comparaisons ont été faites entre l'apprentissage profond et le célèbre Clever Hans, un cheval allemand dont le maître le présentait en public comme un animal capable de faire des calculs avec ses sabots. Il a été découvert plus tard que Hans répondait à des signaux corporels de son maître pour frapper du sabot, et qu'en l'absence de ces signaux, il était incapable de performer.

De même, la qualité humaine de GPT-3 s'effrite lorsqu'on l'examine de plus près. Quand GPT-3 répond correctement à une question vrai-faux sur un essai sur l'immobilier à New York, ce n'est pas parce que le programme connaît l'immobilier ou New York. Il a stocké la distribution de probabilité qui capture les affirmations dans les textes et le format d'une paire déclaration-question, et il peut les reproduire en sortie.

Hans ne savait rien en arithmétique, cependant, pour la défense de Hans, il avait néanmoins de l'intelligence. Dans le cas des réseaux neuronaux, les critiques diront qu'il y a seulement des astuces, sans aucun bon sens.

Pourtant, intelligence et apprentissage peuvent signifier beaucoup de choses, et les critères ont changé au fil des ans pour ce qui est censé être l'intelligence artificielle, comme l'a souligné Pamela McCorduck, une historienne de ce domaine. Certains pourraient soutenir qu'un programme capable de calculer des probabilités à partir d'assemblages étendus de texte pourrait être une forme d'intelligence différente, peut-être une intelligence extraterrestre différente de la nôtre. Le rejeter semble prématuré.

De plus, les réseaux neuronaux qui engendrent ces probabilités conditionnelles sont plus que de simples programmes statistiques. Leurs calculs sont la propriété émergente de multiples opérations mathématiques simultanées qui se produisent en parallèle, à savoir l'ajustement des poids des paramètres. S'il est possible de considérer d'autres formes d'intelligence, alors une propriété émergente telle que les représentations distribuées qui prennent forme à l'intérieur des réseaux neuronaux peuvent être un endroit où chercher.

QUEL EST L'AVENIR DE GPT-3 ?

Une chose semble certaine : GPT-3 a ouvert un nouveau chapitre dans l'apprentissage automatique. Sa caractéristique la plus frappante est sa généralité. Il y a seulement quelques années, les réseaux neuronaux étaient construits avec des fonctions ajustées à une tâche spécifique, comme la traduction ou la réponse aux questions. Les ensembles de données étaient sélectionnés pour refléter cette tâche. Au contraire, GPT-3 n'a pas de fonctions spécifiques à une tâche et il n'a besoin d'aucun ensemble de données spécifique. Il engloutit simplement autant de texte que possible, peu importe la source, et le reflète dans sa production.

De quelque manière, dans le calcul de la distribution de probabilité conditionnelle à travers tous ces gigaoctets de texte, émerge une fonction qui peut produire des réponses compétitives sur un nombre illimité de tâches. C'est un triomphe époustouflant de simplicité qui a probablement de nombreuses années de réalisations devant lui.

Même cette généralité, cependant, peut atteindre ses limites. Déjà, les auteurs de GPT-3 notent à la fin de leur article que la direction de pré-entraînement pourrait éventuellement s'épuiser. "Une limite plus fondamentale de l'approche générale décrite dans cet article [...] est qu'elle pourrait finir par atteindre (ou pourrait déjà atteindre) les limites de l'objectif de pré-entraînement."

Les auteurs suggèrent que de nouvelles orientations prometteuses pourraient inclure "apprendre la fonction objectif à partir des humains" et mélanger d'autres types d'apprentissage profond, tels que l'approche de "l'apprentissage par renforcement" utilisée dans AlphaZero de DeepMind pour gagner aux échecs et au go. (Ils ont déjà commencé à mettre en œuvre de telles approches. Début septembre, les auteurs d'OpenAI ont montré qu'ils pouvaient utiliser l'apprentissage par renforcement pour entraîner GPT-3 à produire de meilleures synthèses d'articles en donnant au modèle de langage un retour humain sur lesquelles des synthèses semblent meilleures.)

Une autre chose qu'ils suggèrent est d'ajouter d'autres types de données, comme des images, pour compléter "le modèle du monde" du programme.

En effet, les années à venir verront probablement cette approche très générale se répandre à d'autres modalités que le texte, comme les images et les vidéos. Imaginez un programme comme GPT-3 qui peut traduire les images en mots et vice versa sans aucun algorithme spécifique pour modéliser la relation entre les deux. Il pourrait, par exemple, « apprendre » des descriptions de scènes textuelles à partir de photos ou prédire les séquences physiques d'événements à partir de descriptions textuelles.

Le directeur de l'IA de Facebook, Yann LeCun, soutient que l'apprentissage non supervisé sous différentes formes est l'avenir de l'apprentissage profond. Si cela est vrai, l'approche de pré-entrainement appliquée à plusieurs modalités de données, de la voix au texte en passant par les images et la vidéo, peut être considérée comme une direction très prometteuse du mouvement non supervisé.

Qu'est-ce que GPT-3 ? Tout ce que votre entreprise doit savoir sur le programme de langue IA révolutionnaire d'OpenAI