Cette nouvelle technologie pourrait surclasser GPT-4 et tout ce qui lui ressemble

Pour tout l'engouement autour du programme d'IA de chatbot connu sous le nom de ChatGPT, d'OpenAI, et de sa technologie successeur, GPT-4, les programmes sont, en fin de compte, simplement des applications logicielles. Et comme toutes les applications, ils ont des limitations techniques qui peuvent rendre leurs performances sub-optimales.

Dans un article publié en mars, des scientifiques en intelligence artificielle (IA) de l'Université Stanford et de l'institut MILA pour l'IA au Canada ont proposé une technologie qui pourrait être bien plus efficace que le GPT-4, ou tout autre système similaire, pour ingérer d'énormes quantités de données et les convertir en une réponse.

Aussi : Ces anciens employés d'Apple veulent remplacer les smartphones avec ce gadget

Connue sous le nom de Hyena, cette technologie est capable d'atteindre une précision équivalente lors de tests de référence, tels que la réponse aux questions, tout en utilisant une fraction de la puissance de calcul. Dans certains cas, le code Hyena est capable de gérer des quantités de texte qui font tout simplement épuiser la mémoire et échouer la technologie de type GPT.

"Nos résultats prometteurs à l'échelle des sous-milliards de paramètres suggèrent que l'attention n'est peut-être pas tout ce dont nous avons besoin," écrivent les auteurs. Cette remarque fait référence au titre d'un rapport AI de référence de 2017, 'Attention is all you need'. Dans cet article, le scientifique de Google Ashish Vaswani et ses collègues ont présenté au monde le programme d'IA Transformer de Google. Le Transformer est devenu la base de tous les modèles de langue récents de grande taille.

Mais le Transformer a un gros défaut. Il utilise quelque chose appelé "attention", où le programme informatique prend les informations d'un groupe de symboles, comme des mots, et déplace ces informations vers un nouveau groupe de symboles, comme la réponse que vous voyez de ChatGPT, qui est la sortie.

De plus:Qu'est-ce que GPT-4 ? Voici tout ce que vous devez savoir

Cette opération d'attention - l'outil essentiel de tous les grands programmes linguistiques, y compris ChatGPT et GPT-4 - a une complexité de calcul "quadratique" (Voir la page "complexité temporelle" sur Wikipedia). Cette complexité signifie que le temps nécessaire à ChatGPT pour produire une réponse augmente de manière quadratique par rapport à la quantité de données qui lui sont fournies en entrée.

À un moment donné, s'il y a trop de données - trop de mots dans la requête, ou trop de conversations enchaînées pendant des heures de discussion avec le programme - soit le programme se bloque en fournissant une réponse, soit il faut lui donner de plus en plus de puces GPU pour qu'il fonctionne de plus en plus rapidement, ce qui entraîne une augmentation des besoins en termes de calcul.

Dans le nouvel article intitulé "Hyena Hierarchy: Towards Larger Convolutional Language Models", publié sur le serveur de pré-impression arXiv, l'auteur principal Michael Poli de Stanford et ses collègues proposent de remplacer la fonction d'attention du Transformer par quelque chose de sous-quadratique, à savoir Hyena.

Aussi:Qu'est-ce que l'Auto-GPT ? Tout ce qu'il faut savoir sur le prochain outil AI puissant

Les auteurs n'expliquent pas le nom, mais on peut imaginer plusieurs raisons pour un programme "Hyena". Les hyènes sont des animaux vivant en Afrique qui peuvent chasser sur des kilomètres et des kilomètres. En un sens, un modèle de langage très puissant pourrait être comme une hyène, chassant sur des kilomètres et des kilomètres pour trouver de la nourriture.

Mais les auteurs sont vraiment préoccupés par la "hiérarchie", comme le suggère le titre, et les familles de hyènes ont une hiérarchie stricte selon laquelle les membres d'un clan local de hyènes ont différents niveaux de rang qui établissent la dominance. D'une manière analogue, le programme Hyena applique une série d'opérations très simples, comme vous le verrez, encore et encore, de sorte qu'elles se combinent pour former une sorte de hiérarchie de traitement des données. C'est cet élément combinatoire qui donne au programme son nom Hyena.

Aussi :Les versions futures de ChatGPT pourraient remplacer la majorité du travail effectué par les gens aujourd'hui, selon Ben Goertzel

Les auteurs contributeurs de l'article comprennent des personnalités éminentes du monde de l'IA, telles que Yoshua Bengio, le directeur scientifique de MILA, qui a reçu le Prix Turing 2019, l'équivalent du prix Nobel en informatique. Bengio est largement reconnu pour avoir développé le mécanisme d'attention bien avant que Vaswani et son équipe ne l'adaptent pour le Transformer.

Aussi parmi les auteurs se trouve Christopher Ré, professeur associé en informatique à l'Université Stanford, qui a contribué ces dernières années à faire avancer la notion d'IA en tant que "logiciel 2.0".

Pour trouver une alternative sous-quadratique à l'attention, Poli et son équipe ont entrepris d'étudier comment le mécanisme de l'attention réalise ce qu'il fait, pour voir si ce travail pourrait être fait de manière plus efficace.

Une pratique récente dans le domaine de l'intelligence artificielle, connue sous le nom d'interprétabilité mécaniste, permet de comprendre ce qui se passe au plus profond d'un réseau neuronal, à l'intérieur des "circuits" computationnels de l'attention. On peut la voir comme une façon de démonter un logiciel, comme on démonterait une horloge ou un PC, pour en examiner les parties et comprendre son fonctionnement.

Aussi:J'ai utilisé ChatGPT pour écrire la même routine dans 12 langages de programmation populaires. Voici comment ça s'est passé

Un travail cité par Poli et son équipe est un ensemble d'expériences réalisées par le chercheur Nelson Elhage de la start-up IA Anthropic. Ces expériences démontent les programmes Transformer afin de comprendre ce que l'attention fait.

Dans l'essence, ce que Elhage et son équipe ont découvert, c'est que l'attention fonctionne à son niveau le plus basique grâce à des opérations informatiques très simples, telles que copier un mot à partir d'une entrée récente et le coller dans la sortie.

Par exemple, si quelqu'un commence à taper une phrase tirée de Harry Potter à l'école des sorciers dans un grand programme de modèle linguistique tel que ChatGPT, comme "M. Dursley était le directeur d'une entreprise appelée Grunnings…", il suffit de taper "D-u-r-s", le début du nom, pour que le programme propose automatiquement le nom "Dursley" car il a déjà vu le nom dans une phrase antérieure de Harry Potter à l'école des sorciers. Le système est capable de copier à partir de sa mémoire l'enregistrement des caractères "l-e-y" pour compléter la phrase.

Aussi :ChatGPT est plus comme une 'intelligence extraterrestre' qu'un cerveau humain, affirme le futuriste

Cependant, l'opération d'attention se heurte au problème de la complexité quadratique à mesure que le nombre de mots augmente. Plus il y a de mots, plus il faut de "poids" ou de paramètres, pour exécuter l'opération d'attention.

Comme le disent les auteurs: "Le bloc Transformer est un outil puissant pour la modélisation de séquences, mais il n'est pas sans limites. L'une des plus remarquables est le coût de calcul, qui augmente rapidement à mesure que la longueur de la séquence d'entrée augmente."

Même si les détails techniques de ChatGPT et de GPT-4 n'ont pas été divulgués par OpenAI, on estime qu'ils pourraient comporter un trillion ou plus de tels paramètres. L'exécution de ces paramètres nécessite davantage de puces GPU de Nvidia, ce qui fait augmenter le coût de calcul.

Pour réduire ce coût de calcul quadratique, Poli et son équipe remplacent l'opération d'attention par ce qu'on appelle une "convolution", qui est l'une des opérations les plus anciennes dans les programmes d'IA, développée dans les années 1980. Une convolution est simplement un filtre qui peut sélectionner des éléments dans les données, que ce soit les pixels d'une photo numérique ou les mots d'une phrase.

Aussi :Le succès de ChatGPT pourrait pousser à un virage préjudiciable vers la confidentialité en matière d'IA, affirme l'un des pionniers de l'IA, Bengio

Poli et son équipe font une sorte de mélange : ils prennent le travail réalisé par le chercheur de Stanford, Daniel Y. Fu et son équipe, pour appliquer des filtres de convolution aux séquences de mots, et ils combinent cela avec le travail de l'érudit David Romero et de ses collègues de la Vrije Universiteit Amsterdam, qui permet au programme de modifier la taille des filtres à la volée. Cette capacité à s'adapter de manière flexible réduit le nombre de paramètres coûteux, ou poids, que le programme doit avoir.

Le résultat du mash-up est qu'une convolution peut être appliquée à une quantité illimitée de texte sans nécessiter de plus en plus de paramètres afin de copier de plus en plus de données. C'est une approche "sans attention", comme le disent les auteurs.

"Les opérateurs hyènes sont capables de réduire considérablement l'écart de qualité avec l'attention à grande échelle", écrivent Poli et son équipe, "atteignant une perplexité similaire et des performances en aval avec un budget computationnel plus réduit." La perplexité est un terme technique qui fait référence à la sophistication de la réponse générée par un programme tel que ChatGPT.

Pour démontrer les capacités de Hyena, les auteurs testent le programme avec une série de benchmarks qui déterminent à quel point un programme de langage est bon dans une variété de tâches d'IA.

Aussi: 'Des choses étranges se passent dans le domaine des logiciels', déclare Chris Ré, professeur d'IA à Stanford

Un test est The Pile, une collection de textes de 825 gigaoctets rassemblée en 2020 par Eleuther.ai, un groupe de recherche en intelligence artificielle à but non lucratif. Les textes sont collectés à partir de sources "de qualité" telles que PubMed, arXiv, GitHub, le bureau des brevets des États-Unis et d'autres, de sorte que les sources aient une forme plus rigoureuse que de simples discussions sur Reddit, par exemple.

Le défi clé du programme était de produire le mot suivant lorsqu'un ensemble de nouvelles phrases lui était donné en entrée. Le programme Hyena a réussi à obtenir un score équivalent à celui du programme GPT original d'OpenAI de 2018, avec 20% d'opérations informatiques en moins -- "la première architecture de convolution sans attention capable de rivaliser avec la qualité de GPT" avec moins d'opérations, font remarquer les chercheurs.

Ensuite, les auteurs ont testé le programme sur des tâches d'analyse logique connues sous le nom de SuperGLUE, introduites en 2019 par des chercheurs de l'Université de New York, de Facebook AI Research, de l'unité DeepMind de Google et de l'Université de Washington.

Par exemple, lorsqu'on lui donne la phrase "Mon corps projetait une ombre sur l'herbe", et deux alternatives de cause, "le soleil se levait" ou "l'herbe était coupée", et lui demande de choisir l'une ou l'autre, le programme devrait générer "le soleil se levait" comme sortie appropriée.

Dans de nombreuses tâches, le programme Hyena a obtenu des scores équivalents ou proches de ceux d'une version de GPT tout en étant entraîné avec moins de la moitié des données d'entraînement.

Aussi : Comment utiliser le nouveau Bing (et comment il diffère de ChatGPT)

Encore plus intéressant est ce qui s'est passé lorsque les auteurs ont augmenté la longueur des phrases utilisées en entrée : plus de mots équivalaient à une meilleure amélioration des performances. Avec 2 048 "tokens", que vous pouvez considérer comme des mots, Hyena met moins de temps à accomplir une tâche linguistique que l'approche par attention.

À 64 000 jetons, les auteurs déclarent : "Les accélérations de la vaguelette atteignent 100x" - une amélioration des performances multipliée par cent.

Poli et son équipe soutiennent qu'ils n'ont pas simplement essayé une approche différente avec Hyena, ils ont "brisé la barrière quadratique", entraînant un changement qualitatif dans la difficulté pour un programme de calculer des résultats.

Ils suggèrent qu'il existe également des changements potentiellement significatifs en termes de qualité plus loin dans le processus : "Briser la barrière quadratique est une étape clé vers de nouvelles possibilités pour l'apprentissage profond, telles que l'utilisation de manuels entiers comme contexte, la génération de musiques longues ou le traitement d'images à l'échelle gigapixel", écrivent-ils.

La capacité de l'Hyène à utiliser un filtre qui s'étend de manière plus efficace sur des milliers et des milliers de mots, écrivent les auteurs, signifie qu'il ne peut pratiquement y avoir aucune limite au "contexte" d'une requête à un programme de langage. Cela pourrait, en effet, rappeler des éléments de textes ou de conversations précédentes bien éloignées du fil de la conversation actuelle - tout comme les hyènes chassant sur des kilomètres.

Aussi: Les meilleurs chatbots d'IA : ChatGPT et autres alternatives amusantes à essayer

"Les opérateurs hyènes ont un contexte illimité", écrivent-elles. "C'est-à-dire qu'ils ne sont pas artificiellement restreints par exemple à la localité, et peuvent apprendre des dépendances à long terme entre n'importe lequel des éléments de [input]."

De plus, en plus des mots, le programme peut être appliqué à des données de différentes modalités, telles que des images et peut-être des vidéos et des sons.

Il est important de noter que le programme Hyena montré dans le document est de petite taille par rapport à GPT-4 ou même GPT-3. Alors que GPT-3 possède 175 milliards de paramètres, ou poids, la plus grande version de Hyena ne compte que 1,3 milliard de paramètres. Il reste donc à voir comment Hyena se comportera dans une comparaison directe avec GPT-3 ou 4.

Mais, si l'efficacité obtenue se maintient pour des versions plus grandes du programme Hyena, cela pourrait constituer un nouveau paradigme aussi répandu que l'attention l'a été au cours de la dernière décennie.

Telle que le concluent Poli et son équipe : "Des conceptions plus simples et sous-quadratiques telles que Hyena, basées sur un ensemble de simples principes directeurs et évaluées sur des référentiels d'interprétabilité mécanistique, peuvent servir de base à des modèles volumineux et efficaces."

Cette nouvelle technologie pourrait balayer GPT-4 et tout ce qui lui ressemble

Articles connexes