OpenAI GPT-4 Arrive mi-mars 2023

gpt-4-640b66db8c60d-sej-1520x800.jpg

Le directeur technique de Microsoft Germany, Andreas Braun, a confirmé que GPT-4 sera disponible d'ici une semaine à partir du 9 mars 2023 et qu'il sera multimodal. L'intelligence artificielle multimodale signifie qu'elle pourra fonctionner avec différents types d'entrées, tels que la vidéo, les images et le son.

Mis à jour : GPT-4 publié le 14 mars 2023

OpenAI a publié GPT-4 le 14 mars 2023. C'est un modèle multimodal qui accepte des instructions à la fois sous forme d'images et de texte.

Modalité est une expression utilisée en apprentissage automatique pour désigner des formes d'entrée comme le texte mais aussi les sens comme le son, le visuel, l'odorat, etc.

L'annonce d'OpenAI décrivait l'ampleur des progrès accomplis par le GPT-4 :

« ... alors qu'il est moins performant que les humains dans de nombreux scénarios réels, il atteint des performances de niveau humain sur diverses références professionnelles et académiques.

Par exemple, il réussit un examen de barreau simulé avec un score se situant autour des 10 % des meilleurs candidats ; en revanche, le score de GPT-3.5 était parmi les 10 % les plus bas.

Nous avons passé 6 mois à ajuster de manière itérative GPT-4 en utilisant les enseignements de notre programme de test contradictoire ainsi que de ChatGPT, ce qui a donné nos meilleurs résultats à ce jour (bien qu'encore loin d'être parfaits) en termes de factualité, de manoeuvrabilité et de refus de s'écarter des limites.

Modèles de langage multimodaux de grande taille

Le point essentiel de l'annonce est que GPT-4 est multimodal (SEJ avait prédit que GPT-4 est multimodal en janvier 2023).

Modalité est une référence au type d'entrée avec lequel (dans ce cas) un grand modèle de langage travaille.

Multimodal peut englober du texte, de la parole, des images et des vidéos.

GPT-3 et GPT-3.5 fonctionnaient uniquement dans une seule modalité, le texte.

According to the German news report, GPT-4 pourrait être capable de fonctionner dans au moins quatre modalités : images, son (auditif), texte et vidéo.

Dr. Andreas Braun, CTO Microsoft Germany is quoted:

« Nous présenterons GPT-4 la semaine prochaine, et nous aurons des modèles multimodaux qui offriront des possibilités totalement différentes - comme par exemple des vidéos... »

Les informations fournies étaient trop générales pour GPT-4, il n'est donc pas clair si ce qui a été communiqué à propos de la multimodalité était spécifique à GPT-4 ou simplement général.

Le directeur de la stratégie commerciale de Microsoft, Holger Kenn, a expliqué les multimodalités mais le rapport n'était pas clair quant à savoir s'il faisait référence à la multimodalité du GPT-4 ou à la multimodalité en général.

Je crois que ses références à la multimodalité étaient spécifiques à GPT-4.

Le rapport d'actualités partagé :

"Kenn a expliqué ce qu'est l'IA multimodale, qui peut traduire le texte non seulement en images correspondantes, mais aussi en musique et en vidéo."

Un autre fait intéressant est que Microsoft travaille sur des "métriques de confiance" afin d'ancrer leur IA avec des faits pour la rendre plus fiable.

Microsoft Kosmos-1

Quelque chose qui a apparemment été peu mentionné aux États-Unis est que Microsoft a publié un modèle de langage multimodal appelé Kosmos-1 début mars 2023.

Conformément aux informations du site d'actualités allemand, Heise.de :

« ... l'équipe a soumis le modèle pré-entraîné à divers tests, obtenant de bons résultats dans la classification d'images, la réponse à des questions sur le contenu de l'image, l'étiquetage automatisé d'images, la reconnaissance de texte optique et la génération de voix.

…Raisonnement visuel, c'est-à-dire tirer des conclusions sur des images sans utiliser le langage comme étape intermédiaire, semble être la clé ici…

Kosmos-1 est un modal multimodal qui intègre les modalités de texte et d'images.

GPT-4 va plus loin que Kosmos-1 car il ajoute une troisième modalité, la vidéo, et semble également inclure la modalité du son.

Marche dans plusieurs langues

GPT-4 semble fonctionner dans toutes les langues. Il est décrit comme étant capable de recevoir une question en allemand et de répondre en italien.

C'est un exemple assez étrange, car qui poserait une question en allemand et voudrait recevoir une réponse en italien ?

Voici ce qui a été confirmé :

“... la technologie a tellement évolué qu'elle fonctionne pratiquement “dans toutes les langues” : Vous pouvez poser une question en allemand et obtenir une réponse en italien.

Avec la multimodalité, Microsoft(-OpenAI) va ‘rendre les modèles complets’.”

Je pense que le point de la percée est que le modèle dépasse la barrière de la langue avec sa capacité à extraire des connaissances à travers différentes langues. Donc, si la réponse est en italien, il le saura et pourra fournir la réponse dans la langue dans laquelle la question a été posée.

Cela le rendrait similaire à l'objectif de l'IA multimodale de Google appelée MUM. On dit que MUM est capable de fournir des réponses en anglais pour lesquelles les données n'existent que dans une autre langue, comme le japonais.

Applications de GPT-4

Il n'y a pas d'annonce actuelle concernant l'endroit où GPT-4 apparaîtra. Mais Azure-OpenAI a été spécifiquement mentionné.

Google peine à rattraper Microsoft en intégrant une technologie concurrente dans son propre moteur de recherche. Ce développement aggrave encore la perception selon laquelle Google est à la traîne et manque de leadership dans l'IA orientée vers le grand public.

Google intègre déjà l'IA dans de nombreux produits tels que Google Lens, Google Maps et d'autres domaines avec lesquels les consommateurs interagissent. Cette approche consiste à utiliser l'IA comme une technologie d'assistance, pour aider les personnes dans de petites tâches.

La façon dont Microsoft le met en œuvre est plus visible et, par conséquent, elle capte toute l'attention et renforce l'image de Google comme étant en difficulté et essayant de rattraper son retard.

Lisez ici l'annonce officielle de la sortie d'OpenAI GPT-4.

Lisez le rapport original en allemand ici :

GPT-4 arrive la semaine prochaine - et il sera multimodal, déclare Microsoft Allemagne

Articles connexes

Voir Plus >>

Libérez la puissance de l'IA avec HIX.AI !