La nouvelle version de GPT-4, GPT-4 Turbo, annonce des avancées remarquables par rapport à ses prédécesseurs, avec une amélioration notable dans des domaines tels que l’écriture, la résolution de problèmes mathématiques et logiques.
Performances remarquables de gpt-4 turbo
La toute dernière version du modèle GPT-4 Turbo, présentée lors de la conférence de novembre dernier d’OpenAI, a démontré des performances supérieures à ses prédécesseurs. Surpassant Claude 3 Opus ou les Gemini Ultra 1.0 et Gemini Pro 1.5, elle a révélé une amélioration manifeste dans des domaines divers et variés.
Par exemple, la version ChatGPT a obtenu un score impressionnant de 72,2% au benchmark MATH, en comparaison aux 63,2% et 58,5% respectifs de Claude 3 Opus et de Gemini Pro 1.5. Les scores s’élèvent également à 86,5% et 87,6% respectivement pour les tests MMLU et HumanEval, surpassant encore une fois les versions précédentes.
Réponses plus fluides et pertinentes avec ChatGPT
OpenAI a également souligné l’aptitude supérieure de ChatGPT, dans sa version payante, à offrir des réponses directes et moins verbeuses. On note également une utilisation plus conversationnelle du langage. D’ailleurs, la fenêtre contextuelle de GPT-4 Turbo est plus longue que celle de GPT-4, permettant ainsi de contenir plus de 300 pages de texte dans une seule invite. Une capacité d’autant plus impressionnante sachant que le LLM a été entraîné sur des données allant jusqu’à décembre 2023. Ses performances ont été optimisées pour offrir un service trois fois moins cher pour les jetons d’entrée et deux fois moins cher pour les jetons de sortie.
Un modèle optimisé pour la langue japonaise
OpenAI a également introduit un modèle GPT-4 optimisé pour le japonais, coïncidant avec l’ouverture de leur bureau à Tokyo. Cette version fonctionne jusqu’à trois fois plus rapidement que GPT-4 Turbo, apportant une performance améliorée pour le traitement du texte japonais.
Intégration de la vision dans les grands modèles de langage
OpenAI a introduit un nouveau développement nommé « GPT-4 Turbo with Vision », un grand modèle linguistique bénéficiant de capacités de vision. Il permet à l’utilisateur de télécharger des images pour que le modèle répond ensuite à des questions à leur sujet. Néanmoins, OpenAI précise que le modèle, bien qu’il reconnaisse le contenu des images et leur contexte, n’est pas encore optimal pour répondre à des questions spécifiques concernant la localisation d’objets spécifiques dans une image.
À noter que les images peuvent être transmises soit via un lien vers l’image, soit via une image encodée en base64 directement dans la requête. OpenAI recommande cependant de tenir compte des limites du modèle lors de son utilisation, notamment pour les utilisations qui nécessitent une compréhension visuelle.
Concurrence d’autres start-ups d’intelligence artificielle
OpenAI n’est pas le seul sur ce terrain. La start-up xAI, dirigée par le charismatique Elon Musk, a dévoilé son propre modèle multimodal, Grok-1.5V. En plus de ses capacités textuelles, Grok peut également traiter diverses informations visuelles, y compris des documents, diagrammes, graphiques, captures d’écran et photographies. Grok-1.5V, tout d’abord à la disposition des bêta-testeurs, devrait être déployé à tous les utilisateurs de Grok dans un futur proche.
Alors que le marathon de l’amélioration des capacités d’intelligence artificielle se poursuit, une question se pose : quelle sera la prochaine frontière dans le domaine des modèles linguistiques dotés de capacités visuelles ?