Encore un grand pas en avant ! OpenAI o1 est là. Comment résout-il des problèmes complexes ?

Encore un grand pas en avant ! OpenAI o1 est là. Comment résout-il des problèmes complexes ?

Produit par : Science Popularization China

Auteur : Wang Chen (doctorant à l'Institut de technologie informatique de l'Académie chinoise des sciences)

Producteur : China Science Expo

Note de l'éditeur : Afin de présenter les dernières tendances en matière de technologie intelligente, le projet de technologie de pointe de China Science Popularization a lancé une série d'articles sur « l'intelligence artificielle » pour donner un aperçu des progrès de pointe de l'intelligence artificielle et répondre à diverses préoccupations et curiosités. Explorons ensemble et embrassons l’ère intelligente.

Au cours des deux dernières années, ChatGPT d’OpenAI a explosé dans le monde entier. Alors que tout le monde attendait avec impatience la sortie de GPT-5, au petit matin du 13 septembre, OpenAI a publié OpenAI o1, un nouveau modèle de raisonnement dédié à la résolution de problèmes complexes.

(Source de l'image : site officiel d'OpenAI)

Quelle est la puissance d'OpenAI o1 dans le classement des compétitions

Plus tôt ce mois-ci, le PDG d’OpenAI, Sam Altman, a publié une photo de fraises poussant dans son jardin. Par la suite, selon des personnes proches du dossier, OpenAI publiera un nouveau modèle d'IA, nommé Strawberry.

Le prédécesseur du modèle Strawberry est Q*, ce qui implique qu'il combine deux méthodes d'intelligence artificielle bien connues : l'apprentissage Q et la recherche A*. On dit que les capacités trop puissantes de Q* ont amené les chercheurs à craindre qu'il ne représente une menace potentielle pour les humains, ce qui était l'une des principales raisons des troubles internes précédents au sein d'OpenAI.

Photo de fraises publiée par Sam Altman

(Source de l'image : compte X(twitter) de Sam Altman)

Le modèle OpenAI o1 publié par OpenAI est le modèle Strawberry. En raison de ses progrès importants dans les problèmes de raisonnement complexes, OpenAI a recommencé à compter à partir de 1 et a nommé le nouveau modèle OpenAI o1. Selon les informations publiées par OpenAI, OpenAI o1 peut passer plus de temps à réfléchir avant de répondre aux questions, tout comme les humains. Par conséquent, le modèle o1 peut résoudre des problèmes plus difficiles en sciences, en programmation et en mathématiques grâce au raisonnement qu’auparavant.

Par rapport au dernier modèle d'OpenAI, GPT-4o, OpenAI o1 a réalisé des améliorations significatives dans les concours de mathématiques, les concours de programmation et les problèmes scientifiques des benchmarks de doctorat, démontrant sa forte capacité dans les tâches de raisonnement complexes. Il se classe au 89e percentile dans les compétitions de programmation (Codeforces), fait partie des 500 meilleurs aux États-Unis dans l'American Mathematical Olympiad (AIME) et a surpassé les doctorats humains en répondant aux questions de référence (GPQA) en physique, biologie et chimie.

Comparaison entre OpenAI o1 et GPT-4o en mathématiques, programmation et problèmes scientifiques

(Source de l'image : site officiel d'OpenAI)

L'arme secrète d'OpenAI o1 : l'apprentissage par renforcement basé sur l'enchaînement de pensées

La raison pour laquelle OpenAI o1 peut atteindre des capacités de raisonnement bien supérieures à GPT-4o est qu'il utilise l'apprentissage par renforcement basé sur la chaîne de pensée. Tout comme un humain peut réfléchir longtemps avant de répondre à une question difficile, OpenAI o1 utilise également des chaînes de pensée lorsqu’il tente de résoudre un problème. Grâce à l'enchaînement des pensées, le modèle décomposera la tâche en étapes plus simples et les résoudra une par une, ce qui est généralement plus précis que de demander au modèle de générer directement la réponse au problème.

En fait, l’enchaînement des pensées n’est pas un concept nouveau. Bien avant la sortie de GPT-3, les chercheurs ont découvert que l’enchaînement des pensées peut guider les grands modèles de langage vers le raisonnement.

Exemple d'utilisation de l'enchaînement de pensées dans un grand modèle de langage

(Source de l'image : Traduit de la référence 2)

L'exemple de la figure ci-dessus comporte deux ensembles d'entrées et de sorties d'un grand modèle de langage. Dans l'entrée, le modèle reçoit d'abord une question et une réponse sur le comptage du nombre de balles de tennis, puis une question similaire est posée au modèle pour compter le nombre de pommes.

Ci-dessous, à gauche, se trouvent des questions et réponses directes, où le modèle a donné des réponses incorrectes. Sur le côté droit ci-dessous se trouve une question et une réponse utilisant une chaîne de pensée. Les chercheurs ont complété la question et la réponse sur le nombre de balles de tennis entrées dans le modèle, ont montré au modèle le processus de raisonnement pour obtenir le nombre de balles de tennis, puis ont demandé au modèle de répondre au nombre de pommes.

Cette fois, le modèle a correctement calculé le nombre de pommes grâce au raisonnement. Cette méthode de guidage du modèle à travers une série d’étapes de raisonnement intermédiaires pour générer des problèmes est appelée enchaînement de pensées. Grâce à la chaîne de pensée, le grand modèle de langage peut afficher les étapes de raisonnement de manière détaillée et intuitive lors de la résolution de problèmes. Cela améliore non seulement la précision du grand modèle de langage dans la résolution des problèmes de raisonnement, mais rend également les réponses du grand modèle de langage explicables, et ce n'est plus une boîte noire complète.

Après la sortie de GPT-3, les gens ont encore plus découvert l’importance de cette invite. Pour les grands modèles de langage dotés de capacités plus fortes, vous n'avez même pas besoin de donner des exemples comme celui ci-dessus sur le comptage des balles de tennis lorsque vous posez des questions. Il vous suffit de dire au modèle « Réfléchissons étape par étape » pour améliorer la capacité du modèle à gérer des problèmes de raisonnement complexes.

Toutes les tentatives ci-dessus ajoutent des conseils lorsque vous posez des questions au modèle. Si les chaînes de pensée sont si utiles, est-il possible de solidifier les chaînes de pensée au sein du modèle pendant la construction et la formation du modèle ? C'est ce qu'OpenAI o1 a tenté.

Apprentissage par renforcement et nouvelle loi d'échelle d'OpenAI o1

Lorsqu'il répond à des questions, le modèle GPT exécute essentiellement une « chaîne de texte ». Il estime quel type de réponse est le plus approprié en fonction des entrées du modèle sur la base d'une grande quantité de données de probabilité statistique pendant la formation.

Afin de permettre au grand modèle de langage d'apprendre à utiliser les chaînes de pensée au lieu de simplement continuer en fonction des probabilités, OpenAI o1 a utilisé une méthode d'apprentissage automatique appelée apprentissage par renforcement.

L'apprentissage par renforcement signifie que le modèle apprend par une méthode « d'essais et d'erreurs ». Au cours du processus de formation, le modèle n’est pas informé du résultat standard, mais de la qualité du résultat. Lorsque le résultat du modèle est correct, le modèle aura tendance à adopter ce résultat dans les sorties futures ; lorsque le résultat du modèle est erroné, il aura tendance à éviter ce résultat dans les sorties futures. Après de nombreux essais et erreurs, le modèle apprendra un ensemble de critères de jugement basés sur sa propre expérience.

L'apprentissage par renforcement, une méthode d'apprentissage qui ne donne pas de réponses standard, convient aux problèmes de prise de décision dans des environnements complexes, tels que le contrôle des robots, les transactions financières, les jeux d'échecs et d'autres domaines. Dans ces domaines, nous ne pouvons souvent pas donner une réponse correcte au sens standard, mais pouvons seulement connaître les résultats d’une action. Par exemple, si un robot tombe, si une transaction financière est rentable ou si une partie est gagnée.

Un exemple célèbre d'apprentissage par renforcement est AlphaGo, l'IA jouant au Go développée par Deepmind en 2016. Dans le domaine du Go, le nombre total de situations possibles dépasse même le nombre total d'atomes dans l'univers observable. Même les meilleurs joueurs de Go ne peuvent pas déterminer le meilleur coup dans n'importe quelle situation. Parce que le Go est trop complexe, il est impossible d’obtenir la meilleure façon de jouer par une énumération exhaustive. Avant l’émergence d’AlphaGo, les gens pensaient qu’il était impossible pour l’intelligence artificielle de vaincre les humains au Go.

AlphaGo est entraîné à l'aide de l'apprentissage par renforcement, où il joue aux échecs contre lui-même et apprend de chaque partie qu'il gagne et perd. Il n’a pas besoin d’humains pour lui dire quel coup est correct, ni d’apprendre les records d’échecs humains passés. Après seulement quelques jours d’entraînement, il a atteint un niveau dont les joueurs d’échecs humains ne peuvent même pas rêver.

Dans le processus de prise de décision d'AlphaGo, il fait d'abord une évaluation approximative de la situation et détermine où effectuer un mouvement qui est plus susceptible de lui faire gagner. Ce sentiment ou cette intuition est généralement appelé sens des échecs par les humains. Après avoir déterminé approximativement où un mouvement est le plus susceptible d'être avantageux, AlphaGo calcule ensuite les possibilités ultérieures de ces différents mouvements et choisit le meilleur.

Par conséquent, deux facteurs principaux influencent la force d'AlphaGo, notamment la capacité à juger la situation et la quantité de calcul requise pour calculer les mouvements possibles. Parmi eux, le processus d’apprentissage par renforcement du modèle peut améliorer la capacité du modèle à juger la situation.

Le jeu autonome d'AlphaGo

(Source de l'image : Référence 1)

Au cours de la formation d’OpenAI o1, grâce à l’apprentissage par renforcement, OpenAI o1 a appris à affiner sa chaîne de réflexion et à améliorer les stratégies qu’il utilisait. Il a appris à décomposer les problèmes difficiles en étapes plus simples et à reconnaître et corriger les erreurs au cours du processus d’analyse. Ce processus améliore considérablement les capacités de raisonnement du modèle.

Après avoir appris à utiliser les chaînes de pensée, l'entrée d'OpenAI o1 ne nécessite plus de guidage humain pour utiliser les chaînes de pensée. Au lieu de cela, OpenAI recommande de garder les invites simples et directes lors de l'utilisation d'OpenAI o1 et d'éviter les invites de chaîne de pensée.

Dans leurs tests d'OpenAI o1, les chercheurs ont découvert que l'augmentation du temps d'entraînement à l'apprentissage par renforcement et l'ajout de plus de temps de réflexion pendant le raisonnement peuvent améliorer les performances du modèle, ce qui est cohérent avec les facteurs affectant la force d'AlphaGo mentionnés ci-dessus.

Loi d'échelle d'OpenAI o1

(Source de l'image : OpenAI)

En 2020, les chercheurs d’OpenAI ont découvert la loi d’échelle pour les grands modèles de langage. Les performances des grands modèles de langage augmenteront avec l’augmentation de la taille du modèle, de la taille de l’ensemble d’entraînement et de la quantité de calcul pendant l’entraînement.

OpenAI o1 démontre une nouvelle loi d'échelle. En termes d'amélioration des performances du modèle, il peut également augmenter le temps d'inférence pour permettre au modèle d'atteindre de meilleures performances, ce qui offre de nouvelles possibilités pour le développement ultérieur de grands modèles linguistiques à l'avenir.

La série OpenAI o1 comprend actuellement trois modèles, o1, o1-preview et o1-mini. Leurs modèles sont de tailles différentes, o1 est le plus grand et possède les capacités de raisonnement les plus fortes, et o1-mini est le plus petit mais consomme moins de coûts lorsqu'il est utilisé. Leurs performances aux concours de mathématiques sont présentées dans la figure ci-dessous. o1-mini obtient des résultats encore meilleurs que o1-preview dans les concours de mathématiques, mais ses résultats sont moins bons dans d'autres tâches qui nécessitent des connaissances non STEM (sciences, technologie, ingénierie, mathématiques). Dans le même temps, à mesure que le temps d’inférence augmente, les performances des trois modèles s’amélioreront.

Performances de différentes versions des modèles OpenAI o1 dans les compétitions mathématiques

(Source de l'image : OpenAI)

OpenAI o1 entraînera-t-il davantage de problèmes de sécurité ?

La percée du modèle o1 d’OpenAI a sans aucun doute amélioré les capacités des grands modèles linguistiques. OpenAI a proposé un jour cinq étapes pour construire une intelligence artificielle générale (AGI). La première étape consiste à parvenir à une intelligence artificielle capable de communiquer avec les humains, et la deuxième étape consiste à parvenir à une intelligence artificielle dotée de capacités de raisonnement. ChatGPT a atteint les objectifs de la première étape, et l’émergence d’OpenAI o1 nous rapproche un peu plus de la deuxième étape.

Alors qu'OpenAI o1 démontre de puissantes capacités de raisonnement, tout comme les chercheurs s'inquiètent de Q*, les gens ne peuvent s'empêcher de se demander si OpenAI o1 entraînera davantage de problèmes de sécurité.

Le rapport d'OpenAI a souligné que MindChain offre de nouvelles opportunités pour améliorer la sécurité des modèles. Au cours du processus de formation, les valeurs humaines peuvent être intégrées dans la chaîne de pensée du modèle, permettant au modèle de refuser d'adopter des comportements nuisibles. En même temps, les chaînes de pensée nous permettent d’observer la pensée du modèle de manière claire, renforçant ainsi la sécurité du modèle.

L’avenir pourrait dépasser l’imagination

Actuellement, la version préliminaire et la version mini d'OpenAI o1 sont disponibles pour les utilisateurs, et des fonctions pratiques telles que la navigation, le téléchargement de fichiers et d'images seront ajoutées ultérieurement. Son efficacité dans des scénarios réels reste à expérimenter et à tester davantage. Dans l’ensemble, les progrès importants d’OpenAI o1 en matière de capacité de raisonnement peuvent signifier que nous sommes un peu plus proches de l’intelligence artificielle générale. Où ira l’intelligence artificielle à l’avenir et pourra-t-elle apporter une plus grande contribution au bénéfice de la société humaine ? Continuons à l’attendre avec impatience.

Références :

1.Silver, D., Schrittwieser, J., Simonyan, K. et al. Maîtriser le jeu de Go sans connaissance humaine. Nature 550, 354–359 (2017). https://doi.org/10.1038/nature24270

2.https://proceedings.neurips.cc/paper_files/paper/2022/hash/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html

<<:  Comment choisir le vaccin contre la grippe cette année ? 14 questions qui préoccupent le plus les parents, expliquées en une seule fois

>>:  Manger des piments peut-il prolonger votre vie ? Avis aux amateurs de cuisine épicée →

Recommander des articles

Quel groupe sanguin ne peut pas se marier

Quels groupes sanguins ne conviennent pas au mari...

Plusieurs méthodes de remplacement des dents

Les problèmes dentaires peuvent entraîner de gran...

Pourquoi je ne transpire pas quand il fait chaud

Quand les gens parlent de l’été, ils l’associent ...

Zone de deuxième auscultation de la valve aortique

La deuxième zone d'auscultation de la valve a...

Arrêtez d’être triste, votre cerveau a été affecté !

Presque tout le monde éprouve de la tristesse à u...

Quels sont les avantages de boire un paquet de lait pur avant de se coucher ?

Le lait pur est très courant dans la vie quotidie...

Douleurs de croissance gastro-intestinales

Comme beaucoup le savent, le tube digestif est un...

Lorsque la grippe frappe, quand faut-il utiliser l’oseltamivir ?

Pour le public qui envisage de choisir l'osel...

Et que pensez-vous de TV Tokyo ? Avis sur Tokyo TV et informations sur le site Web

Quel est le site Web de Tokyo TV ? TV TOKYO (TV TO...

Quelles sont les causes des taches blanches sur les lèvres ?

Il existe de nombreuses maladies dont la plupart ...