Thinking Machines dévoile un modèle d’IA « full duplex » qui écoute tout en parlant
La startup de Mira Murati, Thinking Machines Lab, a présenté un aperçu de recherche d’un modèle d’IA « full duplex » conçu pour traiter les entrées et générer des réponses simultanément, afin de rendre les conversations avec l’IA plus proches d’appels téléphoniques en temps réel que d’échanges textuels basés sur des tours de parole.

Thinking Machines Lab, la startup d’IA fondée par l’ancienne CTO d’OpenAI Mira Murati, a annoncé une nouvelle approche de l’IA conversationnelle qui pourrait transformer fondamentalement la manière dont les humains interagissent avec les grands modèles de langage. Au lieu du format familier basé sur des tours de parole — où les utilisateurs parlent ou écrivent, attendent une réponse, puis poursuivent — l’entreprise développe ce qu’elle appelle un « modèle d’interaction » capable d’écouter et de répondre simultanément.
Du mode séquentiel à l’IA en temps réel
Les systèmes d’IA grand public actuels fonctionnent selon un schéma séquentiel. Un utilisateur fournit une entrée, le modèle la traite, puis génère une réponse. Cette structure ressemble davantage à l’envoi de messages texte qu’à une conversation naturelle. Thinking Machines vise à remplacer ce paradigme par une architecture « full duplex », permettant le traitement simultané des entrées et la génération des sorties.
Le modèle d’aperçu de recherche de l’entreprise, baptisé TML-Interaction-Small, répondrait en environ 0,40 seconde — une latence proche de celle typique de la parole humaine. Selon Thinking Machines, cela le rend nettement plus rapide que les offres comparables des principaux fournisseurs d’IA, bien que des tests comparatifs indépendants n’aient pas encore validé ces affirmations.
Pourquoi le full duplex est important
Dans un dialogue humain, les participants s’interrompent fréquemment, interviennent ou ajustent leur discours en cours de phrase en réponse à des signaux subtils. Les assistants vocaux d’IA actuels peinent à gérer cette dynamique fluide, car ils doivent attendre la fin de l’entrée avant de générer une sortie. Un modèle full duplex natif pourrait permettre des échanges plus fluides, des interruptions plus naturelles et des réponses adaptatives qui évoluent à mesure qu’un utilisateur continue de parler.
Si cette évolution réussit, elle pourrait avoir des implications au-delà des chatbots grand public. L’IA conversationnelle en temps réel est essentielle pour des applications telles que les assistants virtuels, l’automatisation du service client, les outils d’accessibilité, les systèmes de tutorat et les environnements de travail collaboratifs. Une latence plus faible et un traitement simultané pourraient réduire les frictions et rendre l’IA moins mécanique.
Toujours au stade d’aperçu de recherche
Malgré ces affirmations techniques, l’annonce de Thinking Machines reste fermement au stade de la recherche. L’entreprise n’a pas rendu le modèle public. Un aperçu de recherche limité est attendu dans les prochains mois, avec un déploiement plus large prévu plus tard cette année.
Cela signifie que des questions clés restent sans réponse : comment le modèle gère-t-il les environnements bruyants ou les discours qui se chevauchent ? Peut-il maintenir sa précision tout en générant des réponses en temps réel ? Et l’expérience utilisateur réelle correspondra-t-elle aux performances annoncées par l’entreprise ?
Un signal stratégique d’une startup très médiatisée
L’annonce est notable non seulement pour son ambition technique, mais aussi pour sa provenance. Murati, qui a auparavant contribué à diriger le développement de ChatGPT et d’autres produits d’OpenAI, a fondé Thinking Machines Lab en 2025. L’accent initial de la startup sur une IA native de l’interaction suggère qu’elle pourrait viser un changement fondamental dans la manière dont les modèles sont conçus, plutôt que de concurrencer uniquement sur la taille des modèles ou les scores aux benchmarks.
Reste à savoir si l’interaction full duplex deviendra la prochaine norme de l’IA conversationnelle ; cela dépendra de l’exécution, de la capacité de mise à l’échelle et de l’adoption par les développeurs. Mais cette initiative signale une prise de conscience croissante dans l’industrie : rendre l’IA plus intelligente ne suffit peut-être pas — la rendre plus humaine pourrait être tout aussi important.