La voix qui écoute sans entendre
« Appelle maman. » Deux mots. Un enfant de quatre ans les comprend sans réfléchir. Il sait qui est maman, que l’appel est urgent ou banal selon le ton, et qu’il faut agir maintenant. Siri ou Alexa, eux, déclenchent une série de calculs à toute vitesse pour tenter de faire la même chose, et ratent parfois sur « Quelle maman ? Maman du travail ou mobile ? ».
La différence tient à un gouffre. Pas technique : conceptuel.
Un assistant vocal fait deux choses très bien : transformer vos sons en texte (reconnaissance vocale) puis chercher dans ce texte une intention parmi celles qu’il connaît. Il reconnaît des formes. Mais reconnaître « appelle » + « maman » n’est pas la même chose que saisir ce que vous voulez dire. La machine identifie une structure ; elle ne comprend pas une situation.
Les mots n’ont pas de sens tout seuls
Prenez la phrase « Tu peux fermer la fenêtre ? ». Selon le contexte, c’est une demande de service, une plainte déguisée sur le froid, ou une façon polie d’interrompre une conversation. Un humain lit la pièce. L’assistant vocal, lui, s’accroche au sens littéral et risque de vous répondre « Je n’ai pas trouvé de fenêtre à fermer » parce qu’aucune application ne porte ce nom.
Le sens implicite s’apprend en vivant, en ratant, en observant les visages. Les modèles de langage actuels, même les plus puissants, apprennent à partir de textes. Des milliards de mots. Ils en extraient des probabilités : tel mot suit souvent tel autre, telle construction signale souvent telle intention. C’est bluffant. Ce n’est pas comprendre.
Les chercheuses Emily Bender et Timnit Gebru ont trouvé une image parlante : le « perroquet stochastique ». Un perroquet très érudit peut enchaîner des phrases cohérentes sur la physique quantique sans savoir ce qu’est une particule. Les grands modèles de langage ressemblent, un peu, à ce perroquet.
Quand le contexte se perd en route
Autre casse-tête : la mémoire. Dites à votre assistant « Rappelle-moi ça demain matin » puis, deux minutes plus tard, « Change l’heure pour midi ». Beaucoup d’assistants perdent le fil. Ils traitent chaque phrase comme une requête isolée, sans conserver ce que les chercheurs appellent la mémoire conversationnelle : le souvenir de ce qui vient d’être dit et de l’intention qui le portait.
Le cerveau humain, lui, maintient un modèle continu de la conversation : qui a dit quoi, dans quel ordre, avec quelle intention sous-jacente. Reproduire ça mécaniquement coûte cher en mémoire et en calcul, et reste mal résolu.
C’est précisément ce que les fuites de presse autour de la WWDC 2026 d’Apple laissent entrevoir : un Siri repensé, capable de tenir une conversation sur plusieurs échanges, de circuler entre les applications et de garder en tête ce que vous avez dit dix minutes plus tôt. La promesse est séduisante. Mais les ingénieurs d’Apple savent bien que passer de « reconnaître une intention » à « suivre un fil de pensée » reste l’un des problèmes les plus ardus de l’informatique contemporaine.
Ce que comprendre veut vraiment dire
Il faut creuser encore un niveau. Même si un assistant mémorisait tout, même s’il reconnaissait chaque nuance de ton, resterait un problème plus profond : le sens des mots repose sur une expérience du monde que la machine n’a pas.
« Chaud » ne veut rien dire sans avoir eu froid. « Urgent » n’a pas de poids sans l’anxiété que ça génère. Les humains arrivent au langage avec un corps, une histoire, des peurs et des désirs. Les modèles arrivent avec des statistiques.
Cela ne signifie pas que les assistants vocaux sont inutiles : ils accomplissent des millions de tâches quotidiennes avec une efficacité réelle. Mais ça explique pourquoi, sur la phrase « J’ai besoin d’air », l’assistant ouvre parfois la météo pendant que vous, vous aviez juste besoin de souffler.