Une journée à ai-PULSE 2025
Publié le :
Le Jeudi 4 Décembre j’ai eu la chance de pouvoir participer à l’événement ai-PULSE 2025, une journée de keynotes et conférences dédiée à l’intelligence artificielle, organisée par Scaleway à Station F à Paris. Dans ce post je vous résume les différentes interventions auxquelles j’ai pu assister durant cette journée. Ainsi l’ensemble du contenu qui suit ne provient que de mes prises de notes, et je n’y ajoute pas davantage d’informations ; il y a seulement mon interprétation personnelle.

Keynotes d’ouverture
Yann LeCun & Pim de Witte - Replay
Yann LeCun a récemment quitté son poste de Chief AI Scientist chez Meta pour construire sa propre entreprise dans l’IA sur laquelle nous n’avons pas encore beaucoup d’informations. Son discours durant cette keynote d’ouverture portait sur la limite des modèles textuels : selon lui, le futur (et ce qu’on peut assimiler à l’AGI) ne viendra pas des LLM:
“Scaling LLM untill AGI is BS […] Not all our knowledge is text, in fact most of knowledge is not text”
L’objectif serait alors de construire un modèle plus global, capable non pas de raisonner par texte, mais par pensée. Ce modèle serait capable de comprendre des représentations abstraites, d’intéragir avec l’environnement réel qui est bien plus complexe que la dimension textuelle.
Le sujet des données est également développé : les données textuelles sont très simples à récupérer grâce à internet, tandis que les données visuelles sont plus compliquées à trouver, mais elles contiennent bien plus d’informations (et de complexité) que dans un texte. Il est également évoqué l’idée de générer du contenu vidéo par simulation ou par jeu-vidéo, sans oublier les smartglasses comme avec les Meta Ray-Ban, qui peuvent permettre de récupérer une quantité importante de données visuelles, potentiellement anotables.
Enfin, il est très probable de penser que cette question de modèle global, capable de représentation abstraites et d’intéractions, est le sujet de la future aventure de Yann LeCun. Il évoque notamment le fait que tout le monde soit aujourd’hui obstiné par les LLM, particulièrement la Silicon Valley, et qu’il y a donc des choses à faire à Paris même ; faisant écho à la richesse de talent qui se trouve en Europe, mais dont on sous estime souvent le potentiel.
Rémi Cadene (UMA) - Replay
Rémi Cadene est passé par Tesla pour travailler sur la conduite autonome, pour ensuite rejoindre HuggingFace et construire l’équipe LeRobot, avant de cofonder aujourd’hui UMA, aux côtés de Rob Knight, Pierre Sermanet et Simon Alibert. Le projet UMA, pour Universal Mechanical Assistant (et également hUMAnity), a pour idée de proposer des robots intelligents capable d’intéragir avec le monde physique, pouvant ainsi permettre une amélioration globale de la vie de tout le monde, en poussant par la même occasion la croissance économique.
Selon lui, la tâche la plus difficule aujourd’hui en robotique est la dextérité, car cela parait naturel pour nous en tant qu’humains d’avoir le “toucher”, et nous pouvons facilement attraper de nombreux objets de plusieurs manières différentes sans même devoir y penser. Mais ce n’est pas aussi simple d’un point de vue robotique, et c’est quelque chose qui est largment recherché et travaillé.
Enfin, une note sur l’Europe est ajouté : le continent regorge de talents, d’institutions et autres capacités ; mais c’est également la source d’un marché potentiel, notamment grâce à son contexte industriel très puissant, ainsi que le vieillissement de sa population poussant naturellement vers l’automatisation de tâches.
Neil Zeghidour (Gradium) - Replay
Neil Zeghidour a rejoint le laboratoire français Kyutai après être passé par Google et Meta, et il cofonde aujourd’hui Gradium, une entreprise qui a pour objectif de fournir des solutions d’interaction vocale. La solution technique ne vient pas de nulle part puisqu’elle s’appuie fortement sur plusieurs années de recherche au sein de Kyutai.
Ainsi, il faut voir le laboratoire comme un acteur de science ouverte fournissant des modèles de fondation, mais également capable de faire des avancées majeures dans le domaine, comme le premier modèle speech-to-speech. Tandis que Gradium est l’application concrète de ces techniques pour les rendre opérationnelles en milieu industriel, et ainsi satisfaire une traction de marché importante.
L’aspect technique de Gradium est donc très pointu, offrant une qualité vocale excellente avec une très bonne interaction ; en veut pour preuve la superbe démonstration sur scène avec le robot Reachy (HuggingFace). Enfin l’objectif technique est désormais de repousser les limites actuelles, notamment sur la compréhension émotionnelle, le contexte, et le fonctionnement au sein d’un environnement bruyant, avec plusieurs locuteurs.
Conférences
Inference Everywhere: optimizing performance - Replay
Steeve Morin, ZML
Steeve Morin, créateur de ZML, nous présente la solution ZML. La différence entre l’entrainement et l’inférences des modèles est notable : l’entrainement est une tâche de recherche, ou l’on cherche toujours plus de données et où Python règne en maîre. Tandis que l’inférence est une tâche de production, où la performance et le coût sont les facteurs les plus importants, et où Python devient un frein.
ZML s’inscrit alors comme un écosystème permettant d’optimiser la partie inférence à travers différentes techniques. La brique de base, ZML, est construite avec Zig, MLIR et OpenXLA, supportant alors plusieurs puces (NVIDIA, AMD, Google TPU, AWS Trainium). Au dessus de cette brique s’inscrivent LLMD et ATTND.
Le premier est un moteur d’inférence avec des caractéristiques remarquables (non-vérifiées pour ma part) : cold start en 10 secondes, un TTFT (Time To First Token) 3.6x inférieur, et environ 5 à 30% de débit de sortie en plus (je ne sais plus si la baseline avait été évoquée, les chiffres sont donc à prendre avec des pincettes et à vérifier).
Le second, ATTND, s’intéresse à la fonction d’Attention, qui est la partie la plus couteuse en temps de calcul dans les LLM puisqu’elle se veut quadratique. Ici ATTND ne brute-force pas ce calcul, mais va plutôt le calculer à la manière d’un graphe, offrant des gains de performances plus que notables : 2x plus de capacité de compute et 10x moins d’utilisation du réseau.
From lab to product with European voice model - Replay
Enrico Bertino, indigo.ai & Alexandre Défossez, Kyutai & Constance Morales, Scaleway
A la suite de la Keynote de Neil Zeghidour, cette conférence rentre dans les détails plus techniques des modèles vocaux développés par Kyutai. Pour commencer il est nécessaire de noter la distinction entre les deux moyens de communications que sont le texte et l’audio. Le texte étant une forme très compacte, efficace de transmettre des informations, tandis que l’audio comprends des données bien plus désordonnées, mais qui contiennent d’avantage de précision puisqu’elle peut contenir un certain rythme, de l’hésitation, une tonalité ..
Dans ce cadre, l’audio peut-être un moyen plus riche en information de communication, et travailler sur ces modèles vocaux permettent d’ajouter de l’émotion, chose qui manque particulièrement dans l’IA. Mais développer cette technologie représente plusieurs défis : les biais et la subjectivité sont tout autant problématiques qu’au sein des LLM, et le canal de communication oral ne peut être implémenté dans toute situation (imaginez si tout le monde travaillant dans un open-space parlait à son IA…).
Le constat étant fait, il existe deux architectures techniques pour construire ces modèles vocaux, le premier étant un modèle “en cascade” utilisant un modèle Speech-To-Text, puis un LLM, et enfin un Text-To-Speech. Bien que cette architecture permette d’ajouter facilement des fonctionnalités comme des appels de fonction ou du RAG, il y a des problèmes de latences et lors d’une conversation avec plusieurs participants parlant potentiellement en même temps, cela devient facilement ingérable.
C’est pour cela qu’il existe la deuxième architecture qui consiste à effectuer du Speech-To-Speech de manière native, offrant une très bonne performance avec un délai inférieur à 200ms, un rythme adaptable à une vraie conversation, et avec un potentiel de déploiement sur les machines des utilisateurs directement (téléphone, ordinateur, tablette.). Ces modèles sont aujourd’hui difficiles à réadapter dans tous les cas d’usage, et ils n’ont pas l’intelligence des LLM, mais ils ont un énorme potentiel qui constituera probablement la norme sur les modèles vocaux.
Les futurs challenges sont également évoqués : le changement de langue au sein d’une conversation est une problématique réelle, mais le gros goulot d’étranglement est au niveau de la conformité et de la sécurité, qui constituent des enjeux majeurs et inévitables pour une généralisation de ces modèles. Enfin, la prochaine étape pour développer l’écosystème serait la présence d’un acteur capable de catalyser ces sujets sur le long-terme, comme un équivalent à ce que sont les GAFAM pour les États-Unis, qui permettent notamment une vision sur un plus long terme.
From Foundation models to Real-World Actions - Replay
Jean-Baptiste Kempf , Scaleway & Firas Abi Farraj, Enchanted Tools & Grégoire Linard, Enchanted Tools
Cette session d’échange entre Jean-Baptiste Kempf et deux CTO d’Enchanted Tools, un entreprise à l’origine de robots pouvant échanger verbalement avec des humains et ayant des applications dans plusieurs secteurs, avait pour but de démystifier des aspects de la robotique et l’IA.
L’impact de l’IA dans la robotique se voit sur plusieurs aspects : le Deep Learning pour la perception, le Reinforcement Learning pour la robustesse, et enfin l’arrivée des LLM ou VLM qui sont encore à explorer. Quelque chose est spécifique à l’IA dans la robotique : aucun modèle complet de A à Z existe, mais c’est désormais possible.
La particularité de l’IA physique est qu’elle doit se faire sur un déploiement local (le robot lui-même), limitant la capacité de calcul malgré la quantité important d’information et de traitements qui seraient nécessaire à un robot d’intéragir avec son environnement. C’est pourquoi aujourd’hui la plupart des méthodes s’appuient sur une solution hybride combinant LLM pour des tâches de raisonnement, accompagnés par des modèles légers (vision, capteurs, speech-to-text, text-to-speech). En effet aujourd’hui tous les robots intègrent des algorithmes CNN ou du Machine Learning classique pour des tâches basiques comme de la détection d’objets.
Avoir une solution complète qui fonctionne entièrement n’est pas simple : l’hallucination est facile et il est donc nécessaire de découper la solutions en couches (d’où l’idée de solution hybride), mais également d’assurer la sécurité en ajoutant diverses barrières de sécurité et garde-fous, comme des modèles de classification pour limiter les actions du robots et les types d’actions qu’il est capable de réaliser, le tout afin de protéger l’environnement du robot.
Enfin, un aspect essentiel concerne les interactions sociales, sujet sur lequel il est important de travailler puisqu’il s’agit d’une partie évidante l’application directe de ces robots. Il est alors intéressant de se pencher sur le sujet de trouver un juste milieu entre performance informatique et connexion sociale, un aspect très largement exploré désormais, puisqu’il y a même des psychologues travaillant dessus.
En effet l’interaction varie en fonction des personnes (répondre avec énergie aux enfants, répondre plus lentement aux personnes âgées) et c’est un sujet travaillé par design en construisant des robots une apparence mignone ou amusante, et par software en élaborant des systèmes imitant les comportements humains ou certaines emotions. C’est une étape nécessaire et est bon de s’y intéresser pour permettre un déploiement concret des robots dans notre société.
Agentic Stack for Regulated Industries: Architecture Essentials - Replay
Han Heloir, Mistral AI
Cette conférence parle du déploiement de solutions IA appliquée à des domaines régulées (assurance, banques, santé…) en partant d’un constat simple : la plupart des projets sont des démonstrateurs, souvent merveilleux mais qui cachent de nombreux travers : manque de connaissance sur la provenance des données et leurs traitements, absence de tracabilité et ainsi un manque total à la conformité.
C’est pour cette raison que la plupart des entreprises ne délivrent que des prototypes, et rien en production. En effet, il y a un grand manque de visibilité, d’observabilité et de télémétrie, avec des workflows IA ne fonctionnant plus dans des environnements de production et aucune tracabilité des “assets” d’une solution IA : les modèles, prompts, datasets…
“Are you building AI to impress or are you building AI to last ?”
Il y a donc un besoin réel de visibilité sur la performance de ces workflows IA avec une exécution durable, une gestion claire de assets qui sont utilisés, mais également une observabilité simple à travers des explorateurs, juges ou encore dashboards. Ainsi, cela permettra notamment de réutiliser ces mêmes assets avec confiance grâce a des catalogues unifiés, du versionning, des couches d’intégrations, des APIs, et des SDKs.
