30/05/2025

Initiatives

[Initiatives] Une technologie de pointe dote les IA de l'ouïe et de la parole

initiatives, innovation, IA, entreprises

Kyutai poursuit avec Unmute son exploration de l’IA vocale : Unmute transfère instantanément de l'écrit à l’oral les capacités avancées des grands modèles de langue, comme le raisonnement ou le guidage par prompting. L'an dernier déjà, Kyutai dévoilait Moshi, la toute première IA vocale temps réel, offrant une ﬂuidité encore inégalée dans l’interaction.

Unmute est une technologie modulaire qui permet de transformer instantanément n'importe quel modèle textuel en IA vocale temps réel, grâce à des modules de transcription et de synthèse de la parole développés par Kyutai. La « personnalité » et le comportement de l’agent sont pilotables par prompts textuels, tandis que sa voix est simplement guidée par quelques secondes d’échantillons d’audio. Avec Unmute, la laborieuse interaction textuelle avec une IA puissante fait place à une interaction vocale ﬂuide et naturelle.

Unmute transcrit précisément et à la volée la parole de l’utilisateur, tout en déterminant si celui-ci a terminé de parler ou marque simplement une pause en cours de phrase. La latence est donc très faible, sans interruption de l'utilisateur. La réponse textuelle générée par le modèle de langue est transmise au synthétiseur vocal d'Unmute qui démarre sans attendre la ﬁn de cette réponse. La latence du système complet est ainsi réduite le plus possible.

Pour Kyutai, l’interaction des humains avec et via les machines doit passer par la voix, pour être ﬂuide, inclusive, riche de nuances et d’émotions, tout en s'appuyant sur des modèles personnalisables, légers et puissants. Avec Unmute, Kyutai poursuit l’exploration dans cette voie. Acteur engagé de la science ouverte, Kyutai partagera dans les prochaines semaines la technologie d'Unmute, comme pour tous ses projets précédents. Unmute peut d'ores et déjà être testé sur unmute.sh et sera présent à VivaTech.

Articles en relation

Derniers articles parus
Les plus lus