Kyutai poursuit
avec Unmute son exploration de l’IA vocale : Unmute transfère instantanément de
l'écrit à l’oral les capacités avancées des grands modèles de langue, comme le
raisonnement ou le guidage par prompting.
L'an dernier déjà, Kyutai dévoilait Moshi, la toute première IA vocale
temps réel, offrant une fluidité encore inégalée dans l’interaction.
Unmute est une
technologie modulaire qui permet de transformer instantanément n'importe quel
modèle textuel en IA vocale temps réel, grâce à des modules de transcription et
de synthèse de la parole développés par Kyutai. La « personnalité » et le
comportement de l’agent sont pilotables par prompts textuels, tandis que sa
voix est simplement guidée par quelques secondes d’échantillons d’audio. Avec
Unmute, la laborieuse interaction textuelle avec une IA puissante fait place à
une interaction vocale fluide et naturelle.
Unmute transcrit
précisément et à la volée la parole de l’utilisateur, tout en déterminant si
celui-ci a terminé de parler ou marque simplement une pause en cours de phrase.
La latence est donc très faible, sans interruption de l'utilisateur. La réponse
textuelle générée par le modèle de langue est transmise au synthétiseur vocal
d'Unmute qui démarre sans attendre la fin de cette réponse. La latence du
système complet est ainsi réduite le plus possible.
Pour Kyutai, l’interaction des humains avec et via les machines doit passer par la voix, pour être fluide, inclusive, riche de nuances et d’émotions, tout en s'appuyant sur des modèles personnalisables, légers et puissants. Avec Unmute, Kyutai poursuit l’exploration dans cette voie. Acteur engagé de la science ouverte, Kyutai partagera dans les prochaines semaines la technologie d'Unmute, comme pour tous ses projets précédents. Unmute peut d'ores et déjà être testé sur unmute.sh et sera présent à VivaTech.