Connexion
/ Inscription
Mon espace
Initiatives
ABONNÉS
Partager par Linked-In
Partager par Xing
Partager par Facebook
Partager par email
Suivez-nous sur feedly

[Initiatives] Une technologie de pointe dote les IA de l'ouïe et de la parole

Kyutai poursuit avec Unmute son exploration de l’IA vocale : Unmute transfère instantanément de l'écrit à l’oral les capacités avancées des grands modèles de langue, comme le raisonnement ou le guidage par prompting.  L'an dernier déjà, Kyutai dévoilait Moshi, la toute première IA vocale temps réel, offrant une fluidité encore inégalée dans l’interaction.

 

Unmute est une technologie modulaire qui permet de transformer instantanément n'importe quel modèle textuel en IA vocale temps réel, grâce à des modules de transcription et de synthèse de la parole développés par Kyutai. La « personnalité » et le comportement de l’agent sont pilotables par prompts textuels, tandis que sa voix est simplement guidée par quelques secondes d’échantillons d’audio. Avec Unmute, la laborieuse interaction textuelle avec une IA puissante fait place à une interaction vocale fluide et naturelle.  

 

Unmute transcrit précisément et à la volée la parole de l’utilisateur, tout en déterminant si celui-ci a terminé de parler ou marque simplement une pause en cours de phrase. La latence est donc très faible, sans interruption de l'utilisateur. La réponse textuelle générée par le modèle de langue est transmise au synthétiseur vocal d'Unmute qui démarre sans attendre la fin de cette réponse. La latence du système complet est ainsi réduite le plus possible. 

 

Pour Kyutai, l’interaction des humains avec et via les machines doit passer par la voix, pour être fluide, inclusive, riche de nuances et d’émotions, tout en s'appuyant sur des modèles personnalisables, légers et puissants. Avec Unmute, Kyutai poursuit l’exploration dans cette voie. Acteur engagé de la science ouverte, Kyutai partagera dans les prochaines semaines la technologie d'Unmute, comme pour tous ses projets précédents. Unmute peut d'ores et déjà être testé sur unmute.sh et sera présent à VivaTech. 


Articles en relation

loading