Avec Unmute, Kyutai donne de la voix aux LLM

Le laboratoire de recherche Kyutai (Iliad, CMA-CGM et Schmidt Futures) a mis en ligne un démonstrateur d’Unmute, sa dernière technologie capable de transcrire en temps réel une réponse textuelle issue d’un LLM en réponse orale via un surprenant synthétiseur vocal.

Fruit du rapprochement entre Iliad, CMA-CGM et Schmidt Futures, le laboratoire de recherche Kyutai mène plusieurs projets de front comme Hibiki (traduction d’un flux conversationnel en temps réal), Moshi (assistant IA vocal temps réel), Helium (SLM)… Le dernier en date est Unmute, un système capable de transcrire à la volée une réponse textuelle d’un modèle de langage avec un synthétiseur vocal. A l’essai sur une page dédiée, cette technologie s’avère convaincante du point de vue de la qualité du traitement de la réponse audio apportée en parvenant à singer les caractéristiques conversationnelles humaines (intonation vocale, hésitations, débit et fluidité du langage, etc.).

Le fonctionnement en cascade d’Unmute est le suivant : conversion speech to text d’une requête orale humaine et transcription d’une réponse issue d’un LLM (dans le cas présent Gemma 3 12 B) en message prononcé par une synthèse vocale. « Bien que les systèmes en cascade perdent des informations précieuses telles que l’émotion, l’ironie, etc., ils offrent une modularité inégalée : étant donné que les trois parties sont séparées, vous pouvez mettre en sourdine n’importe quel LLM sans aucun réglage ou adaptation », fait savoir Kyutai. Dans son prototype, Unmute peut adapter la voix de sa synthèse vocale en imitant par exemple le général De Gaulle.

Les modèles TTS et STT d’Unmute bientôt en open source

« Le modèle speech to text est diffusé en continu et intègre la détection sémantique de l’activité vocale au lieu de s’appuyer sur un modèle externe. Le modèle text to speech est en continu à la fois en audio et en texte, ce qui signifie qu’il peut commencer à parler avant que l’ensemble de la réponse LLM ne soit générée », précise Kyutai. Aux risques et périls de l’utilisateur, un échantillon vocal de 10 secondes de sa propre voix peut être téléchargé pour déterminer la voix et l’intonation du synthétiseur… A noter que Kyutai prévoit de mettre prochainement en open source ses modèles text to speech et speech to text utilisés dans son démonstrateur.