Voix de l'agent

Écrit par Stanislas

Dernière mise à jour Il y a environ 1 mois

Aperçu

Les voix d'agent transforment votre interaction avec les agents Swiftask en ajoutant des capacités vocales. Au lieu de taper des questions, vous pouvez parler directement à l'agent, et il répondra avec une synthèse vocale. La fonctionnalité combine la reconnaissance vocale (STT) pour comprendre vos paroles et la synthèse vocale (TTS) pour fournir des réponses parlées.

Ceci est utile pour l'accessibilité, le multitâche ou simplement pour préférer la communication verbale avec votre assistant IA.

Prérequis

Un espace de travail Swiftask actif avec au moins un agent configuré.
Accès au microphone accordé dans votre navigateur. Si vous n'avez pas encore accordé la permission, une fenêtre contextuelle du navigateur apparaîtra vous demandant d'autoriser l'accès au microphone lorsque vous cliquez pour la première fois sur l'icône de vague.
Navigateur supporté avec support de l'API Web Audio (Chrome, Firefox, Safari, Edge).

Guide étape par étape

Accéder au chat vocal

Ouvrez votre agent dans l'interface de chat.
Localisez l'icône de vague dans la zone de saisie de message en bas à droite de la boîte de chat.
Cliquez sur l'icône de vague pour activer le mode vocal.

Si vous n'avez pas encore accordé la permission du microphone, votre navigateur affichera une fenêtre contextuelle vous demandant l'accès. Sélectionnez "Autoriser lors de la visite du site" ou "Autoriser cette fois" pour continuer.

Le flux de conversation vocale

Phase de connexion :

Lorsque vous cliquez sur l'icône de vague, l'agent initie une connexion. Vous verrez un indicateur orange "Connexion…". Cette phase dure seulement quelques millisecondes.

Parlez maintenant (prêt à écouter) :

Un bref bip sonore joue, et l'état passe à "Parlez maintenant" en vert. Cela signifie que l'agent est prêt à recevoir votre entrée vocale. Le bip confirme que la connexion est active.

Phase d'écoute :

Commencez à parler votre question ou demande. L'état affiche rouge "Écoute…" tandis que l'agent capture votre audio. Parlez naturellement et clairement ; l'agent transcrira vos paroles en temps réel.

Phase de réflexion :

Une fois que vous arrêtez de parler, l'état change à bleu "Réflexion…" L'agent transcrit votre discours et prépare une réponse.

Affichage de la transcription :

Sous l'état, vous verrez votre question transcrite en texte. Cela confirme que l'agent a bien compris votre entrée.

Phase de réponse :

L'agent répond avec à la fois du texte et de la voix. L'état affiche bleu "En train de parler…" tandis que l'agent délivre sa réponse à haute voix. Vous pouvez lire le texte de la réponse tout en écoutant.

Interrompre l'agent

Vous pouvez également interrompre l'agent simplement en parlant pendant qu'il s'exprime. L'agent détectera votre voix, interrompra sa réponse en cours et reviendra automatiquement en mode écoute afin que vous puissiez poursuivre la conversation sans avoir à cliquer sur le bouton.

Si vous devez arrêter l'agent en pleine réponse (par exemple, pour clarifier ou poser une question de suivi), cliquez sur le bouton "Interrompre" qui apparaît pendant la phase de réponse. Cela arrête immédiatement la sortie vocale et ramène l'agent à l'état d'écoute.

Configuration de la voix de l'agent

Accéder à la configuration vocale

Ouvrez les paramètres de votre agent.
Dans le menu "Plus d'options" sur la gauche, sélectionnez "Agent vocal" (marqué comme NOUVEAU).

Vous serez dirigé vers la page Configuration vocale.

Configurer le modèle STT (reconnaissance vocale)

Dans la section "Modèle STT", cliquez sur le menu déroulant.
Sélectionnez votre modèle de reconnaissance vocale préféré parmi les options disponibles :

Gradium Speech to Text
WhisperX Speech to Text (supporte plusieurs langues)
Mistral - Voxtral Transcription
AssemblyAI Speech to Text
GPT4 Speech to Text

Choisissez en fonction des besoins de précision et du support linguistique. Les modèles WhisperX et GPT4 offrent un support linguistique plus large.

Configurer le modèle TTS (synthèse vocale)

Dans la section "Modèle TTS", cliquez sur le menu déroulant.
Sélectionnez votre modèle de synthèse vocale préféré :

ElevenLabs Text to Speech
Gradium Text to Speech

Sélectionner une voix

Dans la section "Voix", cliquez sur le menu déroulant pour voir les voix disponibles pour votre modèle TTS choisi.
Sélectionnez une voix. Les options varient selon le modèle TTS. Par exemple, ElevenLabs propose des voix comme :

Elise - Warm, Smooth
Leo - Masculine
Emma - Pleasant, Smooth
Kent - Relaxed, Authentic
Eva - Joyful, Dynamic
Jack - Pleasant, Versatile

Cliquez sur "Enregistrer les modifications" pour appliquer votre configuration.

Cas d'usage pratiques

Agent de support client :
Un agent de support configuré avec la voix peut saluer les clients, répondre aux questions courantes et fournir des étapes de dépannage entièrement par la voix. Les utilisateurs peuvent appeler ou chatter et recevoir des conseils parlés sans taper.

Accessibilité :
Les utilisateurs malvoyants ou ayant des difficultés de mobilité bénéficient de l'interaction vocale uniquement. Ils peuvent poser des questions et recevoir des réponses sans dépendre du texte ou de l'entrée manuelle.

Multitâche :
Tout en travaillant sur d'autres tâches, vous pouvez parler à votre agent sans les mains. Demandez des informations, demandez des calculs ou obtenez des résumés sans changer de focus ou taper.

Apprentissage des langues :
Un agent tuteur de langue avec des capacités vocales peut parler des phrases, corriger la prononciation et avoir des conversations naturelles. Les apprenants entendent la prononciation native et peuvent pratiquer la parole en temps réel.

Conseils et meilleures pratiques

Parlez clairement : Utilisez un ton conversationnel normal. Le modèle STT fonctionne mieux avec une parole claire et naturelle.
Utilisez des demandes courtes : Divisez les questions complexes en parties plus petites pour une meilleure précision de transcription.
Choisissez des voix correspondant à votre cas d'usage : Sélectionnez une voix professionnelle pour les agents commerciaux et une voix amicale pour les assistants occasionnels.
Testez votre microphone : Assurez-vous que votre navigateur a les permissions de microphone et que le microphone de votre appareil fonctionne avant de commencer.
Utilisez l'interruption stratégiquement : Utilisez le bouton d'interruption si l'agent a mal compris votre question, ce qui économise du temps par rapport à l'attente d'une réponse complète.
Sélectionnez des modèles STT sensibles aux langues : Si vos utilisateurs parlent plusieurs langues, choisissez WhisperX ou GPT4 Speech to Text pour un meilleur support multilingue.

Dépannage

Problème : L'état "Connexion…" se bloque ou prend trop de temps.

Cause : Latence réseau ou problème de connexion du navigateur.
Correction : Actualisez la page et réessayez. Vérifiez votre connexion Internet.

Problème : Microphone non détecté ou erreur "Accès au microphone refusé".

Cause : Permissions du navigateur non accordées ou microphone non connecté.
Correction : Vérifiez les permissions du microphone de votre navigateur (généralement dans la barre d'adresse). Assurez-vous que le microphone de votre appareil est branché et fonctionnel.

Problème : L'agent ne comprend pas ma parole (mauvaise transcription).

Cause : Bruit de fond, parole peu claire ou inadéquation du modèle STT.
Correction : Réduisez le bruit de fond, parlez plus clairement ou passez à un modèle STT plus avancé (par exemple, GPT4 ou WhisperX).

Problème : La sortie vocale semble robotique ou peu naturelle.

Cause : Le modèle TTS ou la sélection de voix ne correspond pas à votre préférence.
Correction : Essayez un modèle TTS différent ou sélectionnez une voix différente à partir de la page de configuration.

Problème : La réponse de l'agent est très lente.

Cause : La transcription STT ou la génération TTS prennent plus de temps que prévu.
Correction : Vérifiez votre connexion Internet. Envisagez de passer à des modèles STT/TTS plus rapides si disponibles.

Ressources supplémentaires

Guide de configuration de l'agent – Apprenez à configurer les paramètres principaux de votre agent.
Aperçu de l'interface de chat – Explorez d'autres fonctionnalités disponibles dans la fenêtre de chat.