Aller au contenu principal
ia3 min de lecture

Gemini 3.5 Live Translate : traduction vocale en temps réel dans vos applications

Olivier Démontant·11 juin 2026
Partager
Gemini 3.5 Live Translate : traduction vocale en temps réel dans vos applications

Une annonce qui change la donne

Le 9 juin 2026, Google a lancé Gemini 3.5 Live Translate, un modèle audio entièrement dédié à la traduction vocale en temps réel. Ce n'est pas une mise à jour discrète : c'est la première fois qu'un modèle de ce calibre est accessible aux développeurs en preview publique via l'API Gemini, au même titre que Google Meet (preview privée entreprise) et l'application Google Translate sur Android et iOS.

Concrètement, vous parlez. L'API traduit. L'interlocuteur entend. Le tout avec un décalage de quelques secondes, en préservant votre intonation, votre rythme et la hauteur de votre voix.

Ce que fait Gemini 3.5 Live Translate

Le modèle — disponible sous le nom gemini-3.5-live-translate-preview — fonctionne en speech-to-speech : de l'audio en entrée, de l'audio en sortie. Pas de texte intermédiaire visible, pas de tour de parole forcé, pas de silence gênant entre chaque phrase.

  • 70+ langues détectées automatiquement, sans configuration manuelle de la langue source
  • 2 000+ combinaisons de paires de langues possibles dans un même appel
  • Traitement en streaming continu : l'audio est traduit au fil de la parole, pas phrase par phrase
  • Robustesse au bruit de fond (environnements réels : transport, open space, extérieur)
  • Marquage SynthID sur l'audio généré (détection de contenu IA)

L'architecture technique en un coup d'œil

Gemini 3.5 Live Translate s'appuie sur la Gemini Live API, qui gère les connexions audio bidirectionnelles en WebSocket. Le flux audio est envoyé en morceaux de 100 ms en PCM 16 bits / 16 kHz, et la réponse revient en PCM 24 kHz.

Les paramètres clés :

  • translationConfig.targetLanguageCode : code BCP-47 de la langue cible (ex. "fr", "es", "ja")
  • echoTargetLanguage : si l'interlocuteur parle déjà dans la langue cible, l'API répète l'audio sans le traduire
  • inputAudioTranscription / outputAudioTranscription : active les transcriptions texte en parallèle de l'audio

Exemple d'intégration JavaScript

Voici un exemple minimal pour démarrer une session de traduction vers le français depuis n'importe quelle autre langue :

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const session = await ai.live.connect({ model: "gemini-3.5-live-translate-preview", config: { responseModalities: [Modality.AUDIO], translationConfig: { targetLanguageCode: "fr", echoTargetLanguage: false, }, outputAudioTranscription: {}, }, callbacks: { onAudioData: (audioChunk) => { // Jouer l'audio traduit en temps réel playAudioChunk(audioChunk); }, onTranscription: (transcript) => { console.log("Traduction :", transcript.text); }, }, });

// Envoi de l'audio micro en chunks de 100ms function sendAudioChunk(pcmData) { session.sendRealtimeInput({ audio: pcmData }); }

Pour une utilisation côté client (browser), utilisez des tokens éphémères via votre backend — ne jamais exposer la clé API directement dans le frontend.

Cas d'usage concrets pour vos projets

Ce type d'API ouvre des possibilités qui étaient encore réservées aux grandes entreprises il y a 6 mois :

  • E-commerce international : un chatbot vocal qui répond dans la langue du visiteur, sans configuration préalable
  • Service client multilingue : un agent téléphonique IA qui traduit les appels en temps réel pour vos équipes
  • Visioconférence d'équipes internationales : plus besoin d'interprète pour des réunions avec des partenaires étrangers
  • Tourisme et hospitality : borne d'accueil ou guide audio qui s'adapte automatiquement à la langue du visiteur
  • Formation et e-learning : cours synchrones accessibles dans 70 langues sans re-enregistrement

Grab (l'équivalent asiatique d'Uber) traite déjà 10 millions d'appels vocaux par mois avec la Live API pour faciliter la communication chauffeur-passager. La technologie est éprouvée à grande échelle.

Tarif et disponibilité

Le modèle est en preview publique sur Google AI Studio et l'API Gemini. La facturation se fait à la minute d'audio traité : 0,023 $ la minute, soit environ 1,38 $ par heure de traduction continue. Pour la plupart des cas d'usage (appels courts, chatbots), le coût reste négligeable.

Pour les entreprises, Google Meet intègre le modèle en preview privée — vous pouvez candidater via Google Workspace Labs.

Comment démarrer aujourd'hui

  1. Créez un compte sur Google AI Studio et générez une clé API
  2. Installez le SDK : npm install @google/genai
  3. Testez directement dans AI Studio avec le playground Live API
  4. Intégrez avec les plateformes partenaires (LiveKit, Pipecat, Agora) pour une mise en production rapide

La documentation officielle est disponible sur ai.google.dev/gemini-api/docs/live-api/live-translate.

Ce que ça signifie pour le développement web en 2026

Il y a un an, ajouter de la traduction en temps réel dans une application web nécessitait des solutions tierces coûteuses, des latences élevées et des architectures complexes. Aujourd'hui, c'est une dizaine de lignes de JavaScript et une clé API.

La barrière de la langue est en train de devenir un problème entièrement résolu au niveau infrastructure. Ce qui change, c'est que vos utilisateurs s'y attendent désormais — et vos concurrents vont l'intégrer rapidement. Autant être parmi les premiers.

Sources :
Annonce officielle — Google BlogDocumentation Gemini Live Translate API (fr)Model Card Gemini 3.5 Audio — Google DeepMind

Service CreativConflans

Besoin d'automatiser vos processus métier ?

Agents IA, workflows Make/n8n, connexion entre vos outils — pour les PME des Yvelines qui veulent gagner du temps.

Voir le service IA
Cet article vous a plu ? Partager sur LinkedIn
gemini traduction api intelligence-artificielle live-api temps-réel google

Un projet en tête ?

Discutons de votre projet web lors d'un appel gratuit et sans engagement.

À lire également

Make vs n8n : quel outil d'automatisation choisir pour votre PME ?
ia

Make vs n8n : quel outil d'automatisation choisir pour votre PME ?

Make (ex-Integromat) et n8n sont les deux outils d'automatisation les plus utilisés par les PME en 2026. Fonctionnalités, prix, complexité, hébergement : comparatif complet pour choisir celui qui correspond à votre situation.

11 juin 20263 min
Un guide sur les agents IA pour les PME par Olivier Démontant, développeur web freelance à Conflans-Sainte-Honorine
Intelligence Artificielle

Agent IA pour les PME : ce que ça fait vraiment — Guide complet 2026

Vous entendez parler d'agents IA partout mais vous ne savez pas si c'est concret pour votre PME ? Ce guide démonte les promesses exagérées, détaille 8 cas d'usage réels, les vrais coûts et comment choisir un prestataire sérieux.

10 juin 20267 min
PowerPoint en 2026 : pourquoi je passe au HTML+PDF généré par IA
Articles

PowerPoint en 2026 : pourquoi je passe au HTML+PDF généré par IA

PowerPoint a trois problèmes en 2026 : charte graphique, IA générative, versioning Git. J'ai basculé sur des présentations HTML autonomes générées par une skill Claude Code, avec PDF fidèle au pixel via Chrome headless. Retour d'expérience après 6 mois.

21 mai 20267 min
CreativConflans : 6 chantiers IA et automatisation déployés sur mon propre site (cas pratique)
Agences & Équipes

CreativConflans : 6 chantiers IA et automatisation déployés sur mon propre site (cas pratique)

Mon site est ma vitrine et mon labo. Voici en détail les 6 briques d'IA et d'automatisation déployées sur creativconflans.fr — chatbot RAG, knowledge base sémantique, lead scoring live, CRM intégré, indexation auto, MCP pour SaaS — avec les chiffres réels et la stack technique.

21 mai 20267 min
amphi-mcp : j'ai publié un serveur MCP pour mon SaaS, voici pourquoi
Articles

amphi-mcp : j'ai publié un serveur MCP pour mon SaaS, voici pourquoi

Retour d'expérience sur la publication d'amphi-mcp, le serveur MCP qui permet à Claude (ou n'importe quel agent) de créer des présentations Amphi en autonomie. Architecture, distribution, check-list pour faire pareil avec votre produit.

21 mai 20266 min
amphi-html-deck : une skill Claude Code pour générer des présentations Amphi
Articles

amphi-html-deck : une skill Claude Code pour générer des présentations Amphi

Comment j'ai packagé en skill Claude Code la recette qui génère des présentations Amphi correctement découpées en slides. Le contrat technique, l'installation, un exemple de session, et le repo GitHub.

21 mai 20265 min