Une annonce qui change la donne
Le 9 juin 2026, Google a lancé Gemini 3.5 Live Translate, un modèle audio entièrement dédié à la traduction vocale en temps réel. Ce n'est pas une mise à jour discrète : c'est la première fois qu'un modèle de ce calibre est accessible aux développeurs en preview publique via l'API Gemini, au même titre que Google Meet (preview privée entreprise) et l'application Google Translate sur Android et iOS.
Concrètement, vous parlez. L'API traduit. L'interlocuteur entend. Le tout avec un décalage de quelques secondes, en préservant votre intonation, votre rythme et la hauteur de votre voix.
Ce que fait Gemini 3.5 Live Translate
Le modèle — disponible sous le nom gemini-3.5-live-translate-preview — fonctionne en speech-to-speech : de l'audio en entrée, de l'audio en sortie. Pas de texte intermédiaire visible, pas de tour de parole forcé, pas de silence gênant entre chaque phrase.
- 70+ langues détectées automatiquement, sans configuration manuelle de la langue source
- 2 000+ combinaisons de paires de langues possibles dans un même appel
- Traitement en streaming continu : l'audio est traduit au fil de la parole, pas phrase par phrase
- Robustesse au bruit de fond (environnements réels : transport, open space, extérieur)
- Marquage SynthID sur l'audio généré (détection de contenu IA)
L'architecture technique en un coup d'œil
Gemini 3.5 Live Translate s'appuie sur la Gemini Live API, qui gère les connexions audio bidirectionnelles en WebSocket. Le flux audio est envoyé en morceaux de 100 ms en PCM 16 bits / 16 kHz, et la réponse revient en PCM 24 kHz.
Les paramètres clés :
translationConfig.targetLanguageCode: code BCP-47 de la langue cible (ex."fr","es","ja")echoTargetLanguage: si l'interlocuteur parle déjà dans la langue cible, l'API répète l'audio sans le traduireinputAudioTranscription/outputAudioTranscription: active les transcriptions texte en parallèle de l'audio
Exemple d'intégration JavaScript
Voici un exemple minimal pour démarrer une session de traduction vers le français depuis n'importe quelle autre langue :
import { GoogleGenAI, Modality } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
const session = await ai.live.connect({
model: "gemini-3.5-live-translate-preview",
config: {
responseModalities: [Modality.AUDIO],
translationConfig: {
targetLanguageCode: "fr",
echoTargetLanguage: false,
},
outputAudioTranscription: {},
},
callbacks: {
onAudioData: (audioChunk) => {
// Jouer l'audio traduit en temps réel
playAudioChunk(audioChunk);
},
onTranscription: (transcript) => {
console.log("Traduction :", transcript.text);
},
},
});
// Envoi de l'audio micro en chunks de 100ms
function sendAudioChunk(pcmData) {
session.sendRealtimeInput({ audio: pcmData });
}
Pour une utilisation côté client (browser), utilisez des tokens éphémères via votre backend — ne jamais exposer la clé API directement dans le frontend.
Cas d'usage concrets pour vos projets
Ce type d'API ouvre des possibilités qui étaient encore réservées aux grandes entreprises il y a 6 mois :
- E-commerce international : un chatbot vocal qui répond dans la langue du visiteur, sans configuration préalable
- Service client multilingue : un agent téléphonique IA qui traduit les appels en temps réel pour vos équipes
- Visioconférence d'équipes internationales : plus besoin d'interprète pour des réunions avec des partenaires étrangers
- Tourisme et hospitality : borne d'accueil ou guide audio qui s'adapte automatiquement à la langue du visiteur
- Formation et e-learning : cours synchrones accessibles dans 70 langues sans re-enregistrement
Grab (l'équivalent asiatique d'Uber) traite déjà 10 millions d'appels vocaux par mois avec la Live API pour faciliter la communication chauffeur-passager. La technologie est éprouvée à grande échelle.
Tarif et disponibilité
Le modèle est en preview publique sur Google AI Studio et l'API Gemini. La facturation se fait à la minute d'audio traité : 0,023 $ la minute, soit environ 1,38 $ par heure de traduction continue. Pour la plupart des cas d'usage (appels courts, chatbots), le coût reste négligeable.
Pour les entreprises, Google Meet intègre le modèle en preview privée — vous pouvez candidater via Google Workspace Labs.
Comment démarrer aujourd'hui
- Créez un compte sur Google AI Studio et générez une clé API
- Installez le SDK :
npm install @google/genai - Testez directement dans AI Studio avec le playground Live API
- Intégrez avec les plateformes partenaires (LiveKit, Pipecat, Agora) pour une mise en production rapide
La documentation officielle est disponible sur ai.google.dev/gemini-api/docs/live-api/live-translate.
Ce que ça signifie pour le développement web en 2026
Il y a un an, ajouter de la traduction en temps réel dans une application web nécessitait des solutions tierces coûteuses, des latences élevées et des architectures complexes. Aujourd'hui, c'est une dizaine de lignes de JavaScript et une clé API.
La barrière de la langue est en train de devenir un problème entièrement résolu au niveau infrastructure. Ce qui change, c'est que vos utilisateurs s'y attendent désormais — et vos concurrents vont l'intégrer rapidement. Autant être parmi les premiers.
Sources :
Annonce officielle — Google Blog —
Documentation Gemini Live Translate API (fr) —
Model Card Gemini 3.5 Audio — Google DeepMind
Service CreativConflans
Besoin d'automatiser vos processus métier ?
Agents IA, workflows Make/n8n, connexion entre vos outils — pour les PME des Yvelines qui veulent gagner du temps.
Un projet en tête ?
Discutons de votre projet web lors d'un appel gratuit et sans engagement.






