- Google推出Gemini 3.5 Live Translate語音模型
- 支援超過70種語言,保留語調與語速
- 採用持續生成技術,延遲僅數秒
- Android新增「聆聽模式」,無耳機也可用聽筒收聽
- Google Meet支援逾2000種語言組合互譯
- 所有AI生成語音嵌入SynthID數位浮水印
- Grab已開始測試此技術協助司機與旅客溝通[2]
(綜合ETtoday新聞雲、自由時報等2家媒體報導)
Google宣布推出新一代語音模型Gemini 3.5 Live Translate,支援超過70種語言的近即時語音對語音翻譯。新技術能自動辨識語言,並在翻譯時保留原說話者的語調、語速與音高,讓翻譯後的聲音聽起來更自然。
與傳統「一句說完再翻譯」的模式不同,Gemini 3.5 Live Translate採用持續生成翻譯語音技術,能一邊接收語音、一邊同步產出翻譯內容,整體延遲僅落後原說話者幾秒鐘,有效避免對話中的尷尬停頓。
此功能已陸續導入Android與iOS版Google翻譯App。使用者可搭配耳機使用,Android裝置還新增專屬的「聆聽模式(Listening Mode)」,即使沒有耳機,也能像接電話一樣將手機貼近耳朵,直接透過聽筒收聽翻譯內容。
企業應用方面,Google Meet的即時語音翻譯將導入此技術,從過去僅支援少數語言且需透過英文作為中介,大幅擴展至超過2,000種語言組合互譯。Google也新增專屬按鈕,讓使用者能更快速啟用即時翻譯功能。該服務將以私人預覽(Private Preview)形式,率先開放給部分Google Workspace企業客戶體驗。
開發者可透過Google AI Studio與Gemini Live API搶先體驗。自由時報報導,叫車平台Grab已開始測試此技術,希望協助司機與國際旅客溝通[2]。
為防止AI生成內容遭濫用,所有透過Gemini 3.5 Live Translate產生的語音都會嵌入SynthID數位浮水印,在不影響音質的情況下標記AI生成內容。
本事件已沉寂,相關脈絡見「相關事件」