生成式AI技術正在顛覆以往使用AI的方式,並在各個領域開發多樣化的創新應用,而媒體產業在這波浪潮下也積極參與。
微軟 Azure AI 語音服務的 TTS(如下方註解1)及 Viseme 技術(如下方註解2)是實現敏熙主播自然且順暢人聲的關鍵。這種技術與傳統的機械音文字轉語音服務不同,因為它採用了豐富的模型和提供了多種選擇,這使它在多種應用中具有優勢。
Azure AI 語音服務還提供自訂模型的支援,這意味著您可以根據特定需求來調整語音的風格、速度、音調等參數。這種彈性使您能夠生成更貼近真人主播的語音,具有情感表達、抑揚頓挫等元素,進一步提升語音合成的自然感和情感連接。這對於創建具有個性化特色的語音合成應用非常有價值,並且能夠滿足不同情境和目標的需求。
而資料庫中,包含了中文、英文、台語、客語等多種語言。他們持續進行訓練,以開發全新的圖像模型,這些模型能夠呈現更加精細的面部肌肉紋理。這一努力的目標是確保整個虛擬主播的外貌、聲音和肢體語言更加逼真和自然。
AI主播在六月上線後,立刻引發市場和觀眾的熱烈迴響,這不僅加深了觀眾對虛擬主播的親近感,同時也為媒體產業開闢了嶄新的可能性,進一步凸顯了虛擬主播在現代媒體和溝通領域的重要性。這個成功案例為虛擬主播技術的應用和媒體創新樹立了典範。
註解:
- TTS 技術:TTS 表示文字轉語音,它允許將文字轉換成自然流暢的人聲。微軟 Azure AI 語音服務使用預建的神經語音模型,這些模型能夠模仿超過 400 種近似真人的發音方式,提供了非常高的語音質量。
- Viseme 技術:Viseme 是一種以發音口形狀為基礎的技術,它有助於使語音更自然地與口形相符。這種技術可使動畫和虛擬角色的口型與實際語音更加吻合,提供更生動的體驗。