🔬 科學 (S):認識聲音的聲波
💻 科技 (T):透過科技使用人工智能識別聲音,擷取其中的關鍵字,而作出回應
🔩 工程 (E):製作一個識別語音指令模型,以控制日常生活的裝置,如電燈
處理人類語言的能力是具備智能的象徵。能夠理解語音,並生成語音的技術,是人工智能核心之一。
「文字轉語音」(Text to Speech - TTS) : 按文字輸入生成語音輸出。
「自動語音識別」(Automatic Speech Recognition - ASR):識別人類語音,轉換為文字輸出。
活動一:
完成課堂筆記,列出五項人類語音包含的資訊。
活動二:
完成課堂筆記,列出兩項「文字轉語音」的日常應用。
「文字轉語音」合成系統須參照語言學層次架構,從輸入句字文字開始,到生成語音的波形結束。
輸入文字
文字規範化:分析文字的文法、文字轉音位、韻律預測
將語言數據轉化為波形,生成合成的語音輸出
聽寫系統: 系統識別語音轉換為文字,並執行「逗號」,「新段落」指令,自動為句子加入大寫字母。
私人虛擬助理:系統識別語音,判斷用戶指令,開啟或關閉各項功能。
語言學習系統:判斷用戶練習口語時出現的錯誤,提供即時反饋。
識別發音障礙人士技術:連結
說話風格、口語詞彙、停頓
不同地區的口音
環境噪音
活動三:
進入Azure AI語音識別平台,設定語言選項為 (廣東話)。
在清靜和嘈雜環境下進行錄音:「我今個星期日會去大澳食沙翁」。
在工作紙空格上寫出AI的輸出結果。
使用連接音效卡的麥克風,記錄語音波形
波形轉換成數碼信號,並由人工智能模型進行分析
輸出文字或句字
*自動語音識別 (ASR) 模型須以多種語彙、語法進行訓練,才能使AI判斷句子的前文後理,並獲得語境信息。
自動語音識別管道可以擴展以致識別語音信號的不同特徵,例如說話者的性別、年齡、身份、說話的語言、說話時的口音等。