人工耳蝸應用AI技術，助聽障者聽得更清楚

Google進行了一項探索性研究，以證明語音強化技術，特別是噪音抑制器，也可以用於人工耳蝸，來強化用戶在吵雜的環境對聲音的理解。

人工耳蝸是一種電子裝置，可以經外科手術放置到聽障人士內耳中，透過外部聲音處理器，傳送電流來刺激神經，雖然人工耳蝸能夠將這些電流刺激，翻譯成為可以聆聽的語音，但是聆聽體驗會因為使用者身處環境，尤其是吵雜的環境，而有非常大的差異。現代人工耳蝸透過外部聲音處理器，來計算脈衝訊號以驅動電極，而該領域一直以來的重要挑戰，便是要想辦法良好處理聲音，把聲音轉換成為適當電極脈衝的方法。

針對這個問題，產業與學術界的科學家，舉辦了人工耳蝸黑客松來集思廣益，而Google則提出在人工耳蝸中使用Conv-TasNet語音強化模型的方式，來抑制非語音聲音，使得用戶能夠更清楚地聽到人聲語音。研究人員將音訊分解成16個重疊的波段，來對應人工耳蝸中的16個電極，但因為聲音的動態範圍容易跨越多個數量級，比預期電擊能表示的更多，因此研究人員需要使用正規化方法，壓縮動態範圍。

人工耳蝸用戶的喜好各有不同，整體的體驗來自於用戶對於聆聽各種類別音訊的評估，這些類別包括音樂，研究人員表示，雖然音樂對於用戶是一個重要聲音類型，但也是特別難以處理的類別。由於Google的語音強化網路被訓練能夠抑制非語音聲音，而這包含了噪音和音樂，因此他們特別採取額外的措施，來防止語音強化網路抑制音樂聲音，為了達到這個目的，研究人員使用開源的YAMNet分類器，來判斷語音與非語音，以即時調整混合音訊的比例，以確保有夠多的音樂不會被濾掉，能夠被使用者聽到。

研究人員使用Conv-TasNet模型，來實現非語音音訊的強化模組，該模組可以分離不同的聲音。一開始原始音訊波型，會被轉換為神經網路可以使用的形式，並且根據特徵分析來分離聲音，該模型會擷取特徵並生成兩種遮罩，一種遮罩用於語音，一種遮罩用於噪音，這些遮罩表示特徵為語音和噪音的程度，透過將遮罩和分析特徵相乘，以及一些轉換計算，得到分離語音和噪音的音訊。研究人員提到，Conv-TasNet模型有低延遲的特性，能夠即時產生分離語音和噪音的估算。

經過盲聽測試，這項研究成果可以在環境沒有包含太大背景噪音的時候，讓聆聽者可以理解語音內容，但是在提高語音的清晰度上，仍有很大的空間。另外，由於這個研究還處於探索階段，因此研究人員使用了290萬個變數的模型，但這個模型太大還無法實際應用到現今的人工耳蝸中，僅是展示這項技術的未來潛力。

【iThome／李建興】

資料來源：https://reurl.cc/Nrm63q