Audio DSP應用介紹

2021-06-16


隨著AIOT的崛起,越來越多的裝置都加入了網絡連接功能,而這其中最具代表性的家電產品,就非Smart SPK莫屬了。而對於Smart SPK這個產品來說最重要的特點就是語音聲控的功能,因此這個功能的好壞將對用戶的使用體驗佔有非常大的影響。

 

目前市面上有許多的Audio DSP晶片都標榜具有語音辨識的處理功能,但價格卻有可能差到兩三倍以上,那我們在選擇的時候難道就是看廠牌與價格嗎?其實我們可以比較以下的幾個功能,來選擇合適的產品

 

1.AEC(Acoustic Echo Cancellation)回音消除:

所謂的回音消除功能就是從MIC所收到的聲音訊號裡,將來自機器本身播放出來的聲音給分離消除掉,尤其對於Smart SPK來說MIC跟喇叭的距離絕對比跟使用者近,因此很容易會發生MIC收到的聲音裡喇叭的聲音比使用者還大聲,這將導致語音辨識功能無法順利進行,因此好的回音消除效果對語音辨識效果是很重要的,下圖就是功能示意圖,下面Before AEC的波形就是MIC收進來的原始訊號,而After AEC則是經過晶片演算法處理後的結果,只有使用的語音被留了下來,喇叭播放的聲音則都被消除掉了

 

 

2.DOA(Direction of arrival)聲源定位:

所謂的聲源定位功能就是藉由兩顆以上的MIC收音單元(通常會是雙數例如2&4&6&8顆)將收到聲源訊號做一個時間差的比較,也就是所謂的Phase Delay的比較,藉由一些聲學公式的演算,就可以判斷出使用者在裝置的哪個方位,透過這個資訊除了可以做最基本的燈光變化外,最重要的是可以開啟後面的Beamforming功能。下圖是簡單的DOA原理圖

 

 

3.Beamforming波束成型:

這個功能光看它的名稱大概沒幾個人可以了解它的功用,其實簡單的來說就是所謂的收音範圍限制,我們可以用下面的圖來幫助理解,在前面有說到DOA功能可以提供我們使用者的位置資訊(下圖綠色的框),如此一來我們就可以限制要收音的範圍(深藍的框DOA_VAD_THR1),只要聲音不是從這個範圍內過來的,我們都可以把它當成噪音消除掉,這樣一來就可以有效地降低環境噪音對語音辨識的干擾,當然也有一些進階的應用,例如我們可以限定若語音訊號在橘色的區塊(DOA_VAD_THR2)是不會觸發DOA判定的,如此就可以限制只有從某個方向過來的語音訊號才會被收進來。

 

 

4.FFP(Far-Field Pickup)遠場收音:

這個功能其實是將收到的語音訊號能量做一個計算,當能量過大時就會將Gain調低(音量降低)相反的當能量較小時就會將Gain增加(音量放大)以此來讓收到的語音訊號保持在一定的大小,這樣一來使用者不論距離語音裝置遠或近都可以有良好的語音辨識效果。下圖就是語音訊號經過處理的效果

 

 

5.ANS(Advanced Noise Suppression)高級噪聲抑制:

這個功能主要是將環境噪音抑制,對於Smart SPK來說這個功能的好壞對語音辨識率有很大的影響,因為它不像AEC有參考的訊號源可以做比對,所以它完全是從MIC收到的聲音訊號中自己判斷哪個是語音訊號需要留下哪個是噪聲需要抑制,這完全是看演算法編寫的功力,如何能達到較高的噪聲抑制效果同時又不會對語音訊號有太多的影響,這將是一個很重要的IC選擇關鍵。下圖就是噪聲抑制功能的效果,下面是處理前的訊號,上面是處理後的

 

 

透過以上的五個功能我們可以將收到的語音訊號做一個完整的處理,以達到更高的語音辨識率,提供客戶良好的使用體驗。

而在MIC的擺放設計上,應對客戶各種不同的機構設計需求,以RTK的ALC5520來作範例,我們目前有2&4&6顆MIC的演算法方案可以做選擇,基本上可滿足各種應用需求

 

同樣的以上的功能其實不只是Smart SPK需要,其實在會議機系統上也是很重要的價值判斷依據,若想了解更多資訊或有任何疑問,歡迎聯繫以下窗口: Synnex_6N@synnex.com.tw