聲音相關研究

 

 

研究方向:

  •  Always Listening Voice Activity Detection (ALVAD)
  •  Microphone Array Beamforming
  •  Direction of Arrival Estimation
  •  Acoustic Echo Cancellation
  •  Active Noise Control
  •  Post-filtering
  •  Perceptual Evalution of Speech Quality (PESQ)

 


 

Always Listening Voice Activity Detection (ALVAD)

研究生:簡佑軒

 

實驗室文獻參考:

  •  王庭昭,2010,〈利用空間域特徵空間一致性及共鳴曲線相似度之喚醒關鍵字偵測方法〉
  •  葉新文,2011,〈利用麥克風陣列與目標干擾比之強健型語音活動偵測方法〉

 

        在自動語音辨識系統(Automatic Speech Recognizer, ASR)中,決定何時開始辨識是非常重要的關鍵,該機制稱做push button或wake-up,如果運用得宜不僅辨識準確率提高,也可降低裝置的耗電程度。

ALVAD做為取代push button的技術,首先前端(Layer1)以最小控制地回平均法估測環境噪音,只有在語音的瞬間SNR高於環境噪音10dB時才進入後端(Layer2),後端利用語音的諧波特徵(Harmonic Structure),可針對觸發的語段判斷是否為人聲,最後的VAD輸出可輸入語音辨識系統進行辨識。

本技術在低SNR的情況下能大大減少辨識的誤觸發率,另外前端以低取樣頻率(4K Hz)的策略在也能達到麥克風省電的效果。

 

 

 


 

Microphone Array Beamforming

研究生:葉睿誠

 

實驗室文獻參考:

  •  李明唐,2008,(結合適應性波束形成與後濾波進行語音強化)
  •  李哲宇,2013,適應性波束形成器於寬頻語音純化使用具二階約束之卡曼濾波器 

 

Linear microphone array

 

    數個麥克風排成特定的形狀(如圖一),接收空間中傳遞的訊號,並經過訊號處理,此技術稱為陣列訊號處理。在陣列訊號處理領域中,波束形成為一種空間濾波器。利用訊號的空間關係,對不同方位收到的訊號乘上不同的增益,進而達到空間濾波的效果,藉以分離空間中不同方向聲源的訊號。

    不同角度入射的訊號會有不同的增益,而角度和增益的關係是由陣列的加權值所決定,因此波束形成就可達到空間濾波的效果,而在波束形成理論中,就是用適當的方法去計算出加權值,將訊號作空間濾波,就可得到想要的訊號。

 

Beampattern of linear array

 


 

Direction of Arrival Estimation

研究生 : 王瀅智、劉知琬

 

實驗室文獻參考:

  •  黃啟揚2008以雙核心平台實驗即時影音追蹤與語音純化系統
  •  蕭昀軒,2011,〈使用多重訊號分類演算法之多聲源方位追蹤與分離〉
  •  呂孟瑋,2013,〈具陣列拓墣向量校正之多重訊號分類演算法於多聲源切音與分離〉

 

    多重訊號分類(Multiple signal classification,MUSIC)是以子空間為基礎, MUSIC演算法原理是從天線陣列所收到的訊號中求出輸入相關矩陣,並將輸入相關矩陣分解成兩個彼此獨立且正交的子空間(Subspace);分別為訊號子空間(Signal subspace)與雜訊子空間(Noise subspace),利用正交特性去估測各個入射訊號的到達方向。

          

MUSIC Flow Diagram

 

 135 degree speech Estimate

 

 


 

Acoustic Echo Cancellation

研究生:梁耕維

 

實驗室文獻參考:

  •  劉淵瀚,2013

 

    Acoustic echo cancellation 系統中主要分為兩部分,cancellation 與 suppression。Cancellation是根據欲從喇叭播放的訊號與麥克風收到訊號來估測喇叭到麥克風間的迴聲路徑(echo path) h,此迴聲路徑即可估測出麥克風即將收到的迴聲進而將麥克風中的迴聲成分消除。由於已估測得麥克風中迴聲成分,Suppression則是透過Signal to Echo Ratio (SER)設計一組增益函數更進一步抑制殘餘的迴聲。

    假設喇叭播放的訊號與使用者的聲源獨立,此AEC系統可解決Double talk的問題,能在喇叭與使用者同時發聲時將喇叭迴聲消除留下使用者的聲音。

 

Acoustic echo cancellation overview

 

 

 


 

Active Noise Control

研究生:李瑋庭,錢丹

 

實驗室文獻參考:

  • 張瓊文,2008,〈使用H和H2迴授控制法設計之全數位式耳機主動式噪音消除系統

 

    主動式噪音控制是利用次音源產生噪音訊號相位相反的訊號干涉破壞噪音來達到控制效果,設計主動式噪音消除耳機的全數位式迴授控制器藉由以強健控制中H2/H設計理論訂定限制條件,透過MATLAB最佳化工具模擬運算得到符合設計的最佳化迴授控制器。

 

 

 


 

 

Perceptual Evalution of Speech Quality (PESQ)

研究生:吳承諺

 

參考文獻:

  •  ITU-T P.862(02/2001) Methods for objective and subjective assessment of Quality

 

  PESQ P.862為工業界,包括通訊相關周邊產品,主要用於移動通訊網路中傳輸的語音品質評價,是一個關注終端使用者感受的語音品質評價標準建議書。是一套自動化客觀評價語音品質的演算法,以客觀的儀器測量及分析取代過往的主觀評價方式(MOS)。PESQ能測試類似於解碼器網路單元的效果,也能測量端到端的聲音品質;同時可以著重不同的信號退化原因,如編解碼失真、錯誤、丟包、延時、抖動和過濾,計算出測試結果。

 

PESQ演算法 概述流程:

The perceptual model of PESQ

 

  將PESQ分數會映射到Mean Opinion Score (MOS)來評價語音品質。MOS以5分制來表示, 1分即為最差分數,而5分即為最佳分數。MOS的分數來自於各類語音訊號量測結果的算術平均數。當MOS超過4分,代表大部分聽者會覺得滿意或非常滿意。