可靠的語音識別是服務機器人至關重要的功能。項目的主要目標是開發基於視覺的波束形成器技術,並實現實時高質量的語音採集。通過視覺信息構建立體面部模型,並且可以定位嘴部位置。 波束形成器基於立體角和距離信息, 優化採集口部位置聲音。關鍵研究方向是實現視音頻同步和語音處理。針對立體圖像特徵,可以重構深度點雲。進一步運用深度相機作為冗餘傳感器,以適應不同應用場景。波束形成器調整有限脈衝響應(FIR)濾波器係數,並使陣列模式優化, 採集坐標。 技術核心問題是建立對準與波束形成器濾波器係數和圖像幀,重點研究校準算法以實現視覺音頻同步。通過使用服務機器人平台 進行系統整合和性能演示。