可靠的语音识别是服务机器人至关重要的功能。项目的主要目标是开发基于视觉的波束形成器技术,并实现实时高质量的语音采集。通过视觉信息构建立体面部模型,并且可以定位嘴部位置。 波束形成器基于立体角和距离信息, 优化采集口部位置声音。关键研究方向是实现视音频同步和语音处理。针对立体图像特征,可以重构深度点云。进一步运用深度相机作为冗余传感器,以适应不同应用场景。波束形成器调整有限脉冲响应(FIR)滤波器系数,并使阵列模式优化, 采集坐标。 技术核心问题是建立对准与波束形成器滤波器系数和图像帧,重点研究校准算法以实现视觉音频同步。通过使用服务机器人平台 进行系统整合和性能演示。