1. 技术
  2. 人头姿态估计

人头姿态估计

在车载辅助系统中,人头姿态估计是司机状态估计的基础,也是目前研究的热点。围绕人头姿态估计功能,已经提出了大量的方法。总得来说,这些方法可以分成两类:基于人脸局部特征点定位的方法,以及全局表观信息的方法。前一种方法通过构建人脸部局部特征点与人头三维模型中对应特征点的位置关系获得人头的朝向和位置信息。这类方法能够获得较高的姿态估计精度,但对局部特征点的定位精度非常敏感。而局部特征点的定位精度又容易受到姿态和模型初始值而局部特征点的定位精度又容易受到姿态和模型初始值而局部特征点的定位精度又容易受到姿态和模型初始值。

人头姿态估计是判断静态图像或者视频序列中的人脸在三维空间中的姿态的过程,在人机交互、智能视频监控、虚拟现实以及人脸识别等领域有着广阔的应用前景。在车载辅助系统中,人头姿态估计也是司机状态估计的基础环节。然而,由于人脸姿态的变化方式千差万别、光线表情复杂多变、计算复杂度高等因素,人脸姿态估计始终是一个极富挑战性的课题。

针对传统方法的上述不足以及车载环境特点,我们提出了一个Bayesian框架,在该框架下可以同时融合全局、局部以及时域信息进行姿态估计,因此可以大幅提高估计的精度和各种光照环境下的鲁棒程度。除此之外,估计过程中还采用了弹性三维人脸模型,可以有效针对不同的人和不同的表情动态优化人脸不同特征点在三维模型中的位置,因此我们的方法对于不同的人和不同的表情也有广泛的适应性。

为了更好体现算法的优越性,我们将算法与其它方法在boston大学的数据库上进行了比较,平均误差(RMS)如下表所示(单位为度):

我们的方法 DVF方法[1] 文献[2]的方法 文献[3]的方法
YAW 4.52 5.72 6.10 5.40
PITCH 4.02 4.89 5.26 5.60
ROLL 2.81 3.56 3.00 3.10

从上表中可以看出,我们的算法由于同时融合了全局、局部以及时域信息,精度有了较大提高。姿态估计的平均速度约为40ms/frame,此时图像分辨率为640*480,运行环境为:cpu i53.0GHZ,未采用并行加速。下列图片和视频展示了,算法在静态图像和视频序列中的人头姿态估计效果,充分展示了算法在各种环境下的精确性、鲁棒性和实时性。

下一视频展示了算法在真实场景中头部姿态估计的效果(其姿态由左上角人头模型动态展示)。视频中,光线环境、人头姿态以及脸部表情都有很大变化,但是我们的算法仍然能够很好的处理这些情况。

[1] Stylianos Asteriadis, Kostas Karpouzis, Stefanos Kollias, “Head Pose Estimation with One Camera, in Uncalibrated Environments”, International IUI 2010 Workshop on Eye Gaze in Intelligent Human Machine Interaction, 2010.

[2] R. Valenti, Z. Yucel, and T. Gevers. “Robustifying eye center localization by head pose cues”. In Proc. IEEE CVPR Conference, 2009.

[3] J. Sung, T. Kanade, and D. Kim. “Pose robust face tracking by combining active appearance models and cylinder head models”. International Journal of Computer Vision, 80(2):260–274, 2008.