以为转为NEON assembly的编程:
一般NEON instrinsics已经能做到三倍的提速效果,而NEON assembly效果会更好一些。但是程序向量化需要特殊访存规则,如果不符合则会对导致提速效果大打折扣。
访存特征详细分类如表所示:
其中,无冗余饱和顺序模式是理想的访问模式,能够发挥算法计算向量化的效果。但是我们神经网络算法的最基本的卷积、全连接等计算却是冗余饱和非顺序模式的计算,这要如何解决呢?
查阅相关论文、期刊对这程序向量化非规则访存的研究,可以发现程序向量化有以下步骤:
如上图所示,需要对卷积、全连接等冗余饱和非顺序模式计算通过向量混洗为无冗余饱和顺序的模式,以达到优化的效果。
七人脸识别效果展示
基于PC的人脸识别展示demo如下视频所示:
ZLG的人脸识别算法已成功移植到了cortex-a7的EPC-6Y2C-L平台,且还能根据实际应用做进一步的优化。人脸检测效率为166ms左右,人脸定位效率为125ms左右,人脸比对的效率为493ms左右,合计人脸识别总耗时788.3ms左右。下面是在EPC-6Y2C-L的实测效果:
最后附上EPC-6Y2C-L产品图片:
八关于算法库获取
关于算法库的获取可以咨询ZLG的销售人员。