新闻中心

热线电话

13528773229

人脸识别具有可靠的，无可复制的生物动态识别，慢慢全国普及到个人手里

作者：蔡水生点击：811 发布时间：2022-04-15

我今天没有用身份证就把公积金贷款办理好了，人脸识别功能真是太强大、太方便了！”7月27日，市民程先生在随州市政数局的服务大厅办完业务后，对公积金窗口的实人认证人脸识别功能连连称赞。

记者了解到，在市公安局、市政务服务和大数据管理局的大力支持下，由随州市大数据中心开发的实人认证人脸识别功能目前已正式在市政数局的服务大厅公积金窗口、不动产窗口，以及大厅内的智慧一体机上线运行，实现了“刷脸政务”，使我市政务服务事项的认证可靠性和性能走在了湖北省前列。

窗口工作人员告诉记者，在办理公积金提取和贷款等业务时，必须严格核实办事群众身份信息，此前，工作人员只能通过肉眼查看身份证，对办理群众的身份信息进行比对；启用“人脸认证”系统后，通过业务过程中人脸的自动识别，几秒内即可对比，自动核验人、证是否一致，并显示“通过验证”或“验证失败”提示。据介绍，市民在市政务大厅公积金和不动产窗口办理业务时，不需刷身份证，报姓名就可实现刷脸；在大厅内的智慧一体机上，办理需在选择办理事项后，刷脸登录进入人像采集板块进行现场核验人脸，实人认证成功后，便可以办理相关业务。

记者采访了解到，为提升政务服务的便捷、安全性，随州市大数据中心在湖北省统一身份认证平台的基础上，建立了全市统一的人脸身份验证平台，通过与随州市公安局人口库的人脸数据进行比对，实现了“刷脸”证明“我就是我”；与目前商用的支付宝和微信刷脸不同，该人脸识别使用公安权威数据作比对源，安全可靠，且识别率更高。

随州市大数据中心主任黄伦超表示，为实现资源共享，市大数据中心联合市政数局数据科现已将人脸识别功能以接口共享的方式发布在随州市政务信息共享网站，全市政务系统不久均能启用“刷脸政务”，进一步提升办事便捷度和群众满意度。

这就是由芯翌科技与清华大学自动化系智能视觉实验室合作，所推出的WebFace 260M，相关研究已被CVPR 2021接收。

并且，基于其所清洗的数据集WebFace42M，在挑战IJBC测试集上，也已经达到了SOTA水平。

而它所带来的“全球之”还不止于此。

以这项数据集为基础，芯翌科技在一期的NIST-FRVT榜单上，戴口罩人脸识别评测中斩获世界。

全球之的人脸数据集，长什么样？

WebFace260M这个数据集，是完全基于全球互联网公开人脸数据。

它的问世，一举打破了此前人脸数据集的规模：

不仅规模，也是在人脸ID数目和图片数，分别达到了400万和2.6亿的规模。

此外，研究人员还提出了基于自训练全自动迭代的清洗流程(Cleaning Automatically by Self-Training， CAST)。这种方法的灵感来自于对互联网人脸数据的观察和分析。

WebFace260M数据提供了粗糙的分类，可以基于此作为清洗算法的初始结构。另外，研究人员发现，在大规模含噪声人脸数据清洗中，嵌入特征显得十分重要，而这个特征可以通过同时迭代数据和模型得到增强。因此，整个清洗流程如下图所示：

首先，利用名为MS1M的公开数据集训练一个“教师模型”，并对原始WebFace260M进行清洗。

其次，利用一个“学生模型”，在上一步清洗过的图像上进行训练。

，让“学生模型”切换为“教师模型”，并进行迭代，直到获得高质量的WebFace42M。

通过这种方式，在对WebFace260M进行清洗操作后，便得到了WebFace42M。

据介绍，它是目前全球规模、可直接用于训练的干净人脸数据集：

包含200万ID、4200万图片。

关于WebFace260M和WebFace42M的“世界之”，一张表格的数据对比，便可一目了然：

同时，针对目前人脸识别的评测问题，研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint)，和分布更广泛、更具挑战性、分类更细致的人脸测试集，这将推动人脸识别评测更靠近真实场景。

同时，研究人员将持续维护、迭代和升级该测试集以及评测系统，持续助力行业技术发展。

这样的数据集，好用吗？

对于这个问题，答案是肯定，而且是得到了非常专业的实践和认可的那种。

以WebFace42M为例，它能够在目前公开的、挑战性的IJBC测试集上，达到新的SOTA，相对错误率还降低了40%。

除此之外，有一个叫做NIST-FRVT的比赛，是由美国标准与技术研究院主办，素来有着“人脸识别黄金赛事”的别称。

因为它具有测评集非对外公开、提交频率严格限制、计算时间严格限制等诸多严苛要求，所以可以称得上是全球标准严、权威的人脸识别算法评测。

那么当WebFace42M的数据，遇到如此棘手的赛事，又会擦出怎样的火花呢？

早在去年10月份，仅用WebFace42M的数据，芯翌科技便在NIST-FRVT的榜单上取得了前三名的成绩。

而在刚刚一期的NIST-FRVT榜单上，以WebFace42M为基础，在“戴口罩人脸识别评测”中又一次创造了“世界之”——夺得比赛。

而且从数据中不难看出，与第二名的成绩可以说是两个量级。

除此之外，在1:1人脸识别评测中，也取得了综合排名世界前三的成绩。

为什么要做这样的数据集？

人脸识别，这项技术可以说是真的火。

火到已经步入人们日常生活，打卡、开门禁、解锁手机等等，都成了它大展拳脚的地方。

也正因如此，学术、工业界的科研工作者，在人脸识别的精度和速度上，形成了竞相追逐的状态。

而据研究表明，人脸数据集对于上述的影响是的。特别是在目前以深度学习为核心的人工智能研发模式下，软件开发会逐渐从传统的软件1.0，过渡到以数据为核心的“数据即代码，模型即软件”的软件2.0时代。

然而在数据集这块，目前的现状却是：

公开数据规模和实际人脸识别系统所需数据规模，差距过大。

怎么说？

例如在WebFace260M发布之前，公开的数据规模都是较小，此前规模的就是MegaFace2和MS1M。

MegaFace2拥有67.2万ID和470万图片，MS1M拥有10万 ID和1000万图片。

如此规模的公开数据，对于科研人员来说，是远远无法满足实际人脸识别系统的数据需求。

同时这也只是限制人脸识别技术发展的瓶颈之一，评测准则和测试集也是重要因素。

目前公开的人脸识别评测集，包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等，在精度上基本已经比较饱和。

同时，还存在不同场景下表现不够细致的情况。

因此，WebFace260M和WebFace42M以及相关Benchmark的推出，在一定程度上可以说是拉近了公开数据集规模与实际应用产业界的这条鸿沟，进一步推动以深度学习为核心的人脸识别相关技术的进步，促进智能化行业的繁荣发展。

而比起规模的上突破，更大的意义应该在于“科技向善”、“数据生态”。

经过过去几年的发展，人脸识别以及人工智能技术取得了巨大的进步，也产生了显著的社会经济价值，但是也出现了很多由于技术发展带来的社会问题。

团队希望通过这个数据集的建立和相关工作，和产业界以及社会各界一起，构建人脸识别测试和应用标准，规范人脸识别应用市场，治理人脸识别应用乱象，科技向善，凸显人工智能技术的价值和温度。

更进一步来讲，在现今数字经济和智能化高速发展的当下，数字资源已然成为像水、电一样的必需品；同时又像石油一般的宝贵，需要有规划地去生产、使用、分享和交易等。

但现在目前的状况是，国内外普遍对此的重视程度不够，具体而言包括行业规范不标准、分享程度不足，也没有长期的规划，由此便反过来抑制了数字经济和智能化的发展进程。

目前层面非常鼓励和重视数据集的创新和规范，清华大学和芯翌科技的研究人员也积极响应的号召和政策的要求，希望和、机构、学术界以及产业界一起，打造智能化时代开放、共享、安全的数据生态。

新闻中心

公司新闻

行业动态

常见问题

人脸识别具有可靠的，无可复制的生物动态识别，慢慢全国普及到个人手里

【相关推荐】