每经记者|可杨 每经编辑|杨军
人工智能带来效率提升,伦理安全问题也相伴而生,成为一大隐患。近日,多位代表及委员谈及AI(人工智能)给日常生活带来的风险,例如全国政协委员靳东就提到“AI换脸”导致“虚假信息满天飞”,建议出台更严厉的细则进行规范及治理。
一位同时研究AI生成与检测的学者,如何看待自己所在领域的“猫鼠游戏”?
董晶来自中国科学院自动化所,她同时也是IEEE(电气电子工程师学会)亚太区执委。IEEE是全球最大的专业技术组织,致力于推动电气、电子、计算机及通信等领域的技术创新。
在中国科学院自动化所,董晶的课题组同时开展两个方向的研究:一边是AI生成技术,让机器学会“造人”;一边是AI检测技术,帮系统精准辨伪。
“不妨让二者battle(对抗)一下:一边做出生成技术,另一边拿去检测是否存在安全风险,再据此迭代优化。”董晶说,“这就相当于自己跟自己对抗,一边造、一边查,在内部形成攻防博弈。”
作为IEEE亚太区执委、中国科学院自动化所研究员,董晶是专注AI生成与内容安全双向研究的学者。恰逢妇女节,她接受了《每日经济新闻》记者(以下简称NBD)专访,聊了聊AI人脸技术从平面到立体的跃迁,也聊了聊AI飞速发展的“矛与盾”,以及给想要进入AI行业的年轻人提出了一些建议。

中国科学院自动化所研究员董晶。图片来源:受访者供图
AI人脸以前是“改图”,现在是“造人”
NBD:这几年大众对AI人脸的印象,可能还停留在换脸或者美颜。您做的3D感知、表情迁移,听起来更偏结构层面。今天的人脸生成和几年前比,最大变化是什么?
董晶:过去人们对AI人脸的理解,大多停留在2D图像层面的编辑与修改——从像素维度调整色彩、排列方式与统计规律,让一张杂乱的噪声图逐步形成规整的人脸结构。可这类生成结果一旦换个角度、换种光线,就很容易露出破绽。
现在的变化是从平面修图变成立体建模。我们做的3D感知、表情迁移,本质上是先还原人脸的三维结构、骨骼和肌肉关系,再去生成和驱动。从平面修图变成了立体建模,相当于在做雕刻,从二维到三维,让人脸立起来。
同时,更强调可信与安全,不仅要逼真,还要可溯源、可取证。
NBD:这种“立起来”带来了什么实质变化?
董晶:首先是更稳定、自然;其次是可控性大大增强,从二维到三维,参数量变多了,身份、表情、姿态、光照这些属性可以用不同的参数分别调节;最后是可信与安全,参数量多了,我们在计算过程中建立的可溯源、可取证的链条就更完善。
简单说就是以前我们是“改图”,现在是在“造人”。
NBD:这个技术突破和什么有关?算力、数据还是算法?
董晶:关键在于两点:一是算力水平,二是模型性能。过去受限于条件,既难以处理海量数据,对数据的理解能力也相对有限。如今不仅有了更多优质数据,借助生成式技术本身,还能补全许多此前难以获取、处理和存储的数据。
另外就是算法更智能了,研究这个方向的人越来越多,智力投入足够,对参数怎么调优的理解也在加深,人工智能,首先是人的智能。
NBD:大语言模型有海量语料,图像领域会面临数据缺乏的问题吗?
董晶:确实会。图像视频数据本身就是非结构化数据,建模难度大,存储需求也大。从量级上说,一篇文本跟一张图像比,图像的数据肯定是缺乏的,所以现在我们用很多生成式技术去做(指生成图像、视频),其实也是在补这些短板。
董晶:视觉是人类接触世界最直观的表达,70%的数据来自眼睛。所以我们肯定希望这个技术,能让大家从imagine(想象)到imagination(想象力),给想象力更广的空间。
不过现在的生成技术还在发展阶段,不是所有数据都能生成得很逼真。有些生成内容看上去像真图,但不符合物理世界的规律。想象力是可以的,但是它不能太超前,在医疗、安全等等高精尖、强精准要求的领域,现有技术仍未达到成熟可用、落地应用的阶段。
NBD:您一直强调可控编辑,可以调节年龄、表情、身份属性。为什么可控会成为重要方向?
董晶:可控编辑,是AI生成从炫技走向实用的关键。过去生成模型最大的痛点是不可控、不可复现,想改个表情、调整个年龄,都要反复生成,没法精准满足需求。可控编辑把人脸的不同属性拆解开,独立调控,让AI从“黑箱生成”变成“按需定制”。它解决的是生成与需求脱节、结果不可靠、技术难落地的问题。
这个技术的应用场景也包括了数字人直播、影视特效、电商内容生产、医美预览、安全教育、身份认证安全等。同时,可控也是AI安全与内容监管的前提,和我研究的深度伪造检测、多媒体取证高度契合。
NBD:对抗性妆容这类技术的原理是什么?目前技术是否已经具备了从实验室走向手机App、甚至金融支付前端的商业条件?
董晶:对抗性妆容的原理,是通过人眼几乎不可察觉的细微妆容,干扰人脸识别模型,从而保护面部隐私。它不靠遮挡,而是精准、温和地让AI认不出来。
目前技术效果已经比较成熟,但还没完全具备大规模商业化条件。一方面,它对光线、角度、摄像头的鲁棒性仍需提升;另一方面,涉及金融安全、隐私合规、伦理规范,需要行业标准和监管体系同步完善。短期内会更多用于隐私保护研究和特定场景防护。
NBD:识别系统可以被干扰,是否意味着人脸识别本身并不是绝对可靠?未来的支付安全或手机解锁会走向哪里?会不会需要依靠更多多模态结合的识别?
董晶:没有任何一种生物识别是绝对安全的,人脸识别在日常场景中高效便捷,但在对抗、伪装、攻击场景下,确实存在被绕过的可能。
我们研究攻击,不是否定它,而是让它更安全。人脸识别是便利工具,不是绝对防线。日常通行、手机解锁没问题;但金融支付、大额交易,不能只依赖人脸。未来方向一定是多模态融合:人脸、指纹、声纹、行为特征、设备信息等交叉校验。单一模态可能被攻破,但多模态会把安全等级大幅提高。
没有安全的盾,生成也无法落地
NBD:以前说“有图有真相”,现在视频也可能是假的。技术层面还能有效识别吗?
董晶:目前仍然可以有效识别,我们课题组就在做生成式内容的检测与测评。现在抖音快手很多短视频都要求标注是不是AI生成,主动标注当然好,但更多的可能不标,就需要检测技术跟上来。
从技术角度,我们分析生成式技术的共性特征。比如生成出来的图是不是真彩色更强,很多时候你会发现它比一般视频拍得更漂亮、更炫酷。从像素层面,它的连续性、边缘效应可能有特定规律,就像模型有自己的“指纹”。
还有就是从大量数据中学到的一些不太好定义的经验特征,可以帮助我们给出一个概率判断。AI生成再逼真,也会留下物理、几何、时序上的细微痕迹:光影不一致、微结构扭曲、时间不连贯等。人眼看不出来,但算法可以捕捉。
NBD:检测的难点具体在哪里?
董晶:AI生成的检测本质上是弱信号检测,生成模型的目标就是无限逼近真实视频,而检测任务则要在高度逼真的内容中,精准识别出伪造痕迹。你越了解生成式技术,就越了解它可能假在哪里。所以我们一定要从生成式原理出发,脱离技术本质空谈检测,无异于闭门造车。
另一个难点是,弱信号的检测,其特性往往没有一个在语义层面可表达、可解释的规律,很难找到普适的特性。所以我们需要不断补全知识盲区,把经验加进去。
NBD:会存在越短的视频越难检测吗?很多用户会觉得看AI视频,感觉多看几秒就能发现它是AI。那生成个3秒的视频,是不是更难发现?
董晶:这个跟时间长短没有绝对关系。你要说短,那图像更短,但图像的检测率,在我们很多实际观测中,可能比视频更高。
这其中可能是用到了一些认知机理。人类多看几秒,相当于多学了一段时间,从这个角度说,学习时间越长,对知识掌握能力越强,这可能符合人类的认知关系。从科学研究的角度来看,检测效果与视频时长没有本质关联。关键在于对问题本质的认知深度:是否真正理解伪造特征、能否有效建模并学习到这些关键线索。
我们目前研究发现,AI生成视频的检测难度有一明显特性:视频场景频繁切换、不连续(如频繁跳场),会因引入大量无序扰动信息,显著增加检测难度。反之,视频保持几秒连续稳定、连续性特征越多,越利于检测——连续场景可减少扰动,便于捕捉生成视频的固有伪造痕迹,提升检测效果。
NBD:有一种观点认为,检测永远追不上生成,您怎么看?
董晶:现阶段检测仍然略占优势,但双方处于持续拉锯。生成追求视觉逼真,检测抓的是物理规律、几何一致性、模型痕迹这些人类难以察觉的底层漏洞。短期看,新生成方法刚出现时,检测会短暂滞后,但很快能追上。长期看,赛道会发生变化,未来不再是单纯攻防,而是可信水印、生成溯源、多模态校验、全链路合规的主动防御体系。
NBD:您同时涉足生成和检测,怎么理解这两者的关系?
董晶:我更愿意定义为相互成就、螺旋上升的共生关系。生成技术不断逼近真实,主动暴露识别系统的漏洞,逼着安全技术变强;检测与安全技术不断升级,又反过来约束生成走向规范、可信、安全,让技术不被滥用。
没有攻,就没有坚固的守;没有盾,生成也无法真正落地。它们共同推动整个人工智能领域,从可用走向好用、可靠、可信。
NBD:现在做AI安全研究,重点在哪些方面?
董晶:安全是一个整体观念,它不是某一个方面的安全,而是有衍生效应。有内生安全,也有外生赋能安全,技术本身可能有脆弱性,也可能延伸到其他领域带来新的安全问题。
我一方面是在做生成的技术,我会考虑这些前沿技术怎么应用,但应用的过程中,又要测试它会不会带来安全问题,我们要去测试一下。所以我们既做生成也做检测。相当于自己对抗自己,很多技术在我的课题组我都分成两个课题、两个小组在做,然后让他们互相battle。
NBD:当生成内容足以以假乱真时,怎么建立一套有效的溯源机制?
董晶:要防止AI被滥用、成为造谣与诈骗工具,不能只靠事后检测,必须建立一套从生成到传播全链路可追溯的可信体系。
首先要从源头强制留痕,未来所有商用AI生成模型,都应该嵌入不可篡改的数字水印、模型指纹、生成日志,让图片、视频在生成的那一刻,就自带出生证明,记录生成主体、时间、模型信息,做到谁生成、谁负责。
其次,在传播环节建立可信校,社交平台、短视频平台应接入统一的内容核验接口,自动识别内容是否为AI生成、是否被篡改。
同时,完善法律与制度保障,明确平台、开发者、使用者的责任边界,让技术溯源结果能够成为法律证据链的一部分。
NBD:未来在身份验证、隐私保护方面,技术趋势是什么?
董晶:现在的检测技术需要更多从认知角度去做可解释性,不能只告诉用户“这是假的”,还要告诉他“为什么是假的”。下次看到同类内容,用户自己就有判断力了。我们要找出那些人类可以理解、但视觉难以察觉的底层漏洞,比如违背了哪些图像或视频中的几何规律、物理规律。如果只告诉真假,未来生成式内容越来越多,大家只会越来越眼花缭乱。
性别从来不是能力的分界线
NBD:在AI和科技行业,女性比例仍然偏低。您怎么看?
董晶:客观上女性比例仍偏低,但女性正在快速崛起,且具备独特优势:更细腻、更注重细节、更擅长沟通协作、更关注技术的人文与伦理价值,这些正是下一代AI最需要的能力。
我也遇到过现实挑战:在学术会议中是少数群体;需要在事业与生活中做更多平衡;也听过一些隐性偏见,比如女性不适合硬核算法。但我始终相信:性别从来不是能力的分界线,专业、热爱、坚持,才是决定能走多远的关键。
NBD:很多女性往往因为“能力不足”的自我怀疑而错失机会。您有过类似经历吗?
董晶:我非常认同,也完全有过。职业生涯早期,面对重要机会,我也会犹豫:我准备好了吗?能做好吗?后来我意识到,没有人天生就准备好,大家都是在一次次上场中变强的。我的办法很简单:先接住,再做好;先上场,再变强。不要等完美了再出发,要在出发的路上,把自己变成更合适的人。
NBD:对想要进入AI行业的年轻人,尤其是女性,有什么建议?
董晶:不要受限。如果想进来就服从你的本心,因为你是有选择的权利。如果你足够优秀,你想进任何行业,都应该相信自己能成功。
而且不要觉得你是第一个吃螃蟹的,这个领域里有很多先行者。如果你真想成功,你可以研究你的前辈是怎么在这个行业里做到长期主义的,因为在科研或者科技领域,长期主义是需要一开始就有打算,而不是只凭一时兴趣进来。
另外,我觉得还是要鼓励女性进来。很多科技女性在技术开发阶段比男性更有温度,她们很多的技术可能最终就用到比如说教育和医疗。这是现在AI可能最重要的两个领域,未来需要女性从业者的智力或者能力,或者说她们的智慧。
封面图片来源:受访者供图