最近,复旦大学附属华山医院感染科主任张文宏“被带货”事件很受关注。不法分子利用AI技术,将张文宏在其他场合的讲话视频篡改为“张文宏在推广一种蛋白棒”,部分消费者信以为真。对此,张文宏接受媒体采访时辟谣,并表示AI生成信息像蝗灾一样,一次又一次发生,虽然向平台投诉,但感觉难以解决问题。
AI生成的视频真的没办法识别、治理吗?申城好网民专家、中国图象图形学学会(CSIG)文档图像分析与识别专委会常务委员、上海市图像图形学学会(SIGA)理事、合合信息图像算法研发总监郭丰俊给出了积极的回答。
眨眼、转头、站立可让假视频露馅
对一些粗制滥造或技术不太成熟的AI视频,观看者通过一些细节就能识别。
例如,“张文宏带货”属于非实时视频,观看者可以从“动作重复性”“眼球运动”“面部细节”等来发现AI生成的漏洞。目前,社交平台上的很多数字人也有同样的瑕疵。
具体来看,AI生成的视频可能会频繁重复某种动作,因为生成模型在动作匹配上存在局限,只学习到几个关键动作,然后通过重复来呈现一段视频。眼球运动、面部细节等是AI生成视频最容易“露馅”的地方,AI生成人物的眨眼频率、嘴部动作等往往不自然、不真实。
针对AI生成的实时视频,如用AI换脸等技术生成的“某位明星给你打电话”“某位朋友向你借款”等视频,也有识别办法。这个时候,观看者可以要求对方做一些大幅度的动作,包括转头、站起来等,再根据画面、面部扭曲程度来判定真伪。因为AI合成的实时视频往往无法在短时间内实现高质量渲染,从而出现漏洞。
目前,很多AI生成视频都存在缺乏个性化表情动作、画面抖动、违反物理规律等现象,它们属于“连续伪造画面的时序瑕疵”,有针对性地对鉴伪模型进行优化,就能从技术层面识别这类造假行为。还有,不少AI生成的视频人物面部会有明显瑕疵,包括内脸区域的五官与外脸区域的发型等不一致;在针对特定名人的AI造假视频中,这类问题更明显。技术研发者可以有的放矢地训练对应的鉴伪大模型,从而提高鉴伪效率。
注入“数字水印”,进行主动防御
随着AI技术发展,AI生成的视频已经越来越“精美”乃至“完美”,不要说人眼无法识别,可能连普通的鉴伪大模型都无能为力。这个时候,还有什么办法来识别AI造假?
郭丰俊表示,“用技术打败技术”已经成为很多AI开发者的共识,目前有不少开发者发布了深度伪造(Deepfake)专业检测器工具。比如,深度伪造检测平台Reality Defender可以为企业和政府检测图像、视频、音频、文本中的深度伪造等。
不过,这类检测都属于“被动防御”,就是利用技术来判断图像、视频中是否存在AI造假的情况。在此基础上,很有必要引入“主动防御”策略,通过在图像和视频中注入“半脆弱性数字水印”,从源头预防造假行为,并为“被动防御”提供更有力的技术支撑。
所谓“半脆弱性数字水印”,是指在不破坏原有图像、视频内容的基础上,在人脸等重要表征上嵌入隐藏的、肉眼不可见的水印信息。图像或视频一旦被编辑修改,水印就会被破坏;而使用数字水印检测器能很容易发现图像或视频是否进行过编辑,以及在哪里进行了编辑。
简而言之,“半脆弱性数字水印”与目前AI生成图像、视频时产生的“水印”不一样——它们并不直接呈现在图像或视频上,而是“刻”在图像与视频里,一经剪辑就会被破坏。
植入“半脆弱性数字水印”的身份证图像生动展示了这一新技术的价值:用肉眼看,这些身份证图像没有任何异常;但专业检测系统一扫描,立刻提示它们进行过编辑,并标注出编辑的部分——因为图像的“半脆弱性数字水印”被破坏了。
郭丰俊说,一方面,通过教育和宣传,能提高公众对AI造假惯用场景、识别方法的了解。另一方面,也要强化视频制作者、发布平台的责任感,除了在视频发布后有“被动防御”举措,更要有“主动防御”意识。如果创作者在发布原始视频时,就使用“半脆弱性数字水印”,或者平台为始发的视频、图像注入这一数字水印,那么此后不仅能通过数字水印检测器验证视频的真实性和完整性,还能实现溯源管理。
(解放日报)