高达吧 关注:616,973贴子:28,377,008
  • 13回复贴,共1

《经济学人》:GAN能伪造音视频文件,眼见不再为实

只看楼主收藏回复

来源:雷锋网
本文作者:晞萌 编辑:郭奕欣 2017-07-03 17:43
导语:机器学习算法GAN(生成对抗网络,generative adversarial networks)能够生成图像和声音,这可能使得图像和声音不再那么可信。


IP属地:福建1楼2017-07-04 09:35回复
    在今年早些时候,一段关于法国音乐家Françoise Hardy的YouTube视频在网上流传。视频中,台下的人问她,为何唐纳德·特朗普会让其新闻秘书Sean Spicer在就职典礼人数一事上撒谎。Hardy回答说,此事是极有争议的,Spicer先生给出了“多种事实”。


    IP属地:福建2楼2017-07-04 09:35
    回复
      2025-06-09 17:05:09
      广告
      这一视频的内容很奇怪,尤其是Françoise Hardy女士本人。虽然她现在已经73岁了,视频中看起来却只有20岁,而且她说话的声音像极了特朗普的顾问Kellyanne Conway女士的声音。
      实际上,这段视频是德国艺术家Mario Klingemann的杰作“Alternative Face v1.1”,通过用一个人的脸建模生成式对抗网络,生成新的面孔。这是基于Conway女士的一段NBC采访生成的假视频,原本是关于Conway女士一段声名狼藉的对话,却通过Hardy女士之口说了出来。Mario Klingemann使用不同的声音片段作为输入数据,基于Françoise Hardy女士的脸进行训练。视频看起来有些摇晃,且像素也被调整过。其实通过视频软件来制作可能画面效果会更好,但是Klingemann没有使用编辑软件来完成视频,相反,他只花了几天时间在台式电脑上用一种机器学习算法——生成式对抗网络(GAN)来创建了一个剪辑视频,电脑被强制输入Hardy女士的音乐视频后,自动生成了Klingemann想要的声音片段,在这段假视频中放出的声音片段其实是不存在的,Hardy女士从未说过这些话。


      IP属地:福建3楼2017-07-04 09:36
      回复
        Klingemann先生的实验让虚假视频走入大众视线,预示着未来可能会有一场关于真伪视频的战争。原本书面的信息可以轻易的伪造,图像和声音却难以伪造,因此图像和声音证据原是非常可信的,但目前GAN的存在可能会改变这一局面,它可能会让图像和声音变得也不那么可信了。
        事实上音频更容易伪造。通常情况下,计算机通过连接大量语音短记录片段来创建一个句子,这也是Siri声音的生成原理。但这样的数字声音受限于它们记住的片段范围,因此数字声音只有在说到某些特定短语的时候才听起来真实。
        而GAN 生成音频的工作方式则不同,它使用神经网络算法来学习音频源的统计属性,然后在任何其他的上下文中再现这些属性,以毫秒级而非秒级的片段建模。如果我们想要让特朗普或者其他任何一个公众人物说出指定的话,其实就是将对应人物的演讲材料作为输入,告诉算法你想要输出的语音是什么。在过去几年里,谷歌在英国的DeepMind团队,百度在硅谷的深度学习研究院和蒙特利尔研究院,都发表了从文字到语音的高性能算法。目前这些算法只有大型公司的计算能力才能实现,但这种情况终将改变。
        相比音频,机器生成图像更难实现。 2014年,Ian Goodfellow推出了GANs,彼时他还是 Yoshua Bengio在MILA的学生。尽管深度学习允许机器能够轻易完成图像识别的任务,辨别不同种类的数据,比如机器能轻易分辨一张猫和一只狗的图片,但是想要机器能自动生成猫和狗的图片就没那么容易了,计算机很难通过数据库中的大量训练图像,自动生成有意义的图片。
        Goodfellow转而想到了另一种方法实现图像生成:竞争。不再请求软件凭空生成有用的东西,而是提供了另一个软件作为原软件的对手来推动图像生成。对手会辨别原软件生成的图像,判断它们是否“真实”。通过试图愚弄对手,生成软件学会创造看起来真实的生成图像。对抗软件“了解”现实世界是什么样子,因此赋予了生成图片意义和界限。


        IP属地:福建4楼2017-07-04 09:36
        回复
          目前,GANs可以根据一句语言的描述,生成小型的邮票大小的图像。当你告诉GANs,“这只鸟是白色的,有一些黑色头和翅膀,并有一个长长的橙色喙“,它会为你画出来。可能画出来的图像并不完美,但一眼看过去却很真实。
          当时这样的算法效果并不出奇,但GAN的发展非常迅速。在过去五年中,由相似算法推动的照片分类软件错误率已从25%降低到百分之几。人们期望图像生成领域也能取得同样的进展。谷歌的机器学习艺术家麦克·泰卡已经通过训练GANs算法生成了人脸的图像,分辨率像素大小为768,这像素超过了以前同等研究实验像素的两倍。


          IP属地:福建5楼2017-07-04 09:37
          回复
            Goodfellow现在在搜索巨头谷歌的内部AI研究院Google Brain工作,如果一定要估计这一算法实现时间的话,他认为,生成YouTube假视频有可能在三年内实现。其他人则认为可能需要更长时间。但是所有人都同意这只是时间问题,而不是能不能实现的问题。Goodfellow说道,“我们认为AI会改变我们所信赖的证据——图像和音频”。
            本文为雷锋网根据《经济学人》编译,未经雷锋网许可不得转载。
            原文链接:http://www.economist.com/news/science-and-technology/21724370-fake-news-you-aint-seen-nothing-yet-generating-convincing-audio-and-video-fake,雷锋网(公众号:雷锋网)编译


            IP属地:福建6楼2017-07-04 09:37
            回复
              请首先用来去码……


              IP属地:广东来自Android客户端7楼2017-07-04 09:39
              收起回复
                并不用AI就可以办到啊,好莱坞,白头盔不都会化妆cg拍片么。。。


                IP属地:江苏来自Android客户端8楼2017-07-04 09:41
                回复
                  2025-06-09 16:59:09
                  广告
                  为什么我首先想到的是以后配音要不值钱了


                  IP属地:北京来自iPhone客户端9楼2017-07-04 09:42
                  回复
                    绅士福利啊


                    IP属地:广东来自Android客户端10楼2017-07-04 09:43
                    回复
                      这一天终究是会来的


                      IP属地:江苏来自Android客户端11楼2017-07-04 09:45
                      回复
                        深度学习改变了机器学习领域,带来了很多不好的东西!


                        来自Android客户端12楼2017-07-04 13:37
                        回复