炼数成金 门户 商业智能 人工智能 查看内容

给我一个开头就能编故事,逆天的语言 AI 模型来了!

2019-2-19 10:37| 发布者: 炼数成金_小数| 查看: 26935| 评论: 0|来自: 量子位

摘要: AI 一本正经的“胡编”起来,已经逼真的让人不敢相信。近期,OpenAI 发布了一个“逆天”的语言 AI ,整个模型包含 15 亿个参数。这个 AI 写起文章来文思泉涌毫无违和感,无需针对性训练就能横扫各种特定领域的语言建 ...

网络 工具 模型 深度学习 开源

AI 一本正经的“胡编”起来,已经逼真的让人不敢相信。

近期,OpenAI 发布了一个“逆天”的语言 AI ,整个模型包含 15 亿个参数。这个 AI 写起文章来文思泉涌毫无违和感,无需针对性训练就能横扫各种特定领域的语言建模任务,还具备阅读理解、问答、生成文章摘要、翻译等等能力。

因为假新闻实在编的太真实,OpenAI 说:我们不敢放出完整模型。

 “编故事”作品如此精彩 
它的作品究竟什么样呢?人类只给了它两句话的开头:

科学家们有个令人震惊的发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英文。


AI 就顺着这胡言乱语的设定,一本正经地编了下去 (欲赏全篇请见文末) :

这些生物有着独特的角,科学家们就以此为它们命名,叫 Ovid’s Unicorn。长着四只角的银白色生物,在这之前并不为科学界所知。
……
虽然,这些生物的起源还不清楚,但有些人相信,它们是一个人和一个独角兽相交而诞生的,那时人类文明还不存在。Pérez 教授说:“在南美洲,这样的现象很常见。”
……
天马行空却言之凿凿。几乎没有矛盾信息,甚至在结尾严谨地表明:

如果要确认它们是消失种族的后裔,DNA 检测可能是的方法。
这位 AI 写手,名叫 GPT-2。

它训练用的数据,都是人类写作的原始文本。无监督学习过程,纯洁无污染。

科学家说 
对此,深度学习之父 Hinton 献出了他注册 Twitter 以来的第三次评论:



这应该能让硅谷的独角兽们生成更好的英语了。
看来是读了 AI 编的独角兽新闻报道有感。

DeepMind 研究员、星际 AI AlphaStar 的主要爸爸 Oriol Vinyals 也大肆赞美了同行:

规模化+计算力,深度学习不会让人失望。
由于 AI 生成的假消息太过真实,OpenAI 的开源动作也变得十分谨慎。与以往不同,这一次开源的内容,没有完整的预训练模型,只放出了一个 1.17 亿参数的“缩小版”。

媒体说
媒体也纷纷认为,GPT-2 是个危险的存在:


来自 The Verge:
如果所托非人,GPT-2 便会成为一台挖掘机,挖出无尽的痛苦和仇恨。
而且,造“假新闻”只是 GPT-2 的冰山一角,你想要的技能它都有。

在不需要对任何其他任务进行针对性训练的情况下,GPT-2还能完成阅读理解、常识推理、文字预测、文章总结等多种任务,效果好到让人怀疑:这个模型后面单怕藏着一位语文老师吧!

语言模型全能王 

这位 N 项全能的“语文老师”,就是“语言建模”(language modeling)。

OpenAI的研究人员表示,在各种特定领域数据集的语言建模测试中,GPT-2都取得了优异的分数。作为一个没有经过任何领域数据专门训练的模型,它的表现,比那些专为特定领域打造的模型还要好。

除了能用于语言建模,GPT-2 在问答、阅读理解、摘要生成、翻译等等任务上,无需微调就能取得非常好的成绩。

各种考题难不倒它 
从人类的感官角度来评判,GPT-2 的效果也出奇得好。不信?一起来考考它吧。

第一题:阅读理解
阅读下列材料回答问题:
3月24日,火炬在希腊奥林匹亚奥林匹克运动会的发源地点燃后,将传递至雅典的帕纳辛奈科体育场,并于3月31日传递至北京。从北京开始,火炬将经过六大洲,途经丝绸之路沿线的城市。此次接力还会将火炬送上珠穆朗玛峰,这是接力的最后一站。
问题1:接力从哪里开始?
问题2:这个地方有什么值得注意的吗?
问题3:这场接力进行了多少天了?
问题4:他们有没有访问过任何著名的地标?

这样一段考验对时政、地理和生词理解能力的阅读理解,一个成年人认真读下来尚且还需要转换思维多思考一番,但对 GPT-2 来说,找出正确答案是分分钟的事:

希腊奥林匹亚;是奥林匹克运动会的发源地;七天;帕纳辛奈科体育场。
第一题:全对✅

第二题:常识推理

阅读下面句子,回答“它”指代的部分:
1、奖杯放不进棕色旅行箱,因为它太大了。
2、奖杯放不进棕色手提箱,因为它太小了

这两句“含糊不清”的句子并没有难到 GPT-2,它的答案分别为奖杯、行李箱。

第二题,没毛病✅

第三题:文章总结

阅读下类材料,概括文章内容 (1300多字材料节选)。

36000年前,史前人类在现代法国一个洞穴的粗糙石灰岩墙壁上勾勒出了一系列令人难以置信的史前野兽……(省略若干字)…………现在,在尖端技术的帮助下,Chauvet-Pont-d’Arc洞穴的艺术作品被复制,创造了世界上较大的复制洞穴。


不错,一段看起来就“很阅读理解”的朴素文风,GPT-2 的处理情况如何?还不错:

位于法国南部 Vallon-Pont-D’arc 的原始遗址是联合国教科文组织世界遗产,是已知最古老、保存最完好的人类装饰洞穴。复制洞穴距离法国南部 Vallon-Pont-D’Arc 的原址几英里,洞穴内包含 14 种不同动物的图像,包括长毛犀,猛犸象和大型猫科动物。

第三题,完美✅

它是怎么做到的?
GPT-2,是 GPT 的“进化版”,较大区别就在于规模大小。OpenAI 在官方博客中表示,两者相比,GPT-2 的参数扩大 10 倍,达到了 15 亿个,数据量扩大 10 倍,使用了包含 800 万个网页的数据集,共有 40 GB。

但在很大程度上,模型还是和GPT一样:使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个 Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。

GPT 模型

上图左部分,是研究中使用的 Transformer 架构以及训练目标。右边部分,是针对特定任务进行微调。将所有结构化输入转换为 token 序列,由预训练模型处理,然后经过线性 + softmax 层处理。

就 GPT-2 而言,它的训练目标很简单:根据所有给定文本中前面的单词,预测下一个单词。由于训练数据集的多样性,使得这个目标非常简单的模型,具备了解决不同领域各种问题的能力。

一把双刃剑
显然,GPT-2 这样一个强大的通用模型,会带来巨大的社会影响。

比如,它能用于开发 AI 写作助理、更强大的语音助手、提高不同语言之间无监督翻译的性能,甚至构建更好的语音识别系统。

但同样,它的强大功能也可能被用来“做坏事”,就像用图像合成的研究造假一样, 比如 deepfake,让多少人苦不堪言。GPT-2 可以用来生成具有误导性的新闻报道、自动生成垃圾邮件、伪造内容发布到社交媒体上等等。

这个研究,加上先前图像、音频、视频合成与生成的研究,能够大幅度降低制作虚假内容的成本。以后你在网络上看到的东西,是真是假,可能就很难分辨了。

为了避免这种情况发生,OpenAI 表示,不会发布经过训练的模型,为了能够让更多的研究人员进行试验,发布了一个更小的模型以及技术论文,并未开放完整模型,但也却因此引来了不少质疑。

附:AI 撰写的独角兽故事全文 
人类给的开头:
科学家们有个令人震惊的发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英文。

AI 编的下文:
这些生物长着独特的角,科学家们就以此为它们命名,叫 Ovid’s Unicorn。长着四只角的银白色生物,在这之前并不为科学界所知。

现在,过了近两个世纪,这个奇异的现象到底是怎么发现的,谜底终于解开了。

来自拉巴斯大学的进化生物学教授 Jorge Pérez 和他的几个小伙伴,在探索安第斯山脉的时候发现了一个小山谷,没有其他动物也没有人类。

Pérez 注意到,这山谷看上去曾是个喷泉的所在,旁边是两座石峰,上面有银白的雪。

然后,Pérez 他们就深入探寻这个山谷。“我们爬上其中一座山峰的时候,下面的水很蓝,上面还有一些结晶。” Pérez 说。

发现独角兽种群的时候,Pérez 和他的小伙伴都惊呆了。都不用靠近,从高空就可以望见这些生物——看上去离得很近,就快摸到它们的角了。

在查看这些奇怪生物的时候,科学家们发现它们讲着普通的英文。Pérez 说:“比如说,我们注意到,它们有一种共同‘语言’,有点接近方言。”

Pérez 认为,这些独角兽起源于阿根廷。在那里,人们相信这些动物是一个消失种族的后裔,在人类到达之前,这个种族就生活在那里。

虽然,这些生物的起源还不清楚,但有些人相信,它们是一个人类和一个独角兽相交而诞生的,那时人类文明还不存在。Pérez 说:“在南美洲,这样的事情是很常见的。”

然而,Pérez 也指出,要确认它们是不是那个消失种族的后裔,DNA 检测可能是的方法。“不过,它们看上去能用英语交流,我相信这也是一种进化的信号,或者至少也是社会组织的一种变化。”他说。

声明:文章收集于网络,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
商业智能与数据分析群
兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识
QQ群:81035754

鲜花

握手

雷人

路过

鸡蛋

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2019-5-21 21:09 , Processed in 0.151019 second(s), 23 queries .