转自 关注前沿科技 量子位
晓查 郭一璞 发自 凹非寺量子位
报道 | 公众号 QbitAI
今天是高考第一天,我猜,你一定在看全国各地那些奇奇怪怪的高考作文题,还要纠结一下:
这题目,该怎么写?
那,写不出来不如扔给AI,看看能生成什么文章?
正好,最近清华的AI写诗模型「九歌」开源了,给它一个关键词,它就能立即赋诗一首。
虽然大部分考卷都规定了“诗歌除外”,但我们偏要拿它来试一试。
AI的高考作文
「九歌」可以生成绝句、律诗、藏头诗、词等多种诗词,在Demo网站里,只要输入关键词,就可以自动生成。
那我们就把各地的作文题目当做关键词放进去试试。且看各地考卷在AI笔下会变成什么样?
天津卷“中国面孔”
“中国面孔”是全球热播纪录片里充满家国情怀的杜甫,是用中医药造福人类荣获诺贝尔奖的屠呦呦,是医务工作者厚重防护服下疲惫的笑脸,是快递小哥在寂静街巷里传送温暖的双手……也是用各种方式共同形塑“中国面孔”的你和我。
走过2020年的春天,你对“中国面孔”又有什么新的思考和感悟?请写一篇文章。
先来一首七言绝句:
能看出是一首有民族自豪感的诗,虽然开头的“平生面面”让人有点看不懂,但后两句“四海共推周典礼,百年谁识汉文高”看起来对仗工整的两句诗。
再来一首《忆江南·中国面孔》:
这首词就和前面完全不一样了,整体都丧丧的,开头就是中原国破,山河不再的凄凉感,后面还有一个回不去的老头子。
咦,有种熟悉的感觉,仿佛在洗稿陆游的《示儿》:
死去元知万事空,但悲不见九州同。王师北定中原日,家祭无忘告乃翁。
北京卷作文题1:北斗卫星相关
2020年6月23日,北斗三号最后一颗卫星成功发射,整个系统55个卫星织成一张“天网”每一颗都有自己的功用。以材料“每一颗都有自己的功用”为话题,自选角度,自拟题目,写一篇议论文。
嗯,题目是「北斗卫星」,我们试一下:
生成又是感叹时光易逝、岁月变迁的诗,一点都不正能量。
不知道诗中的情感这么丧,会不会被判卷老师打低分?
但写首藏头诗效果就好得多了:
「夜月」、「夕阳」、「草木」……看起来是是在描述自然景观,可是开头代表战争的「旌旗」暴露了一切。
嗯,背后的AI一定是一个鹰派的诗人。
写词的效果,也有些类似,比如这篇《如梦令·北斗》:
怎么一说「北斗」,就全是星星月亮的啊?
北京卷作文题2:一条信息
当今时代,我们每天都会面对各种各样的信息。其中有一条信息,或引发了你的感悟,或影响了你的生活,或令人振奋,或使你愧疚,或让你学会辨别真伪……请以“一条信息”为题,联系现实生活,展开联想或想象,写一篇记叙文。要求:思想健康;内容充实,有细节描写;语言流畅,书写清晰。
请以“一条信息”为题,写一篇记叙文。字数仍要求不少于700字。
写一首七言绝句:
真是佛系的诗,简直是“信息人间造成的一百种焦虑的消除方法”,劝你不要在网上跟人吵架,自己玩自己的吧?
全国II卷:“携手同一世界,青年共创未来”主题演讲
墨子说:“视人之国,若视其国;视人之家,若视其家;视人之身,若视其身。”英国诗人约翰·多恩说:“没有人是自成一体、与世隔绝的孤岛,每一个人都是广袤大陆的一部分。”
“青山一道同云雨,明月何曾是两乡。”“同气连枝,共盼春来。”……2020年的春天,这些寄言印在国际社会援助中国的物资上,表达了世界人民对中国的支持。
“山和山不相遇,人和人要相逢。”“消失吧,黑夜!黎明时我们将获胜!”……这些话语印在中国援助其他国家的物资上,寄托着中国人民对世界的祝福。
“世界青年与社会发展论坛”邀请你作为中国青年代表参会,发表以“携手同一世界,青年共创未来”为主题的中文演讲。请完成一篇演讲稿。
我只输入了“携手同一世界,青年共创未来”这个主题,难道AI自动读出了要代表中国青年参加世界大会的意思?全篇都是场面话,又是「仙」,又是「贤」的,如果是根据训练模型的数据集来的,那看来古人写诗也是充满了彩虹屁。
全国三卷:自画像
人们用眼睛看他人、看世界,却无法直接看到完整的自己。所以,在人生的旅程中,我们需要寻找各种“镜子”、不断绘制“自画像”来审视自我,尝试回答“我是怎样的人”“我想过怎样的生活”“我能做些什么”“如何生活得更有意义”等重要的问题。
毕业前,学校请你给即将入学的高一新生写一封信,主题是“如何为自己画好像”,与他们分享自己的感悟与思考。
注意第三句,不是「掉发」,不是「掉发」,不是「掉发」。
什么是九歌
九歌是清华自然语言处理与社会人文计算实验室(THUNLP)研发的自动诗歌生成系统,基于超过一千多年来80万首中国古诗进行训练学习。
该团队由清华孙茂松教授带领,多位博士、硕士、本科生参与开发。
九歌系统最早可以追溯到2017年,当年还登上了央视挑战类节目《机智过人》,与人类同台比拼诗词创作,让在场观众都难辨AI与人类。
经过这些年的发展终于在7月2日,清华九歌团队宣布将古诗写作模型MixPoet开源。
AI发展到今天,NLP模型来写文章已经不稀奇了。和其他模型相比,九歌多了些人文气息。
如果告诉它以“明月”为题来赋诗一首,那么九歌能写出几首不重样,而且每一首都带有不同的感情色彩。
如果说其他的AI诗歌生成器是“强行”拟合语料库,那么九歌可以说是熟读《声律启蒙》,掌握古诗词基本规则,而非一通乱扯。
最近,我们从团队公开的数据集也可看出他们的细致用心,可以说九歌是站在人文和AI的十字路口。
九歌依靠四大数据集保证了AI能够学习到人类作诗的基本法则。
首先是学习古代著名诗人的句法。
CCPC是中国古典诗歌语料库,收纳了从隋朝到明朝的所有古诗,每首诗都附带作者姓名、朝代、标题以及自动提取的关键词。
比如:
<code style="white-space: pre-wrap;"><span class="code-snippet_outer"><span class="code-snippet__section">{“dynasty”: “Tang”, “author”: “杜牧”, “content”: “李白题诗水西寺|古木回岩楼阁风|半醒半醉游三日|红白花开山雨中”, “title”: “念昔游三首 其三”, “keywords”: “题诗 花开 楼阁 山雨”}</span></span></code>
其次是学习诗歌的声律。
CRRD是古诗音律数据集,将汉字按照古代的平仄声进行分类。古诗不仅要押韵,也要符合平仄规律。例如诗的第一句是「仄仄平平仄」,那么第二句就应该是「平平仄仄平」。
然后是学习诗歌中表达的情感,给AI加上一点人文气息。
FSPC是细腻情感诗歌语料库,将每首诗、每行注释都分为5类情感,即否定、隐含否定、中性、隐含肯定和肯定。
诗歌写得好不好,最终还需要人类判定。
PQED是手动注释的诗歌质量数据集,按照以下四个标准对诗歌评分,每项得分为1到5分:
给文科生一个报考清华的理由
你觉得,如果李白杜甫白居易们的作诗水平是满分10分,九歌的作诗水平能打几分?
「九歌」虽然只是一个实验研究性项目,但其实,背后的自然语言处理(NLP)技术,才是大有用途的AI领域。
你可以「调戏」的小爱同学、Siri、天猫精灵们,需要NLP技术支撑,才能听懂人类的语言;
手机输入法里长按空格键就可以实现的语音输入功能,也要靠NLP技术,才能准确的呈现你想要说的句子;
无论是在百度还是在淘宝,要靠NLP技术拆解你输入的文字,才能搜索出你需要的资料或商品;
还有谷歌翻译、翻译笔、微信聊天中的自动翻译,背后都要依靠NLP技术;
……
人类和语言相关的工作,都可以自动完成。
而这些技术的开拓,并非只靠程序员写代码、跑数据、调参数就可以完成,同样需要语言文学方面的专家支持。
(准备)学中文的朋友们,你们以后可能不只能够当人类学生们的语文老师了,说不定毕业后就可以进入NLP方面的实验室,当AI的语文老师。
虽说「文科选北大,理科选清华」,九歌也是给文科生报考清华找到了一个理由吧。
最后祝愿所有考生高考顺利!
传送门
论文链接:
https://arxiv.org/pdf/2003.06094.pdf
代码链接:
https://github.com/THUNLP-AIPoet/MixPoet
参考链接:
https://mp.weixin.qq.com/s/uw7uDV94z3iQsn1v_NKiYwhttp://nlp.csai.tsinghua.edu.cn/news/九歌多样化古典诗歌机器写作模型mixpoet开源/