AI改作文，靠谱不靠谱 | 测评

茕茕发自凹非寺
量子位报道 | 公众号 QbitAI

我，一个科技小编，最近在跟国外大佬的邮件交流中，感到飘过六级后的自己英语写作水平那真是日渐捉急。

从句怎么用？时态对不对？看着对面主编犀利的目光，那一瞬间，真想问问自己为什么不good good study, day day up。

于是，我决定了，我要好好学习英语写作！

想要提升水平，不自己动笔写总是差那么点意思。

那么，问题来了：写的好不好，谁来帮我批改呢？

其实，打从小学开始学英语，小学、中学、四六级、雅思托福……英语作文怎么提高从来都是一个难题。

尤其是各类考试，有严格的评分标准，可身边哪能时时有经验丰富的阅卷老师帮忙有针对性地修改提高呢？

听闻我的烦恼，一位网易有道的胖友向我招了招手：你看我手机里这个红色的App，里面最新上线了一只AI，能帮你批改英文小作文哟。

对啊，如果AI真的能准确评分，甚至给出修改意见，那像我一样的同学们不就能随时随地把英语作文练到飞起了吗？

略一调研，我发现，现在有AI批改英语作文功能的产品还真不少：网易有道词典、微软爱写作（小英）、批改网、Grammarly……

想到现在宅在家里的大朋友、小朋友可能也有同样的困扰，我决定亲自测试一下这些AI们到底靠谱不靠谱。

AI批作文，到底哪家强？

初筛一番，我挑选出了几个免费、容易上手使用的选手参与测评，分别是：网易有道词典AI作文批改，微软爱写作，以及Grammarly免费版。

那么，话不多说，让我们直接进入比赛。

Round 1：手写识别

像小学中学英语考试、四六级以及考研英语、雅思托福考试，实际应试时都需要在纸面上进行写作，因此在练习时，同学们也往往会选择手写。

写完一遍，再打一遍字，未免有些麻烦，如果拍张照，AI就能自己识别我到底写了什么，那就方便多了。

有道AI作文批改和微软爱写作均支持图片识别功能。而Grammarly……由于没有这一功能，这位选手选择暂时退场。

我使出洪荒之力，用非标准应试字体誊写了一篇作文，测试两位选手。

先来看有道AI作文批改的表现：

识别得相当准确，有涂改的地方也没有出现误识别的情况，为数不多的几个需要手动修改的地方，基本上都是手写时字母和字母之间空格太大，因此识别时成了两个单词。

再来看一下微软小英的结果：

由于我没写标题，小英强制把第一段都识别成了标题。忽略掉这一点的话，识别准确率也很高。但对于标点符号的识别不及有道AI作文批改敏感（上图红色标注处）。

还有个小问题：如果你把两个词写得比较开，小英会识别出多余的空格，检查得不仔细的话，会影响下一步评分的准确性。

另外，相比于只有网页版的微软爱写作，手机端的有道词典可以直接拍照识别，无需再倒一手把照片传到电脑上，还是要方便一些。

Round 2：纠错能力

如果说OCR只是影响用户使用方便与否的细节，那AI批改作文的重点，当然在于能不能准确抓住作文中的bug。

有道AI作文批改、微软小英和Grammarly都有识别文中语法错误并给出修改意见的功能。

这一轮，我们用一些单句来测试一下谁的Debug能力更强。

例句一：When the girl will leave, she fount an old begger in the tree and looked at angry and cold.

有时态错误，也有拼写错误。

有道揪出了4处错误：

具体的判断是：①疑似用词不当，建议将「will leave」修正为「left」；②疑似动词时态错误，建议将「fount」修正为「found」；③疑似名词误用，建议将「begger」修正为「beggar」；④疑似介词「at」冗余，建议删除。

把问题抛给微软小英，它也同样找出了这4处错误，并给出了一个单词替换建议。

具体判断是：①错误动词时态，将「will leave」改为「left」；②动词用法错误，将「fount」改为「found」；③单词拼写错误，将「begger」改为「beggar」；④冗余，删除「at」；⑤建议将「cold」换成「bitter」、「hard」、「mean」。

最后看一下Grammarly的判断。

Grammarly免费版指出了一处单词拼写错误，并建议我升级付费版。

同样，在「But this stress didn’t stop me from thinking to attend the biggist activity in our school」这个句子中，有道和小英都指出了3处错误：

介词「to」改「about」；动词「attend」改「attending」；「biggist」拼写错误，改为「biggest」。

而Grammarly免费版还是仅仅指出了「biggist」这个拼写错误。

看来，就免费体验来说，Grammarly的语法修改偏于简单了。

最后，给有道AI作文批改和微软小英出一个加试题。

例句二：On a cold morning, while I was watching a girl buy bread and milk in the fiont for me.

对于AI而言，这个句子的识别难点在于，同一个对象涉及了多个错误，「fiont」这个拼写错误后面，紧跟着「for」这个介词使用错误。

面对这一题，有道成功把「in the front of」这个整体识别了出来，既指出了拼写错误，也发现词组中介词的错误。

而微软小英的改法令人有些看不懂，难道是感应到了句子里主人公的内心戏？

这轮比拼结束，小小总结一下。

同样是免费，Grammarly免费版相比于两位中文世界的选手，差距有点大。

不过，Grammarly有插件版本，直接写邮件的时候，能够边写边纠错。

但如果是想要在AI的帮助下提升英语写作能力，Grammarly免费版恐怕不是上佳选择。

而有道AI作文批改和微软小英，都更符合国内的英语学习路径，总体表现都还不错。不过，在错误复杂度提高的时候，有道的表现略胜一筹。

Round 3：评分准确度

另一个重点，是评分的准确度。

毕竟，考试都有严格的评分标准，能否依据标准给出准确的打分，对于广大有应试需求的同学们而言还是非常重要的参考指标。

有道AI作文批改和微软爱写作，都支持多学段英语作文批改，涵盖小学、初中、高中、四六级、雅思托福和考研英语。

至于Grammarly，作为一款“舶来”应用，并不是很适合我考试大国的风格，没有推出打分功能，亦无法区分学段和考试类型。

不过，使用Grammarly，也可以针对自己的情况进行一些个性化设置，包括Audience（受众）、Formality（正式程度）、Domain（领域）。

问题还是，免费版选择有限。

我在网上找了一篇 7.5 分的雅思范文，人类老师对这篇作文的评价是：词汇丰富、语法点丰富，并且论证全面。

那么AI会如何评价这篇作文呢？

还是先来看看有道AI作文批改的答卷。

有道给这篇作文打了8分，并且就词汇、结构、语法和内容都给出了评级。

点击查看点评，还能看到AI阅卷官从词、句、篇章着手，对作文的总体评价，一些更高级词汇的推荐，以及好词的巩固。

……词汇量较为丰富……文章较为流畅……词汇基础扎实。

这样的评语，与人类老师的判断基本一致。

同样一篇文章，我们来看看微软小英怎么说。

同样给出了8分，比较特别的是，小英会统计作文中所使用的考纲词汇、逻辑连词和从句数量。

与有道给出的总体评价报告不同，小英给出的是文章结构、句间关系、切题程度、展开程度4个评价指标。

需要注意的是，如果想参考文章内容中切题程度这个指标，必须填写文章标题。而展开程度这个指标，我反复试了多篇作文，从高考范文到雅思范文，都是稳定一星……

这轮比拼结束，同样做个小结。

总体而言，有道和小英的评分结果都根据考试类型的不同，与考试评分标准对齐，具有参考价值。

在细节上，有道会根据字数、词汇使用情况、语句逻辑及衔接等方面给出综合评价，微软小英则是分点给出建议，主要集中在文章结构和句间关系两个方面。

不过，在测试中微软小英出现了一些小bug。

比如六级作文的满分是15分，但在得分界面其最高分却是25分。

背后技术

看来有道词典批改作文的AI，确实有两把刷子。

出于科技小编的好奇心，我向文章开头给我推荐软件的胖友打听了一下，在这背后究竟是怎样的技术。

以有道为例，其英语作文批改分为三个核心模块：评分模块 + 评语模块 + 纠错模块。

评分模块负责提供总分，及词汇、语法、结构得分，采用的是传统方法 + 深度学习方法。

评语模块提供全文评语、词汇推荐、范文推荐。

纠错模块提供14个类别的语法错误识别及修正，包括浅层的拼写错误、深层的语法错误等。

其中，拼写纠错运用的是基于BERT的NER实体识别技术。

语法纠错，则被定义为序列到序列的生成问题。核心基于Transformer架构。

核心模型所做的事，其实类似于翻译：将语法错误的句子翻译成语法正确的句子。

此外，在语法纠错中，还采用了迁移学习和对抗学习。用真实语料和基于真实用户错误分布生成的海量伪语料，不断提升模型能力。

以上是网易有道词典的质量评估结果。P值为精确率（Precision），R值为召回率（Recall），F0.5为P值与R值的调和平均，其值越高，通常表示算法性能越好。

可以看到，有道AI作文批改的测试结果已达行业领先水平。

好啦，看罢这一篇试用报告，不知道正备考四六级、雅思托福、考研英语的你愿意pick AI为你免费批改作文吗？

今天先酱，有其他烦恼需要评测AI工具，也可以留言区跟我说哦~

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

AI改作文，靠谱不靠谱 | 测评