在高考评分中,作文往往是最耗费工作量,也最具争议的一项。近年来,由于高考作文评价体系屡遭质疑,相关领域的专家学者开始思考运用机器评分,来取代准确度不高且耗时耗力的人工批改。11月26日,华东师范大学中文系副教授徐默凡,在华东师范大学一场有关“应试作文写作质量的计量和计算”的研讨会上,就机器在作文评分中的实现可能性进行了探讨,并对当下的应试作文评分进行了反思。
据徐默凡介绍,目前有望运用于机器评分的自然语言处理模型有三类,分别是基于规则识别、数据统计和神经网络的自然语言处理。
所谓基于规则识别的自然语言处理,是基于一定的规则对作文进行句法分析和语义分析,从而掌握对语言的理解和表达。徐默凡认为,这条对于作文机器评分是走不通的。因为首先,人类自身并未建构起准确的作文评分标准;其次,作文评价标准涉及到的因素比句子理解更多,思想、逻辑、结构、语言等要素难以规则化。
第二种模型则是基于神经网络的自然语言处理。它的原理在于运用脑科学和仿生学,模仿人脑对信息的处理方式。然而在徐默凡看来,这种模型也不适合用于机器评分。除了训练复杂度高,费时费力之外,无法对它的信息处理过程进行探测和评估,因而结果的可解释性差。
更重要的是,这种模型牵涉到了关键的智能伦理问题。AlphaGo的横空出世令人惊诧,而相比围棋,作文更是人类智能的体现。如果将作文评分交给人工智能,很容易引起伦理上的反感甚至恐慌。高考这一事关很多人前途的重大考试,若完全交由人工智能去判断评分,很有可能会造成“机器将会人类社会”的联想。
于是相比之下,基于数据统计的自然语言处理才是更适合机器评分的模型。这种数据统计的基本原理是,一个句子是否合理,不必了解它的句法语义,只需要考察它在人类说过的话中出现的可能性大小如何:出现的可能性越大,即越合理;可能性越小,则越不合理。理论上,进行这种自然语言处理时,需要把人类讲过的所有话都统计一遍;然而在现实中,进行词频统计就已绰绰有余。“词频统计现在已经是比较成熟的研究了,”徐默凡说,“在实际中,也可以考虑到前后文的关联和影响。只是考虑的词越多,意味着计算也会越复杂。”
徐默凡指出,数据统计可以有效背作文和套作文的行为。如今中高考已成为了背作文和套作文的重灾区,同一个教师教出的学生了一样的范文,因而考试时写出相似的作文,这一普遍现象若依靠人量是很难被察觉的。这里就是机器大显身手的地方了。它可以通过统计给出重复率百分比,并自动摘要出不同考生所写的相同事例,再由人工鉴定是否是作弊。
此外,作文的语言规范度也可以使用统计测量。通过计算每篇作文的概率值,概率值越高说明语言用法越常规,以此就可以识别不规范的语言用法。“当然,概率低也有一种可能,那就是作文在语言上进行了创新,使用了一些新颖的表达。在此使用统计法,至少可以挑出概率低的表达,进而进行人工筛查,重点关注,再根据不同类型的作文要求赋分。”徐默凡说。
在对现有的技术在实现机器评分的可行性上进行分析讨论后,徐默凡又引入了一个话题:作文真的可以测量考生的语文水平吗?
高中语文老师主要将精力用在了总结应对高考作文的技巧上,只教学生应付考试的方法,而疏忽了真实语文能力的培养。因为学生只要掌握了应试技巧,就能够在高考作文中拿到高分,然而这并不足以证明其语文能力的优秀。从另一方面看,这也证明了现今的高考作文命题与评分机制在衡量考生语文水平的高低上存在一定的困难。因而作文能否体现语文水平,又是怎样测量语文水平的,成为了一个值得深思的话题。
徐默凡表示,很多人认为作文水平只能整体,因此机器无法胜任,人类也无法。但这一问题并非无解。他犀利地指出,既然目前的作文评价量表可以将考生的作文水平分解为语言表现、思想内涵等等,为何不为每一项能力的评估专门设计一套试题?让作文从繁琐而模糊的评分体系中开来,换以更清晰也更有针对性的试题,岂不更好?
对于这一颇具性的提议,现场专家学者不尽赞同。“能写出一篇篇幅较长的文章,就是对考生能力的最大肯定。并且中国有漫长的写文章的传统,不可轻易中断。”在场的一位学者说。看来,有关应试作文的命题评分体系的,还有很长的要走。
推荐: