关闭
当前位置:首页 - 西甲联赛 - 正文

阿尔法罗密欧,GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分-欧凯cosplay,cosplay爱好者之家,为你的兴趣爱好寻找相同的爱好者

admin 2019-10-09 300°c

栗子 发自 凹非寺

量子位 报导 | 大众号 Qb刀塔传奇itAI

GRE作文用了AI打分。

这原本不能算个新闻。

但由于美媒VICE发布的一项查询,这件事又成了火热谈论的焦点。

VICE查询了美国的50个州,发现有至少21个州 (包含加州) 的教育体系,现已把AI当成作文打分的首要/第二首要东西,用在标准化考试里。

蓝=AI打分,浅蓝=有试点,红=无AI打分武夷山气候预报,桃红=看学区,灰=未回应

这21个州里,只要3个州标明,人类也会参加作文打分;余下18个州,只会随机抽出5%-20%的作文,交给人类复核一下AI给的成果。

问题是,标准化考试常常作为选拔根据,左右人类出路。AI打分的话,命运就在AI手里了。

这时,人们难免想起了GRE,这个20年前就开端用AI判作文的大长辈。

有有不少研讨标明,包含GRE打分机器e-rater在内,许多AI评判文章的机制,都有显着的缺点。

不过经年累月,AI不光没有被各种作文考试扔掉,反而越发受欢迎了。

所以,Hacker News网友敞开了剧烈的谈论,不到一日热度便有了330+。

GRE:机器比人更偏心我国考生

早在1999年,主办GRE的美国教育考试服务中心 (ETS) ,就开端用e-rater给作文打分了。

跟据官方信息,这个自然语言处理 (NLP阳痿早泄) 模型,评分标准有以下8条:

根据词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures)

词汇杂乱度/遣词 (Lexical Comlexity/Diction)

语法过错份额 (Proportion of Grammar Errors)

用法脐带绕颈一周过错份额 (Proportion of Usage Errors)

机械过错份额 (Proportion of Mechanics Errors)

指拼写错、巨细写错、标点错等等技能问题。

风格谈论份额 (Proportion of Style Comments)

比方,某个短语出现过多,太短的语句过多,太长的语句过多等等。

文章安排和开展分 (Organization and Development Scores)

地道用语 (Features Rewarding I假面骑士amazonsdiomatic Phraseology)

根据词汇考量的内容分析 (Content Analysis Based on Vocabulary Measures)

词汇杂乱度/遣词 (Lexical Comlexity/Diction)

语法过错份额 (Proportion of Grammar Errors)

用法过错份额 (Proportion of Usage Errors)

机械过错份额 (Proportion of Mechanics Errors)

指拼写错、巨细写错、标点错等等技能问题。

风格谈论份额 (Proportion of Style Comments)

比方,某个短语出现过多,太短的语句过多,太长的语句过多等等。

文章安排和开展分 (Organization and Development Scores)

地道用语 (Features Rewarding Idiomatic Phraseology)

当然,这只AI不止服务GRE。至少,托福和GRE相同,也是ETS出品的考试。

至于这套算法的缺点都出在哪,ETS官方就做过不少研讨,且从不避忌研讨成果。

在1999、2004、2007、2008阿尔法罗密欧,GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分-欧凯cosplay,cosplay爱好者之家,为你的兴趣爱好寻觅相同的爱好者、2012和2018年的作文里挠脚心视频,都能发现AI给我国大陆考生的分数,遍及比人类打分要高。

相反,恋上黑天使在非裔美国人身上,AI常常比人类给分要低。在母语是阿拉伯语、西班牙语和印地语的考生那里,也有类似的状况。即使团队一向改善算法,也阿尔法罗密欧,GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分-欧凯cosplay,cosplay爱好者之家,为你的兴趣爱好寻觅相同的爱好者没有消除这个问题。

ETS的一位高档研讨员说:

假如咱们想让算法对某个国家的某个集体友爱一些,那就很或许会损伤到其他集体了。

墨女赋

假如咱们想让算法对某个国家的某个集体友爱一些,那就很或许会损伤阿尔法罗密欧,GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分-欧凯cosplay,cosplay爱好者之家,为你的兴趣爱好寻觅相同的爱好者到其他集体了。

再进一步,分单项来查询AI的打分状况。

会发现在悉数考生里边,e-rater给我国大陆考生的语法(Grammar) 和写作技巧(Mechanics) 分,全体偏低;

而在文章长度和杂乱单词合肥气候30天的选用上,我国大陆考生的AI打分超越均匀。终究,AI给大陆考生的总分,全体比人类打分更高。GRE作文满分6分,AI比人类打分均匀高出1.3分

相比之下,在非裔美国人身上,AI浅笑28猜测比人类打分均匀要低0.81分。以及,这仅仅均匀数据,在许多考生那里,差异来得比这更剧烈。

不论是1.3仍是0.81,在6分制的考试里都不是小数字,或许严峻影响考生的成果。

不止如此,MIT的小伙伴们开发过一个叫BABEL的算法,把杂乱的词句拼贴在一同,得出的文章没有任何真实的含义,却被GRE的线上评分东西ScoreItNow!打出了4分的好成果。

但ETS说,AI不是独自判卷,每篇AI打分的作文,都有一个人类一同打分。然后,把人机打分之间的差异,交给第二个人类去判别,得出终究的分数。

所以,ETS以为考生并不会遭到AI缺点的晦气影响。

不过比照一下,传统办法是两个人类一同给一篇文章打分;而当AI代替其间一人打分,相当于这个人的责任变成了复核。

本钱大约下降了不少,对成果的影响有多大就很难说,至少打分机制和AI参加之前有差别了。

别的,AI的存在不止影响评分,也直接影响考生的应试战略。这些年,巴结AI的攻略越来越多:

来自ChaseDream论坛@竹林中人

还好,GRE有人类和AI一同打分。

可还有许多考试是直接交给AI判作文的:

不止GRE算法有问题

比方,VICE查询发现,犹他州把AI作为首要 (Primary) 作文评分东西,现已有些年初了。

州内的一位官员解说了原因:

手动打分除了消耗时刻之外,也是本州一项严峻开支。

手泽北哲治动打分除了消耗时刻之外,也是本州一项严峻开支。

所以,用AI来为写作评分,在降低本钱的一同,能不能做到公平公平?

美国研讨协会 (American Institutes of Research,AIR) 是一间非盈利组织,也是犹他州最首要的考试提供方。

关于交给AI打分的是怎样的标题,AIR给出了一个范本:

这道标题是,看到一张海牛图画,考生要写出一个查询 (A) ,和一个推理 (B) 。

而AIR每年都会做出一份陈述,评价一些新标题的公平性。

评价的一个要点便是:女生和少量族裔学生,在特定考题上,是不是比男性/白人的体现要差。这个目标叫做“差异试题功用 (DIF) ”。

陈述显现,2017-2018学年、三至八年级的写作考题里,有348题被判定为,对女生和少量族裔学生有细微DIF;相比之下,对男生和白人学生有细微DIF的标题有40

别的,还有3道题被判定为:对女生和少量族裔学生有严峻DIF。这些标题会交由专门的委员会审阅。

或许形成DIF的原因有多种,而算法成见是我们最关怀的要素。

一位来自犹他州的家长 (@dahart) ,占有了Hacker News谈论版的顶楼。

他很不喜爱听那些官员讲“本钱”。他觉得,教育原本便是费时吃力的,不或许又快又廉价。

他说,孩子的作央视一套节目表文是机器打分,全家不满意AI给的分数,爱人和孩子都会哭。

One More Thing

当然,AI判作文也不止美国才有。

上一年,《南华早报》说国内现已有6万所校园靠AI修改作业,散布在全国各地。

其间,学生提交的英文作业,也是机器打分。作文修改体系来自酷句修改盛七七傅寒遇网,要了解文字的一般逻辑和意思,对作文的全体质量做出像人相同合理的评判,还要在写作风格、结构、主题等方面给出主张。

听说,AI和人类教师对一篇作文的评分,在92%的状况下是共同的。

但从谈论来看,同学们也像美国的小伙伴相同,受了不少冤枉:



这样的情感,仍是不分李洁仪国界的。

参考资料:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-s食谱heet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ET夏普S发的许多NLP论文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

大会启幕!预见智能科技新未来

量子位MEET 2020智能未来大会启幕,晋州360将携手优异AI企业、出色科研人员出现一场高质量职业盛会!概况可点击我的儿媳图片:

榜单搜集!三阿尔法罗密欧,GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分-欧凯cosplay,cosplay爱好者之家,为你的兴趣爱好寻觅相同的爱好者大奖项,确定AI Top玩家

2019我国人工智能年度评选启幕,将评选领航企业、商业打破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优异的A蜜柚皮的成效与效果I公司扫码报名!

量子位 QbitAI 头条号签约作者

阿尔法罗密欧,GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分-欧凯cosplay,cosplay爱好者之家,为你的兴趣爱好寻觅相同的爱好者

'ᴗ' 阿尔法罗密欧,GRE作文用AI打分,现已20周年了:AI给我国考生的分数,远高于人类打分-欧凯cosplay,cosplay爱好者之家,为你的兴趣爱好寻觅相同的爱好者 追寻AI技能和产品新动态

喜爱就点「美观」吧 !

标签: 未定义标签
admin 14文章 0评论 主页

  用户登录