今天是
美国中文网 首页 社会 查看内容

这个权威赛事上,AI阅读理解首超人类

时间: 2018-1-13 13:47| 来源: 观察者网|查看: | 评论:   发表评论 分享到微信

摘要: 2018年伊始,人工智能的发展又迎来一个里程碑时刻。1月3日和5日,两个研究团队连续刷新AI阅读理解得分记录,并且首次超过人类水平。

2018年伊始,人工智能的发展又迎来一个里程碑时刻。1月3日和5日,两个研究团队连续刷新AI阅读理解得分记录,并且首次超过人类水平。

这个权威赛事上,AI阅读理解首超人类_图1-1

SQuAD官网排名

AI阅读理解得分首超人类

由斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset)挑战赛,被认为是目前全球最高水平的AI阅读理解赛事。

SQuAD官网显示,阿里巴巴 iDST NLP 团队提交的 SLQA +模型,1月5日在精确匹配(Exact Match)项目上获得了82.440的分数,刷新了微软亚洲研究院R-NET模型刚刚于1月3日创造的纪录。而这两个模型的成绩都超过了人类在该项目上的得分——82.304。

SQuAD阅读理解赛事是以超过500篇维基百科文章为基础,包含了超过10万个问题-答案组合,是目前世界最大的AI阅读理解数据集。

而且跟CNN/DM,CBT等自然语言处理类数据集相比,过往的数据集往往只是“完形填空”的形式,即要求AI将一个词语填写到文章空白处。而SQuAD则是真正的阅读理解,需要AI先读完一段文章,然后回答一个根据文章提出的问题。

SQuAD问题示例

据微软方面介绍,得益于SQuAD所提供的庞大数据规模,参与该项挑战赛的选手不断地对成绩进行刷新,SQuAD挑战赛也逐步成为行业内公认的机器阅读理解标准水平测试。在今年的ACL大会(自然语言处理领域最顶尖的会议之一)的投稿里,有非常多的论文就是关于这项挑战赛的研究,其影响力可见一斑。从ACL 2017论文主题的可视分析中可以看到,“reading comprehension(阅读理解)”是今年ACL录取论文中最热门的关键词和任务,广受自然语言处理领域研究人员的关注。

SQuAD评分分为精确匹配(Exact Match)和模糊匹配(F1-score)两种,人类在这两项的得分分别是 82.3 和 91.2。上述两个模型目前只是在精确匹配项目上超过人类,而在模糊匹配上仍有大约2.5分的差距。

微软亚洲研究院机器阅读团队成员(从左至右:崔磊、韦福如、周明、杨南)


123下一页
深度追踪

    高兴

    难过

    感动

    无聊

    愤怒

    搞笑

    路过
    »
    发表对《这个权威赛事上,AI阅读理解首超人类》的评论

    (发表评论请遵守道德与有关法律,请勿发表告状信、上访信、广告等无关内容)

    目前还没有评论 【我要发表评论
    今日热点

    关于我们|节目信息|反馈意见|联系我们|主编信箱|招聘信息| 清除痕迹

    ©2018  美国中文网 Sinovision,Inc.  All Rights Reserved. TOP

    回顶部