揭秘|AI在斯坦福阅读测试中胜过人类,但TA真的看懂了吗

2023-05-10 14:56:27

我们都知道，人工智能已经在国际象棋和围棋上打败人类了，还合写了一张欧洲流行乐 (Europop) 专辑。

现在，电脑又进军一个非常人性的领域：阅读理解测试。

嗯，这可是世界各地学生的苦难源头啊。。。

斯坦福大学发起的 SQuAD（Stanford Question Answering Dataset）挑战赛，被认为是目前全球最高水平的 AI 阅读理解赛事。

就在今年的1月3日和5日，微软和阿里巴巴开发的人工智能在斯坦福大学这项阅读理解测试中并列第一，在答案的精确匹配度上比人类高出了几个基点。

尽管微软和阿里巴巴的 AI 以微小优势胜出，在回答的精确匹配度上仅比人类的82.3%高出几个基点，但它们并列首位，这是美国和中国正在进行的人工智能军备竞赛很好的象征。

SQuAD：超过10万个题目－答案组合

为什么说这场赛事是全球最高水平的 AI 阅读理解赛事？

因为 SQuAD 阅读理解赛事是以超过 500 ，包含了超过10万个问题－答案组合，是目前世界最大的 AI 阅读理解数据集。

而且，跟CNN/DM，CBT等自然语言处理类数据集相比，过往的数据集往往只是“完形填空”的形式，即要求 AI 将一个词语填写到文章空白处。而 SQuAD 则是真正的阅读理解：需要 AI 先读完一段文章，然后回答一个根据文章提出的问题。

比如该项测试提出的艰深问题包括：「尼古拉•特斯拉(Nikola Tesla)是什么种族的人」，以及「亚马逊雨林有多大？」（换你，你知道不....）

在1月初的这场测试中，参赛公司让各自的人工智能系统解答斯坦福问答数据集(Stanford Question Answering Dataset)的提问，该数据集评估阅读理解能力。计算机的答案被与普通人的答覆进行比较，然后据此排名。

小探再给你举几个人机对比的例子：

比如：成吉思汗去世于哪一年？
人类：1227
电脑：1227

美国超级碗50次比赛的中场表演是什么团体？
人类：酷玩（Coldplay）
电脑：英国摇滚乐队酷玩乐队

十八世纪有多少胡格诺派人（Huguenots）逃离法国？
人类：500,000
电脑：500,000

谁设计了苏格兰议会大楼？
人类：Enric Miralles
计算机：西班牙建筑师Enric Miralles

据 SQuAD 官网显示，阿里巴巴 iDST NLP 团队提交的 SLQA +模型，1月5日在精确匹配 (Exact Match) 项目上获得了82.440的分数，刷新了微软亚洲研究院R-NET模型刚刚于1月3日创造的纪录。而这两个模型的成绩都超过了人类在该项目上的得分——82.304，所以并列获得第一。

（图片来自 SQuAD 官网）

据微软方面介绍，得益于 SQuAD 所提供的庞大数据规模，参与该项挑战赛的选手不断地对成绩进行刷新，SQuAD 挑战赛也逐步成为行业内公认的机器阅读理解标准水平测试。

在今年的ACL大会（自然语言处理领域最顶尖的会议之一）的投稿里，有非常多的论文就是关于这项挑战赛的研究，其影响力可见一斑。

从ACL 2017论文主题的可视分析中可以看到，“reading comprehension（阅读理解）”是今年ACL录取论文中最热门的关键词和任务，广受自然语言处理领域研究人员的关注。

微软亚洲研究院机器阅读团队成员（从左至右：崔磊、韦福如、周明、杨南）

SQuAD 评分分为精确匹配(Exact Match)和模糊匹配(F1-score)两种，人类在这两项的得分分别是 82.3 和 91.2。所以说，上述两家公司的两个模型只是在精确匹配项目上超过人类，在模糊匹配上仍有大约2.5分的差距。

阿里：已将技术用于客服

阿里巴巴这项技术对我们日常生活有什么影响呢？你别说，还真有。这项技术已经在阿里巴巴内部被广泛使用。

司罗是阿里巴巴数据科学研究院(iDST)的自然语言处理首席科学家，他把机器取得的这个胜利称为一个里程碑，称该技术有很多用途，从客户服务、博物馆讲解，到医疗查询，其中有一些在全球范围已经由聊天机器人处理。

比如，我们都知道每年阿里的双11，这时总会有大量的顾客对活动规则进行咨询。阿里小蜜团队就通过使用司罗团队的技术，让机器直接对规则进行阅读，为用户提供规则解读服务，是最自然的交互方式。

没想到这是机器人在做“阅读理解”啊……

再比如，顾客还会针对单个商品询问大量的基础问题，而这些问题其实在商品详情页是有答案的。现在，通过机器阅读理解技术，能够让机器对详情页中的商品描述文本进行更为智能地阅读和回答，降低服务成本的同时，提高购买转化率。

由司罗领导的自然语言处理团队支撑了阿里巴巴整个生态的技术需求。由他们研发的 AliNLP 自然语言技术平台每日调用1200亿+次，Alitranx 翻译系统提供20个语种在线服务日调用量超过7亿+次。

此前，团队还曾在2016年ACM CIKM 个性化电商搜索、2017年IJCNLP中文语法检测CGED评测、2017年年美国标准计量局TAC评比英文实体分类等大赛中取得全球第一的成绩。

中国：多个团队排名前列

虽然，阿里和微软是目前仅有的两个超过人类得分的团队，但是，在自然语言处理领域，各方研究者的实力相当接近，竞争一直很激烈。

从 SQuAD 官网发布的榜单来看，去年11月和12月，得分纪录已经多次被刷新，其中来自中国和美国的团队占据了最前列的位置，包括腾讯、哈工大&科大讯飞等中国团队都取得了不错的成绩，一些欧洲、韩国和以色列的研究者同样榜上有名。

微软亚洲研究院副院长、自然语言计算组负责人周明博士表示：“祝贺中国的自然语言理解研究已经走在世界前列！整个领域的进步需要大家共同的努力和投入来推动。自然语言处理长路漫漫，让我们共勉。”

AI 真的看得懂吗？

AI 的阅读技术依赖于精读文本，，以学习和模仿信息。类似的技术已被用于买家提出的常见问题（比如「我的包裹在哪里？」）。在阿里巴巴的购物节期间，这类问题会大量涌入。

尽管，AI在斯坦福阅读测试中胜过人类，但TA真的看懂了吗？确实，这并不表明 AI 真正像人类一样读懂了文章的内容。

就像 AI 可以找到美国超级碗 SuperBowl 比赛中场的乐队是哪一家，但它并不知道英国摇滚乐队Coldplay究竟是什么。

所以说，AI 要真正看懂人类看的书，目前还很有挑战，让我们看看 TA 的阅读理解能力，未来进步会多快吧！

☞来源：千读

购买方式

购买请点击海报识别图中二维码

☟

推荐阅读

访问访谈

工程院院士蔡鹤皋丨北航教授文力丨深醒科技袁培江丨深之篮魏建仓

企业报道

一飞智控丨深醒科技丨发那科丨柔宇科技丨优傲机器人丨宇树科技丨臻迪科技丨iRobot

前沿技术

①工业 缝纫机器人 Sewbot丨无人智能采矿机器人丨中国饺子生产线自动化车间丨MIT 建筑机器人

②服务 索尼机器狗 Aibos丨叠衣机器人 FoldiMate丨日本骑自行车机器人丨有触觉机械手 LUKE丨达芬奇机器人剥小龙虾丨机器人乐队丨空中飞车 Scorpion-3丨日本护理机器人合集

③特种 丰田人形机器人 T-HR3丨水下机器人探索号丨俄罗斯人形机器人 FEDOR丨美国重型机械 Guardian GT丨波士顿动Atlas 360度后空翻丨中国四足机器人 Laikago丨北理工四轮足机器人丨佛罗里达研究院 “机械鸵鸟

④仿生 3D打印仿生机器人 丨东京大学流汗人形机器人丨柔性电池电鳗灵感丨哈佛柔软肌肉丨哈佛折纸机器人丨哈佛 RoboBee

往期讲座

温馨提示

意向合作，文章转载，均可联系堂博士

商务合作：13810423387（同微信）

内容合作：15611695072（同微信）

大家在看

布鲁斯风格的弹奏——2 2023-05-10 14:56:27
精通布鲁斯第三册前瞻 2023-05-10 14:56:27
6.18 布鲁斯与你不见不散! 2023-05-10 14:56:27
布鲁斯造句技巧——节奏位移 2023-05-10 14:56:27
布鲁斯殿堂领军人-Billy Branch中国巡演正式开启! 2023-05-10 14:56:27
布鲁斯是生活的真相 2023-05-10 14:56:27
【派票啦】美国诺克斯文理学院爵士乐队专场音乐会 2023-05-10 14:56:27
【今日演出】绝对爵士乐队(Absolutely Not jazz collective)+Julia Chen 2023-05-10 14:56:27
「演出预告」法国电子爵士乐队Ginkgoa 3月20日来袭 2023-05-10 14:56:27
中国重量级拉丁爵士乐队Los Amigos 2023-05-10 14:56:27