揭秘|AI在斯坦福阅读测试中胜过人类,但TA真的看懂了吗

2023-05-10 14:56:27


我们都知道,人工智能已经在国际象棋和围棋上打败人类了,还合写了一张欧洲流行乐 (Europop) 专辑。


现在,电脑又进军一个非常人性的领域:阅读理解测试。


嗯,这可是世界各地学生的苦难源头啊。。。


斯坦福大学发起的 SQuAD(Stanford Question Answering Dataset)挑战赛,被认为是目前全球最高水平的 AI 阅读理解赛事。


就在今年的1月3日和5日,微软和阿里巴巴开发的人工智能在斯坦福大学这项阅读理解测试中并列第一,在答案的精确匹配度上比人类高出了几个基点。


尽管微软和阿里巴巴的 AI 以微小优势胜出,在回答的精确匹配度上仅比人类的82.3%高出几个基点,但它们并列首位,这是美国和中国正在进行的人工智能军备竞赛很好的象征。


 SQuAD:超过10万个题目-答案组合

为什么说这场赛事是全球最高水平的 AI 阅读理解赛事?


因为 SQuAD 阅读理解赛事是以超过 500 ,包含了超过10万个问题-答案组合,是目前世界最大的 AI 阅读理解数据集。


而且,跟CNN/DM,CBT等自然语言处理类数据集相比,过往的数据集往往只是“完形填空”的形式,即要求 AI 将一个词语填写到文章空白处。而 SQuAD 则是真正的阅读理解:需要 AI 先读完一段文章,然后回答一个根据文章提出的问题。




比如该项测试提出的艰深问题包括:「尼古拉•特斯拉(Nikola Tesla)是什么种族的人」,以及「亚马逊雨林有多大?」(换你,你知道不....)


在1月初的这场测试中,参赛公司让各自的人工智能系统解答斯坦福问答数据集(Stanford Question Answering Dataset)的提问,该数据集评估阅读理解能力。计算机的答案被与普通人的答覆进行比较,然后据此排名。


小探再给你举几个人机对比的例子:


比如:成吉思汗去世于哪一年? 
人类:1227 
电脑:1227


美国超级碗50次比赛的中场表演是什么团体? 
人类:酷玩(Coldplay)
电脑:英国摇滚乐队酷玩乐队


十八世纪有多少胡格诺派人(Huguenots)逃离法国? 
人类:500,000 
电脑:500,000


谁设计了苏格兰议会大楼? 
人类:Enric Miralles 
计算机:西班牙建筑师Enric Miralles


据 SQuAD 官网显示,阿里巴巴 iDST NLP 团队提交的 SLQA +模型,1月5日在精确匹配 (Exact Match) 项目上获得了82.440的分数,刷新了微软亚洲研究院R-NET模型刚刚于1月3日创造的纪录。而这两个模型的成绩都超过了人类在该项目上的得分——82.304,所以并列获得第一。


(图片来自 SQuAD 官网)


据微软方面介绍,得益于 SQuAD 所提供的庞大数据规模,参与该项挑战赛的选手不断地对成绩进行刷新,SQuAD 挑战赛也逐步成为行业内公认的机器阅读理解标准水平测试。


在今年的ACL大会(自然语言处理领域最顶尖的会议之一)的投稿里,有非常多的论文就是关于这项挑战赛的研究,其影响力可见一斑。


从ACL 2017论文主题的可视分析中可以看到,“reading comprehension(阅读理解)”是今年ACL录取论文中最热门的关键词和任务,广受自然语言处理领域研究人员的关注。


微软亚洲研究院机器阅读团队成员(从左至右:崔磊、韦福如、周明、杨南)


SQuAD 评分分为精确匹配(Exact Match)和模糊匹配(F1-score)两种,人类在这两项的得分分别是 82.3 和 91.2。所以说,上述两家公司的两个模型只是在精确匹配项目上超过人类,在模糊匹配上仍有大约2.5分的差距。


阿里:已将技术用于客服

阿里巴巴这项技术对我们日常生活有什么影响呢?你别说,还真有。这项技术已经在阿里巴巴内部被广泛使用。


司罗是阿里巴巴数据科学研究院(iDST)的自然语言处理首席科学家,他把机器取得的这个胜利称为一个里程碑,称该技术有很多用途,从客户服务、博物馆讲解,到医疗查询,其中有一些在全球范围已经由聊天机器人处理。


比如,我们都知道每年阿里的双11,这时总会有大量的顾客对活动规则进行咨询。阿里小蜜团队就通过使用司罗团队的技术,让机器直接对规则进行阅读,为用户提供规则解读服务,是最自然的交互方式。


没想到这是机器人在做“阅读理解”啊…… 


再比如,顾客还会针对单个商品询问大量的基础问题,而这些问题其实在商品详情页是有答案的。现在,通过机器阅读理解技术,能够让机器对详情页中的商品描述文本进行更为智能地阅读和回答,降低服务成本的同时,提高购买转化率。


由司罗领导的自然语言处理团队支撑了阿里巴巴整个生态的技术需求。由他们研发的 AliNLP 自然语言技术平台每日调用1200亿+次,Alitranx 翻译系统提供20个语种在线服务日调用量超过7亿+次。


此前,团队还曾在2016年ACM CIKM 个性化电商搜索、2017年IJCNLP中文语法检测CGED评测、2017年年美国标准计量局TAC评比英文实体分类等大赛中取得全球第一的成绩。



中国:多个团队排名前列

虽然,阿里和微软是目前仅有的两个超过人类得分的团队,但是,在自然语言处理领域,各方研究者的实力相当接近,竞争一直很激烈。


从 SQuAD 官网发布的榜单来看,去年11月和12月,得分纪录已经多次被刷新,其中来自中国和美国的团队占据了最前列的位置,包括腾讯、哈工大&科大讯飞等中国团队都取得了不错的成绩,一些欧洲、韩国和以色列的研究者同样榜上有名。


微软亚洲研究院副院长、自然语言计算组负责人周明博士表示:“祝贺中国的自然语言理解研究已经走在世界前列!整个领域的进步需要大家共同的努力和投入来推动。自然语言处理长路漫漫,让我们共勉。”



AI 真的看得懂吗?

AI 的阅读技术依赖于精读文本,,以学习和模仿信息。类似的技术已被用于买家提出的常见问题(比如「我的包裹在哪里?」)。在阿里巴巴的购物节期间,这类问题会大量涌入。


尽管,AI在斯坦福阅读测试中胜过人类,但TA真的看懂了吗?确实,这并不表明 AI 真正像人类一样读懂了文章的内容。


就像 AI 可以找到美国超级碗 SuperBowl 比赛中场的乐队是哪一家,但它并不知道英国摇滚乐队Coldplay究竟是什么。


所以说,AI 要真正看懂人类看的书,目前还很有挑战,让我们看看 TA 的阅读理解能力,未来进步会多快吧!

☞来源: 千读

购买方式

购买请点击海报识别图中二维码

推荐阅读

访问访谈

工程院院士 蔡鹤皋北航教授 文力深醒科技 袁培江深之篮 魏建仓

 

企业报道

一飞智控丨深醒科技发那科柔宇科技优傲机器人宇树科技臻迪科技iRobot

 

前沿技术

①工业  缝纫机器人 Sewbot无人智能采矿机器人中国饺子生产线自动化车间MIT 建筑机器人

 

②服务  索尼机器狗 Aibos叠衣机器人 FoldiMate日本 骑自行车机器人有触觉机械手 LUKE达芬奇机器人 剥小龙虾机器人乐队空中飞车 Scorpion-3日本护理机器人合集

 

③特种  丰田人形机器人 T-HR3水下机器人 探索号俄罗斯人形机器人 FEDOR美国重型机械 Guardian GT波士顿动Atlas 360度后空翻中国四足机器人 Laikago北理工 四轮足机器人佛罗里达研究院 “机械鸵鸟

 

④仿生  3D打印 仿生机器人 东京大学 流汗人形机器人柔性电池 电鳗灵感哈佛 柔软肌肉哈佛 折纸机器人哈佛 RoboBee

 

往期讲座

英特尔 宋继强博士 | 中民国际 刘国清陈小平教授 |驭势科技 姜岩浙大 熊蓉教授|长江学者 孙立宁上海大学 无人艇专家团|新松总裁 曲道奎北航 王田苗教授|863专家 北邮 刘伟教授|清华 邓志东教授清华 孙富春教授|天津大学博导 齐俊桐哈工大 杜志江教授|长江学者 王树新甘中学教授 | 硅谷创客 赵胜

温馨提示

意向合作,文章转载, 均可联系堂博士

商务合作:13810423387(同微信)

内容合作:15611695072(同微信)



友情链接

Copyright © 2023 All Rights Reserved 版权所有 国内流行音乐联盟