用神经网络解决阅读理解问题是当下的NLP任务的重点之一。本文对机器阅读理解任务中的数据集进行了概括介绍。
机器阅读理解的一般任务定义是,给机器一篇或多篇文章(Passage,P),机器需要对若干问题(Question,Q)进行回答(Answer,A)。用一个式子总结就是:
f ( P , Q ) = A f(P,Q)=A f(P,Q)=A
这里的 f 就是阅读理解的模型。模型的发展离不开数据集,数据集的不断进步直接地推动了该领域的研究进展。根据问题(Q)和回答(A)的形式,机器阅读理解中的数据集可以分为最早的完型填空形式(cloze-style)、多项选择(multi-choice)、区域预测(span-prediction)和自由形式(open-form)。经历过英语高考的各位对此都不陌生,下面对这四种形式分别介绍,并给出每种形式的代表数据集。
完型填空类型的阅读理解问题就是在原文中挖出一个空来,由机器根据对文章上下文的理解去补全。这类比较著名的数据集有CNN/Daily Mail、Children’s Book Test(CBT)等,下文介绍了CNN/Daily Mail.
此类形式和初高中时英语阅读理解题的类型相似,甚至有数据集以中国中学生英语考试的数据为基础构建数据集(RACE)。每篇文章对应多个问题,每个问题有多个候选答案,机器需要在这些候选答案中找到最合适的那个。通常这些候选答案与原文中的句子并不相同,即使相同也可能和问题毫不相关,所以仅靠判断相似性无法取得较好的效果。此类数据集中比较著名的有MCTest、RACE等,下面介绍RACE数据集。
区域预测形式阅读理解问题也称为抽取式问答(Extractive QA),即给定文章和问题,机器需要在文章中找到答案对应的区域(span),给出开始位置和结束位置,区域的长度通常不会限制。这类数据集中最常用的是斯坦福大学的SQuAD数据集。
SQuAD:2016年,斯坦福大学提出了阅读理解数据集SQuAD,包含了在536篇维基百科手工(crowdworkers)找出的10万多个问题。每个问题对应一篇文章,问题的答案是对应文章中的一部分。
SQuAD数据集下载:https://rajpurkar.github.io/SQuAD-explorer/
论文地址:SQuAD: 100,000+ Questions for Machine Comprehension of Text
SQuAD2.0:SQuAD2.0是SQuAD1.0版本的扩展版,同样是由斯坦福大学发布。与前一个版本不同的是,在之前同样的文章中增加了5万多个新的,无法回答的问题。这些问题在相应文章中有似是而非(plausible)的答案,即和提的问题是同种类型的,但并不正确。模型需要识别这些问题从而避免回答。
SQuAD2.0 数据集地址:https://rajpurkar.github.io/SQuAD-explorer/
论文地址:Know What You Don’t Know: Unanswerable Questions for SQuAD
自由形式的问答是所有问答形式中最难的一个,它不限定问题所处的段落,即一个问题可能是需要理解多个段落甚至多篇文章,问题的答案是人为创造的,也就是既不会给定候选答案,也不是只需要提取文章中的片段。这对机器的阅读理解能力有更高的要求。此类型的数据集比较有名的是百度的DuReader和微软的MS MARCO,两者分别从百度搜索和必应搜索中收集数据。在直觉上看,在搜索引擎中获取数据集是个很巧妙的方法,这省掉了很多人为标注的时间。下面来看DuReader。
上述是对当下机器阅读理解数据集的简述,至于每个数据集中各模型的排名情况,可以移步paperwithcode查看。根据任务定义的不同,各数据集的评价指标也不尽相同。完形填空和多项选择可以直接用准确率衡量,区域预测形式可以用F1衡量。自由形式的阅读理解评价指标有多种,用到BLEU和ROUGE-L的多一些。本文提到的数据集如下:
数据集名称 | 数据来源 | 类型 | 文档数目 | 问题数目 | 评价指标 |
---|---|---|---|---|---|
CNN/Daily Mail | CNN,Daily Mail | 完型填空 | 300k | 1.4M | 准确率 |
Children’s Book Test | Children’s Book | 完型填空 | 108 | 688k | 准确率 |
MCTest | Fictional Stories | 多项选择 | 500 | 2k | 准确率 |
RACE | English Exams | 多项选择 | 28k | 97k | 准确率 |
SQuAD | Wikipedia | 区域预测 | 536 | 100k | F1 |
SQuAD2.0 | Wikipedia | 区域预测 | 505 | 150k | F1 |
DuReader | user logs(Baidu) | 自由形式 | 1M | 200k | BLEU,ROUGE-L |
SQuAD | user logs(Bing) | 自由形式 | 3.2M | 1M | 准确率,BLEU,ROUGE-L |
以上是对机器阅读理解数据集的介绍,等有时间再把相关模型写一下。
END.
文章浏览阅读1k次。我发现自己经常使用Python的解释器来处理数据库,文件等 - 基本上是大量的半结构化数据的手动格式化。 我没有像我希望的那样经常保存和清理有用的位。 有没有办法将我的输入保存到shell(数据库连接,变量赋值,少量循环和逻辑位) - 交互式会话的一些历史记录? 如果我使用类似script东西,我会得到太多的噪音。 我真的不需要腌制所有对象 - 但如果有一个解决方案可以做到这一点,那就没关系。 理..._python交互式怎么保存
文章浏览阅读1w次。在群里看到了有一个群使用这个2**3**4**5%10**8作为验证的问题,直接在python输入计算,很显然等了半天都没有反应,因为指数的运算太大了3**4**5运算如下373391848741020043532959754184866588225409776783734007750636931722079040617265251229993688938803977220468765065431..._. 在 python 语 言 中 , 表 达 式 5 2 * 5 % 3 * * 2 运 行 的 结 果 是 ( ) 。 省 牛 。 释义
文章浏览阅读1.2k次,点赞3次,收藏19次。【代码】如何将csdn上的文章保存为PDF?_怎么把csdn的文章导出为pdf
文章浏览阅读46次。关于C语言编程会遇到的一些问题
文章浏览阅读213次。通过js实现 for循环百钱买百鸡的问题_设计循环嵌套结构,计算一百块钱买一百只鸡问题。公鸡5元1只,母鸡3元一只,小鸡
文章浏览阅读2.2k次,点赞24次,收藏48次。【计算机视觉 | 语义分割】综述 | 语义分割经典网络及轻量化模型盘点_语义分割模型
文章浏览阅读648次。1 环境介绍:根据开发的需求 要求创建FTP服务器,把前端和后端分开用不同的FTP账号2 系统环境:centos 7.4selinux 关闭防火墙关闭3 安装FTP:yum install vsftpd -y4 创建FTP账号:useradd -d /home/bim/web -m wwwuseradd -d /home/bim -m adminpasswd adminmkdir -p /ho..._linux服务器搭建ftp不同用户不同端口
文章浏览阅读127次。该楼层疑似违规已被系统折叠隐藏此楼查看此楼双非一战川大计算机专硕#川大计算机考研#本人本科成都某双非院校,本科也几乎没做过项目,竞赛(为了创新学分抱大腿参加了一个数学建模竞赛)。大二暑假报名过一个java培训班,并且已经培训了一段时间,本应准备就业的我在身边朋友都要考研、自己也想再感受几年校园时光的情况下决定加入考研大军。因为想留四川,考虑到一战985的说法,目标就锁定在川大和电科,而电科专业性..._四川地区双非计算机硕士哪个简单
文章浏览阅读992次,点赞23次,收藏30次。通过使用Arduino和ESP8266模块通过Wi-Fi实现远程控制LED灯,具有远程控制、灵活的控制功能、实时反馈和状态监测、扩展性和可定制性等主要特点。远程控制:通过使用ESP8266模块连接到Wi-Fi网络,可以通过手机、电脑或其他设备上的应用程序,远程控制LED灯的开关、亮度和颜色等参数。灵活的控制功能:利用Arduino编程和ESP8266模块的通信能力,可以实现多种功能,例如调节LED灯的亮度、切换不同颜色、设置闪烁模式等。用户可以在应用程序中获得实时反馈,了解LED灯的状态,方便监测和操作。_arduino 8266
文章浏览阅读731次,点赞7次,收藏20次。例如支持RAID0、RAID1、RAID5、RAID10等。
文章浏览阅读152次。编写一个算法来判断一个数 n 是不是快乐数。_数据结构快乐数
文章浏览阅读285次,点赞4次,收藏5次。本文目录一览:1、电脑主机要多少钱?2、帮我估一下这个配置的电脑主机多少钱?_只买一台电脑主机多少钱