机器阅读理解数据集_race数据集-程序员宅基地

技术标签: 数据集  NLP  机器阅读理解  

用神经网络解决阅读理解问题是当下的NLP任务的重点之一。本文对机器阅读理解任务中的数据集进行了概括介绍。

机器阅读理解中的数据集

机器阅读理解的一般任务定义是,给机器一篇或多篇文章(Passage,P),机器需要对若干问题(Question,Q)进行回答(Answer,A)。用一个式子总结就是:

f ( P , Q ) = A f(P,Q)=A f(P,Q)=A

这里的 f 就是阅读理解的模型。模型的发展离不开数据集,数据集的不断进步直接地推动了该领域的研究进展。根据问题(Q)和回答(A)的形式,机器阅读理解中的数据集可以分为最早的完型填空形式(cloze-style)、多项选择(multi-choice)、区域预测(span-prediction)和自由形式(open-form)。经历过英语高考的各位对此都不陌生,下面对这四种形式分别介绍,并给出每种形式的代表数据集。

1、完型填空形式

完型填空类型的阅读理解问题就是在原文中挖出一个空来,由机器根据对文章上下文的理解去补全。这类比较著名的数据集有CNN/Daily Mail、Children’s Book Test(CBT)等,下文介绍了CNN/Daily Mail.

  • CNN/Daily Mail :
    CNN/Daily Mail s数据集由大名鼎鼎的机器阅读理解文章《Teaching Machines to Read and Comprehend》给出。值得一提的是,该篇文章还提出了两个经典的神经机器阅读理解模型,以后再做介绍。数据集从CNN和Daily Mail的新闻中提取文章,并抽取新闻报道中重点句子的entity,将其替换为空格。为了去除额外信息,如世界知识的影响,文章中的实体被匿名的ID所代替,并打乱序号顺序,这使得模型必须依赖文本来回答问题。下图是论文给出的一个示例。
    论文中给出的示例
    CNN/Daily Mail数据集下载:https://cs.nyu.edu/~kcho/DMQA/
    论文地址:Teaching Machines to Read and Comprehend

2、 多项选择形式

此类形式和初高中时英语阅读理解题的类型相似,甚至有数据集以中国中学生英语考试的数据为基础构建数据集(RACE)。每篇文章对应多个问题,每个问题有多个候选答案,机器需要在这些候选答案中找到最合适的那个。通常这些候选答案与原文中的句子并不相同,即使相同也可能和问题毫不相关,所以仅靠判断相似性无法取得较好的效果。此类数据集中比较著名的有MCTest、RACE等,下面介绍RACE数据集。

3、 区域预测形式

区域预测形式阅读理解问题也称为抽取式问答(Extractive QA),即给定文章和问题,机器需要在文章中找到答案对应的区域(span),给出开始位置和结束位置,区域的长度通常不会限制。这类数据集中最常用的是斯坦福大学的SQuAD数据集。

4、 自由形式

自由形式的问答是所有问答形式中最难的一个,它不限定问题所处的段落,即一个问题可能是需要理解多个段落甚至多篇文章,问题的答案是人为创造的,也就是既不会给定候选答案,也不是只需要提取文章中的片段。这对机器的阅读理解能力有更高的要求。此类型的数据集比较有名的是百度的DuReader和微软的MS MARCO,两者分别从百度搜索和必应搜索中收集数据。在直觉上看,在搜索引擎中获取数据集是个很巧妙的方法,这省掉了很多人为标注的时间。下面来看DuReader。

总结

上述是对当下机器阅读理解数据集的简述,至于每个数据集中各模型的排名情况,可以移步paperwithcode查看。根据任务定义的不同,各数据集的评价指标也不尽相同。完形填空和多项选择可以直接用准确率衡量,区域预测形式可以用F1衡量。自由形式的阅读理解评价指标有多种,用到BLEU和ROUGE-L的多一些。本文提到的数据集如下:

数据集名称 数据来源 类型 文档数目 问题数目 评价指标
CNN/Daily Mail CNN,Daily Mail 完型填空 300k 1.4M 准确率
Children’s Book Test Children’s Book 完型填空 108 688k 准确率
MCTest Fictional Stories 多项选择 500 2k 准确率
RACE English Exams 多项选择 28k 97k 准确率
SQuAD Wikipedia 区域预测 536 100k F1
SQuAD2.0 Wikipedia 区域预测 505 150k F1
DuReader user logs(Baidu) 自由形式 1M 200k BLEU,ROUGE-L
SQuAD user logs(Bing) 自由形式 3.2M 1M 准确率,BLEU,ROUGE-L

以上是对机器阅读理解数据集的介绍,等有时间再把相关模型写一下。

END.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_43360616/article/details/89068654

智能推荐

python交互式怎么保存_如何保存Python交互式会话?-程序员宅基地

文章浏览阅读1k次。我发现自己经常使用Python的解释器来处理数据库,文件等 - 基本上是大量的半结构化数据的手动格式化。 我没有像我希望的那样经常保存和清理有用的位。 有没有办法将我的输入保存到shell(数据库连接,变量赋值,少量循环和逻辑位) - 交互式会话的一些历史记录? 如果我使用类似script东西,我会得到太多的噪音。 我真的不需要腌制所有对象 - 但如果有一个解决方案可以做到这一点,那就没关系。 理..._python交互式怎么保存

python语言表达式5%2_python 计算2**3**4**5%10**8 的说明-程序员宅基地

文章浏览阅读1w次。在群里看到了有一个群使用这个2**3**4**5%10**8作为验证的问题,直接在python输入计算,很显然等了半天都没有反应,因为指数的运算太大了3**4**5运算如下373391848741020043532959754184866588225409776783734007750636931722079040617265251229993688938803977220468765065431..._. 在 python 语 言 中 , 表 达 式 5 2 * 5 % 3 * * 2 运 行 的 结 果 是 ( ) 。 省 牛 。 释义

如何将csdn上的文章保存为PDF?_怎么把csdn的文章导出为pdf-程序员宅基地

文章浏览阅读1.2k次,点赞3次,收藏19次。【代码】如何将csdn上的文章保存为PDF?_怎么把csdn的文章导出为pdf

C语言编程会遇到的问题-程序员宅基地

文章浏览阅读46次。关于C语言编程会遇到的一些问题

js 通过for循环实现百钱买百鸡的问题:公鸡5元每只,母鸡3元每只,小鸡3只1元,100元买一百只鸡多少种办法?_设计循环嵌套结构,计算一百块钱买一百只鸡问题。公鸡5元1只,母鸡3元一只,小鸡-程序员宅基地

文章浏览阅读213次。通过js实现 for循环百钱买百鸡的问题_设计循环嵌套结构,计算一百块钱买一百只鸡问题。公鸡5元1只,母鸡3元一只,小鸡

【计算机视觉 | 语义分割】综述 | 语义分割经典网络及轻量化模型盘点_语义分割模型-程序员宅基地

文章浏览阅读2.2k次,点赞24次,收藏48次。【计算机视觉 | 语义分割】综述 | 语义分割经典网络及轻量化模型盘点_语义分割模型

随便推点

linux ftp配置配置多站点多端口号,FTP配置多用户多目录多权限-程序员宅基地

文章浏览阅读648次。1 环境介绍:根据开发的需求 要求创建FTP服务器,把前端和后端分开用不同的FTP账号2 系统环境:centos 7.4selinux 关闭防火墙关闭3 安装FTP:yum install vsftpd -y4 创建FTP账号:useradd -d /home/bim/web -m wwwuseradd -d /home/bim -m adminpasswd adminmkdir -p /ho..._linux服务器搭建ftp不同用户不同端口

四川双非学校那个计算机强,双非一战川大计算机专硕#川大计算机考研#本人本科成都某双非院...-程序员宅基地

文章浏览阅读127次。该楼层疑似违规已被系统折叠隐藏此楼查看此楼双非一战川大计算机专硕#川大计算机考研#本人本科成都某双非院校,本科也几乎没做过项目,竞赛(为了创新学分抱大腿参加了一个数学建模竞赛)。大二暑假报名过一个java培训班,并且已经培训了一段时间,本应准备就业的我在身边朋友都要考研、自己也想再感受几年校园时光的情况下决定加入考研大军。因为想留四川,考虑到一战985的说法,目标就锁定在川大和电科,而电科专业性..._四川地区双非计算机硕士哪个简单

【雕爷学编程】Arduino智慧农业之使用Arduino和ESP8266模块通过Wi-Fi实现远程控制LED灯_arduino 8266-程序员宅基地

文章浏览阅读992次,点赞23次,收藏30次。通过使用Arduino和ESP8266模块通过Wi-Fi实现远程控制LED灯,具有远程控制、灵活的控制功能、实时反馈和状态监测、扩展性和可定制性等主要特点。远程控制:通过使用ESP8266模块连接到Wi-Fi网络,可以通过手机、电脑或其他设备上的应用程序,远程控制LED灯的开关、亮度和颜色等参数。灵活的控制功能:利用Arduino编程和ESP8266模块的通信能力,可以实现多种功能,例如调节LED灯的亮度、切换不同颜色、设置闪烁模式等。用户可以在应用程序中获得实时反馈,了解LED灯的状态,方便监测和操作。_arduino 8266

服务器硬件及RAID配置实战-程序员宅基地

文章浏览阅读731次,点赞7次,收藏20次。例如支持RAID0、RAID1、RAID5、RAID10等。

数据结构算法哈希表篇之快乐数_数据结构快乐数-程序员宅基地

文章浏览阅读152次。编写一个算法来判断一个数 n 是不是快乐数。_数据结构快乐数

电脑主机多少钱?家庭办公用主机不玩大游戏_只买一台电脑主机多少钱-程序员宅基地

文章浏览阅读285次,点赞4次,收藏5次。本文目录一览:1、电脑主机要多少钱?2、帮我估一下这个配置的电脑主机多少钱?_只买一台电脑主机多少钱

推荐文章

热门文章

相关标签