返回栏目
首页人工智能 • 正文

由业界首款少样本NER数据集——清华联合阿里达尔马院开发

发布时间:  来源:河洛网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载。 转载请联系出处。

由业界首款少样本NER数据集——清华联合阿里达尔马院开发

NER (命名实体识别)是NLP的基本任务之一,其日常工作是训练人工智能( zhang )对文本中的专有名词)人名、地名、机构名称等)的识别和分类。

▲烟台?惹谁生气了?

翻译成计算机语言后,将从非结构化自然语言中找出各种实体,并将其分类为适当的类别。 “ 江大桥到底就任南京市长&rdquo几年了? 这个问题

但是,在数据不足、样本不足的前提下,如何基于先验知识进行分类和学习,这就是NLPer目前面临的课题— — 样本(快速)。

虽然样本数量少的NER (预训练语言模型BERT )等研究正在增加,但还没有专用的数据集供使用。

目前,包含来自维基百科的18万个句子、49万个实体和460万个标记,共有8个粗粒度( coarse-grained types )实体类型和66个细粒度( fine-grained types )实体类型的数据集

△目前已被ACL-IJCNLP 2021所接受

这是清华大学和阿里达尔马院共同开发的业界首款人工标注( human-annotated )较少的样本NER数据集,FEW-NERD。

什么样的数据集? 比较语句数、标签数、实体类型等统计数据时,FEW-NERD大于相关领域内现有的NER数据集。

此外,它还是人工标注的规模最大的数据集。

命名实体往往需要关联上下文,这极大地增加了评论的难度,特别是在实体类型较多的情况下。

FEW-NERD的评论来自70位具有语言学知识的评论者和10位经验丰富的专家。

具体来说,每个段落由两个人独立完成注释,然后由专家审查,双重检查分割提取数据。 这很好地保证了注释的正确性。

例如,上述“ londonisthefifthalbumbythebritishrockband & hellip; ” 这句话中的实体“ 伦敦& RDQuo; 准确地说“ 原子与元素; 。

按段落进行标记时,由于样本数量不多,预计FEW-NERD数据的类别分布相对平衡,这也是与传统NER数据集的重要区别。

此外,实际上,许多看不见的实体类型都是细粒度的。 传统的NER数据集(例如Con LL和RSQuo; 03、WNUT’ 17、OntoNotes )粗粒度只含有4-18个的类型。

这样一来,很难充分构建n向元任务(这种n向元任务),并训练学习相关的特征。

相比之下,FEW-NERD总共包含112个实体标签,具有8个粗粒度实体类型和66个细粒度实体类型。

△内圈表示粗粒度的实体类型,外圈表示细粒度的实体类型。

在基准选择中,为了探索FEW-NERD所有实体类型之间的知识相关性( knowledge correlations ),进行了实体类型相似性的实证研究。

△四边形表示两种实体类型的相似度。

实验结果表明,相同粗粒度类型的实体类型具有较大的相似性,易于知识转移。

这启发了研究者从知识转移的角度进行基准设定。 最终制定了三个标准:

few-nerd(sup )采用标准的监控型NER设置,将70%的数据随机分割为培训数据,10%为验证数据,20%为测试数据。 few-nerd(intra )样本学习任务较少,仅包括粗粒度实体类型。 few-nrtd(inter )的样本学习任务的细粒度类型为60%、细粒度类型为20%。 在实际的APP中,为了识别少数样本的命名实体,FEW-NERD提供了包含粗粒度和细粒度、具有统一基准的大数据集。

作者还指出,为了准确的语境标注,FEW-NERD数据集不仅有助于少样本场景,也有助于监督学习、终身学习、开放信息提取、实体分类等任务。

另外,建立基于FEW-NERD的模型和系统,也有助于建立包括生物医学、金融、法律领域在内的所有领域的知识图谱( KGs ),从而进一步促进NLP在特定领域的应用发展。

开发者还表示,未来将通过添加跨域注释、远程注释和更精细的实体类型来扩展FEW-NERD。

数据集官网链接: HTPS// Ning Ding 97.Github.IO/Few Nerd /数据集下载: HTTPS// Github.com/TH UNLP/Few-Nerd论文

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com