远程监督2009

Distant supervision for relation extraction without labeled data(2009)

update: 2020.1.31

有监督的RE有很多问题。标注训练数据是非常难以产生的,所以数量是有限的,并且因为关系是从特定的语料库中生成的,最终的分类器是有偏置的(biased)。

无监督的方法可以使用大量的数据,并且从抽取出大量的关系,但是对于特定的数据库,无监督抽取的结果无法很好的映射过去。

自举学习(bootstrap learning,半监督学习)使用小规模的种子(seed)实例或模式去进行学习,但这个结果会有低准确度和语义漂移(semantic drift)的问题。

远程监督方法,综合了上述三种方法的优点。远程监督方法使用Freebase语料库。远程监督的很直观的一点是任何包含一对实体(在Freebase中已知的关系)的句子总会去用某种方式去表达关系。既然很多句子中都包含一个给定的实体关系,我们可以通过合并logistic回归分类器从中找到很多特征(可能是有噪声的)。

本文使用了1.2M维基百科文章和102种关系(包含1.8M实例,涉及940,000个实体),除此之外,合并大量的分类器中的大量特征可以消除效果不好的特征。因为远程监督使用的是数据库而不是标注的文本,就不会遇到监督学习中的过拟合和域依赖(domain-dependence)问题,并且不像无监督学习输出的结果那样,远程监督的分类器对关系有事先定义的命名。

远程监督对每个实体对,从很多不同的句子中聚集特征,生成一个特征向量,这个特征向量允许给分类器提供更多信息。事实表明在有监督IE中,语义特征(syntactic)对结果是帮助的,但是对于无监督和远程监督方式是否有效仍未知。之前的很多无监督和半监督方法只使用了简单的词汇特征(lexical)。

Freebase

将两个实体之间的有序的二元的关系就称作“关系”(relation),将具体的单独的关系叫做“关系实例”(relation instances)。person-nationality是关系,\(<Jhon Steinbeck, United States>\)是关系实例。Freebase中主要来源是Wikipedia。也从NNDB(生物信息),MusicBrainz(音乐信息),the SEC(金融和企业信息)。

Architecture

在训练步中,所有的实体通过命名实体标记器识别(named entity tagger)出来。如果一个句子中有两个实体,并且这两个实体Freebase关系中的某个实例,就从这个句子中抽取出特征,并将这个特征加入到对应关系的特征向量。

远程监督假设是如果两个实体出现在一个关系中,任何包含这两个实体的句子都可能会表达这种关系。

这样的假设可能过于理想,之后有人扩充了这个假设

因为一个单独的句子有可能表达出一个错误的线索,所以需要训练一个多分类的logistic回归分类器来学习这些噪声特征的权重。在训练中会合并所有特征元组,形如(relation, entity1, entity2),生成一个内涵更丰富(richer)的特征向量。

在测试步中,再一次使用命名实体标记器识别出实体。这次,每对出现在句子中的实体被认为是潜在的关系实例,并且当这些实体出现时,就从句子中抽取出特征,并且加到对应的特征向量中。举个例子,如果一对实体在测试集中的10个句子当中,并且每个句子可以抽取出3个特征,那么这个实体对就会有30个关联的特征。每个句子中的实体对都进行特征抽取,并且回归分类器基于所有的句子中的特征来对每个实体对进行关系名称的预测。

考虑关系location-contains,想象在Freebase中有两个关系实例,\(<Virginia, Richmond>\)和\(<France, Nantes>\)。如果遇到句子’Richmond, the capital of Virginia’和‘Henry’s Edict of Nantes helped the Protestants of France’,我们应该从这些句子中抽取特征。某些特征可能非常有用,比如Richmond相关句子就很有用,而Nantes句子就没那么有用。在测试时,使用例如’Vienna, the capital of Austria’,一个或更多的特征会和Richmond相关句子匹配,进而认为这个关系实例也属于location-contains

这种远程监督结构的一个优势是可以综合考虑表示同一关系的不同句子,增加准确度。

Features

远程监督的特征基于标准的文学中的词汇和语法特征,每种特征描述了句子中的实体间是怎么关联的。

词法特征(Lexical features)

词法特征描述了出现在两个实体之间或相邻的特殊的词语:

两个实体之间的词语序列

这些词语的词性(part-of-speech)标签

一个表示句子中的哪个实体为先的标记

实体1左边k个词,以及它们的词性

实体2右边k个词,以及它们的词性

每个词法特征考虑以上部分的结合。对于每个\(k \in \{0,1,2\}\)产生联合的特征。下表中的每一个词法行代表一个单独的词法特征。

为了近似语法特征,也使用了其他不同的词法特征(效果有略微提升)

  1. 消除所有非动词的词语
  2. 消除所有的功能词(function word

语法特征(Syntactic features)

使用broad-coverage依存分析MINIPAR,一个依存分析包括一组单词(word)和块(chunk),如下图

对每个句子中的每对实体都抽取出一条依存路径,一条依存路径包含一系列依存关系,依存关系中不包含词性标签。这里使用了窗口节点(window node)来表示不属于依存路径但与其中一个实体相连的节点。本文使用一个联合向量来综合考虑有左/右窗口节点和没有的情况。上表中的语法行就表示不同的语法向量。

命名实体标签特征(Named entity tag features)

这里使用的是斯坦福大学的四类标签,包括(person,location,organization,miscellaneous(冗杂),none)

特征联合(Feature conjunction)

每个特征都包含了句子的几个属性的结合,再加上命名实体的标签。两个特征匹配时,它们所有的合取词都要匹配。这样做会得到低召回率但是高准确率的特征,这样做可能在小样本数据上有问题,因为大部分的特征都只会出现一次,这个问题在大样本数据中就不会存在。

结果

综合使用词法特征和语法特征效果最好

结果表明,语法特征在远程监督IE中具有很好的效果,它的好处出现在单独的模式比较模糊时,它们在依存关系上很相近但是在词语上很远。


「欢迎留言」: