无标签的测量:信息提取的另一种方法

信息提取是自然语言处理和Web挖掘领域的主要问题,尤其是在评估无法以面值来获取语言的域时。在最近发表的该期刊的研究中应用网络科学,Mayank Kejriwal和Rahul Kapoor提出一种方法可以使用人口贩运的情况来评估分析中信息提取系统的质量。本文是作为正在进行的收藏的一部分发表的建模,分析和采矿功能丰富的网络

这是最初出版的帖子在Springeropen博客上

信息提取(IE)是自然语言处理(NLP)和Web社区的广泛领域。IE的主要目标是从RAW文档和网页中提取有用的信息。例如,给定产品网页,人们可能想提取诸如产品名称,生产日期,价格和卖方之类的属性。

几十年前,这种提取器是使用规则精心构建的。在现代人工智能(AI)社区中,IE是使用机器学习完成的。监督机器学习方法采用训练集网页,具有黄金标准提取,并根据条件随机字段甚至深神经网等统计模型学习IE功能。

传统的IE,在我们的文章中假设,假设一个特定模式根据哪些信息必须提取和键入。电子商务模式可能包括前面提到的属性,例如价格和日期。特定于域的应用程序(例如人口贩运)通常要求该模式是特定的,细粒度的,并支持研究人员感兴趣的属性,包括电话号码,地址以及物理特征,例如头发颜色和眼睛颜色。

通过自然语言处理的视角证明,与人口贩运信息相关的信息的分析很难。
PIXABAY的自由射击图像

AI不是解决问题的问题,IE已被证明是NLP社区中对于人口贩运等非传统领域的困难问题。与普通领域(例如新闻和电子商务)不同,人口贩运的培训和评估数据集IE不可用,并且由于域的敏感性,使用诸如CrowdSourcing之类的传统方法收集此类标签数据集也不是直接的。

尽管可以使用最小的监督甚至无监督的IE(只需要几个,甚至不需要标签),尤其是在良好的域知识的情况下,却仍然存在评估问题。简而言之:如何知道IE是否足够好,没有标记的大型数据集?

传统的答案是这是不可能的。但是我们认为,鉴于执行IE程序的足够大的文档,我们可以使用依赖性在提取以推理IE性能之间。

“依赖性?”是什么意思

假设属性名称的属性提取网络的示例。顶点是文档。

考虑上图所示的网络。在称为属性提取网络(AEN)的这种网络中,我们将每个文档建模为节点。如果两个节点的基础文档共享提取(在这种情况下为名称),则存在一个边缘。例如,文档D1和D2通过边缘连接,因为它们共享提取的“ Mayank”。请注意,构建AEN仅需要IE的输出,而不是金标准标签。

我们在文章中的主要假设是,通过测量AEN的网络理论特性(例如程度分布,连通性等),这些属性将出现这些属性和IE性能指标(例如精度和召回)之间的相关性,这需要足够大的黄金标准的IE标签要计算。直觉是IE噪声不是随机的噪声,并且IE噪声的非随机性质会显示在网络指标中。为什么IE噪声非随机?我们认为,这是由于某些术语在现实世界中的歧义,而不是其他术语。

For example, ‘Charlotte’ is a more ambiguous location term than ‘London,’ since Charlotte is the name of a (fairly well known) city in the US state of North Carolina, whereas London is predominantly used in a location context (though it may occasionally emerge as someone’s name). The hypothesis is that, if an IE system mis-extracts Charlotte from a document once, it will (all things equal) mis-extract it from other documents as well. In other words, IE mistakes are not random incidents. By mapping IE outputs as a network, we are able to quantify the non-random nature of these mistakes and estimate the performance of the IE on the dataset as a whole.

因为我们可以访问如此的黄金标准集,这是由社会科学家艰难地构建的,数以百万计的性广告从互联网上刮掉,所以我们能够研究这些相关性,跨三个重要属性(名称,电话号码和位置),并确定这种相关性确实存在,特别是对于精确度量。

在我们的实验中,我们为每个提取类别的兴趣类别构建一个AEN,例如为电话号码提取,名称提取(如图中等)构建一个单独的AEN研究的是构建一个多网络,其中所有提取均以单一多级共同建模。我们的假设是,通过考虑此类联合模型,我们的结果和预测可以进一步改善。

这项工作的收获是,在表现出依赖性的AI系统中,我们的系统可能是研究这些系统性能的一种令人兴奋的方法。从历史上看,网络科学主要用于研究“非抽象”相互作用,这些相互作用通常可以与友谊,引用和蛋白质 - 蛋白质相互作用等观察结果相提并论。相比之下,AEN是IE系统输出的高度抽象网络,尽管仍然基于实际观察结果。但是,它的后果非常真实:它可用于比较和(大致)评估系统,而无需实际获得的地面真理。

查看有关社会主页的最新帖子bob体育手机app下载

评论