无标签的测量：信息提取的另一种方法 - 关于社会bob体育手机app下载 - bob游戏平台,bob电子体育竞技,bob体育手机app下载

信息提取（IE）是自然语言处理（NLP）和Web社区的广泛领域。IE的主要目标是从RAW文档和网页中提取有用的信息。例如，给定产品网页，人们可能想提取诸如产品名称，生产日期，价格和卖方之类的属性。

几十年前，这种提取器是使用规则精心构建的。在现代人工智能（AI）社区中，IE是使用机器学习完成的。监督机器学习方法采用训练集网页，具有黄金标准提取，并根据条件随机字段甚至深神经网等统计模型学习IE功能。

传统的IE，在我们的文章中假设，假设一个特定模式根据哪些信息必须提取和键入。电子商务模式可能包括前面提到的属性，例如价格和日期。特定于域的应用程序（例如人口贩运）通常要求该模式是特定的，细粒度的，并支持研究人员感兴趣的属性，包括电话号码，地址以及物理特征，例如头发颜色和眼睛颜色。

通过自然语言处理的视角证明，与人口贩运信息相关的信息的分析很难。

PIXABAY的自由射击图像

AI不是解决问题的问题，IE已被证明是NLP社区中对于人口贩运等非传统领域的困难问题。与普通领域（例如新闻和电子商务）不同，人口贩运的培训和评估数据集IE不可用，并且由于域的敏感性，使用诸如CrowdSourcing之类的传统方法收集此类标签数据集也不是直接的。

尽管可以使用最小的监督甚至无监督的IE（只需要几个，甚至不需要标签），尤其是在良好的域知识的情况下，却仍然存在评估问题。简而言之：如何知道IE是否足够好，没有标记的大型数据集？

传统的答案是这是不可能的。但是我们认为，鉴于执行IE程序的足够大的文档，我们可以使用依赖性在提取以推理IE性能之间。

“依赖性？”是什么意思

考虑上图所示的网络。在称为属性提取网络（AEN）的这种网络中，我们将每个文档建模为节点。如果两个节点的基础文档共享提取（在这种情况下为名称），则存在一个边缘。例如，文档D1和D2通过边缘连接，因为它们共享提取的“ Mayank”。请注意，构建AEN仅需要IE的输出，而不是金标准标签。

我们在文章中的主要假设是，通过测量AEN的网络理论特性（例如程度分布，连通性等），这些属性将出现这些属性和IE性能指标（例如精度和召回）之间的相关性，这需要足够大的黄金标准的IE标签要计算。直觉是IE噪声不是随机的噪声，并且IE噪声的非随机性质会显示在网络指标中。为什么IE噪声非随机？我们认为，这是由于某些术语在现实世界中的歧义，而不是其他术语。

For example, ‘Charlotte’ is a more ambiguous location term than ‘London,’ since Charlotte is the name of a (fairly well known) city in the US state of North Carolina, whereas London is predominantly used in a location context (though it may occasionally emerge as someone’s name). The hypothesis is that, if an IE system mis-extracts Charlotte from a document once, it will (all things equal) mis-extract it from other documents as well. In other words, IE mistakes are not random incidents. By mapping IE outputs as a network, we are able to quantify the non-random nature of these mistakes and estimate the performance of the IE on the dataset as a whole.

因为我们可以访问如此的黄金标准集，这是由社会科学家艰难地构建的，数以百万计的性广告从互联网上刮掉，所以我们能够研究这些相关性，跨三个重要属性（名称，电话号码和位置），并确定这种相关性确实存在，特别是对于精确度量。

在我们的实验中，我们为每个提取类别的兴趣类别构建一个AEN，例如为电话号码提取，名称提取（如图中等）构建一个单独的AEN研究的是构建一个多网络，其中所有提取均以单一多级共同建模。我们的假设是，通过考虑此类联合模型，我们的结果和预测可以进一步改善。

这项工作的收获是，在表现出依赖性的AI系统中，我们的系统可能是研究这些系统性能的一种令人兴奋的方法。从历史上看，网络科学主要用于研究“非抽象”相互作用，这些相互作用通常可以与友谊，引用和蛋白质 - 蛋白质相互作用等观察结果相提并论。相比之下，AEN是IE系统输出的高度抽象网络，尽管仍然基于实际观察结果。但是，它的后果非常真实：它可用于比较和（大致）评估系统，而无需实际获得的地面真理。

bob体育手机app下载

Mayank Kejriwal博士

Mayank Kejriwal博士的最新帖子（（看到所有）

受欢迎的帖子

大多数共享的帖子

档案

评论

Mayank Kejriwal博士

Mayank Kejriwal博士的最新帖子（（看到所有）

在社会标签上受欢bob体育手机app下载迎

受欢迎的帖子

大多数共享的帖子

档案