一个神经网络用于提取知识渊博的片段和文档

每天，在社交媒体和其他平台上发布数百万篇文章，从浏览网页的用户那里获得大量点击和分享。其中许多文章包含有用的信息，如果提取，可用于编译知识数据库或提供知识检索和问答服务。

中国科学院(CAS)的研究人员开发了一种基于卷积神经网络(CNN)的模型，用于提取知识渊博的片段和注释文档。他们的方法在arXiv上发表的论文中概述，尽管经过较短时间的培训，但发现其效果优于现有工具。

在他们的论文中，研究人员将术语“知识渊博的文档”定义为“包含多个知识渊博的片段的文档，这些片段描述了实体的概念，属性或实体之间的关系”。到目前为止，大多数知识库，如YAGO或DBpedia，都基于Wikipedia，WordNet，GeoNames和其他在线资源提取知识。但是，与社交媒体平台相比，这些资源通常包含有限且不灵活的信息。

研究人员在他们的论文中写道：“另一个最近的知识库Probase拥有270万个概念，它是从迄今为止最大的语料库中自动获取的，其中包括从16.8亿个网页中提取的3.26亿个知识渊博的句子。” “然而，这些句子只能通过赫斯特模式提取。为了提取更多知识渊博的片段以构建更全面的知识库，需要基于语义的方法来补充以前基于模式的方法。”

知识渊博的片段和文章也可用于开发知识检索和问答服务。例如，这些服务将回答正在寻找特定问题帮助的用户提出的问题。考虑到这些应用，CAS的研究人员开始开发基于CNN的模型，该模型可以分析文档的语义，确定它是否有用，并从中提取知识丰富的信息片段。

“具体来说，我们提出SSNN，这是一个基于CNN的联合模型，用于协同理解不同领域中文档的抽象概念，并判断文档是否具有知识性，”研究人员在他们的论文中解释道。“更详细地说，SSNN的网络结构是'低级共享，高级分裂'，其中低级别层为不同域共享，而CNN之外的高级层分别训练以感知不同领域的差异。“

研究人员设计的模型提供了一种端到端的解决方案来注释文档，这些解决方案不需要进行大量耗时的特征工程。他们还开发了手动功能并训练了SVM分类器模型来完成任务。

研究人员评估了他们的模型在微信开发的中文消息，社交媒体和移动支付平台微信三个内容领域的真实文档数据集上的有效性。他们的研究结果非常有希望，SSNN的表现始终优于其他CNN模型，同时通过更短，更有效的培训流程节省了时间和内存消耗。

研究人员在他们的论文中写道：“与构建多个特定领域的CNN相比，这种联合模型不仅可以大大节省训练时间，而且可以明显提高预测精度。” “在Wechat公共平台的真实数据集中证明了所提模型的优越性。”

将来，本研究中提出的SSNN 模型可用于构建更全面的知识数据库。它还可以帮助开发创新服务，以实时快速和详尽地回答用户查询。

网络

主页 > 关注 > 网络 >

一个神经网络用于提取知识渊博的片段和文档

频道精选

最火资讯

网络

主页 > 关注 > 网络 >

一个神经网络 用于提取知识渊博的片段和文档

频道精选

最火资讯

一个神经网络用于提取知识渊博的片段和文档