欢迎来到呼和浩特互联网
Time:

您的位置: 首页 >> 智能

一文帶你讀懂自然語言處理事件提取

2019.08.16 来源: 浏览:0次

一文带你读懂自然语言处理 - 事件提取

本文为 AI 研习社编译的技术博客,原标题 :

Natural Language Processing?—?Event Extraction

作者 |Rodrigo Nader

翻译 | 胡瑛皓 | 酱番梨、王立鱼

原文链接:

每天产生的文本信息令人叹为观止数百万数据源以稿、博客、消息、手稿和无数其他形式发布,因而自动组织和处理就必不可少

随着神经络算法的改进、计算机算力的显著提升以及大量涌现的理解框架,自然语言处理的能力正被前所未有的探索其中一个常见应用称为事件提取,即处理收集蕴藏在文本中的一个阶段内发生的事件,自动识别发生了什么和什么时候发生

比如:

2018/10?—?President Donald Trump’s government banned countries from importing Iranian oil with exemptions to seven countries.

2019/04?—?US Secretary of State Mike Pompeo announced that his country would open no more exception after the deadline.

2019/05?—?The United States ended with exemptions that allowed countries to import oil from Iran without suffering from US sanctions.

凭借获得信息上下文的能力,可以关联时间上互相独立的事件,汲取其影响,发现事件序列如何随着时间推移展开这些科技洞见力正驱动诸如EventRegistry和等组织,用科技服务各个市场

本文将构建一个简单的事件提取脚本,接收输入处理后输出事件

获取数据首先需要收集数据我们可以用任何形式的文本,只要这些文字的内容可通过时间线表示本文选用newsapi,从该数据源获取数据很容易,其开发者计划每天可获取500个免费请求以下是处理请求的代码:

最后一个函数,返回特定查询的结果列表,大约包含2000篇文章我们的目的是抽取这些文章总的事件为简化这一过程,只保留文章标题 (理论上,标题应该蕴涵的核心内容)

执行后得到一个data frame,其内容如下,包括日期、标题和描述

获得句子含义前面拿到了文章的标题,现在需要将其转换为算法能理解的形式注,本文跳过了整个文本预处理环节,因为与本文不太相关不过,如果你是新手,应用模型前务必作预处理 → 请打开原文查看一篇很好的教程

SpaCy的预训练词嵌入模型,可帮助获取独立词语的含义,进一步获得整句句子的含义具体来说用的是SpaCy large model (en_core_web_lg), 其中包含了685k英语单词的预训练词向量当然也可以用任意其他预训练词向量表示 (诸如Word2Vec, FastText, GloVe等等)

SpaCy中默认将词向量的平均值作为句子向量,这是一种简易处理方法,忽略了句子中的词序信息如想使用更精巧的策略,可以看一下Sent2Vec、SkipThoughts等模型这篇文章详细介绍了SkipThoughts如何用无监督方法提取摘要

本文中使用SpaCy自带的方法:

可以看到每篇文章被表示为300维的数组,如下:

向量聚类即便采用搜索方式过滤获取数据,同一查询中会出现不同的主题比如,搜索关键词 “Paris” 可以得到:

Paris comes together after a devastating fire

或:

Brazil football legend Pele admitted to hospital in Paris

现在用聚类算法分组不同的主题

本例中,我使用DBSCAN算法,该算法不需要指定聚类簇的数量算法自己决定聚类簇的数量和规模

算法中epsilon参数决定两个样本间的最大距离,以此决定是否临近,这意味着如果eps设置太大形成的簇就比较少,如果设置太小大多数点都无法被临近聚类,于是被分到默认簇 (-1)里,产生的簇也不多下图显示聚类簇的数量与的epsilon关系:

给eps调参是最为精巧的一步,因为聚类的结果会改变很多,也就是如何确定句子是相似的通过试验找到恰当的值,能保持句子间的相似度,同时不把相近的句子分到不同组去

总的来说,由于我们期望同一组中包含非常相似的句子,也就是得到一个较高的分类数因此选取 0.08 ~ 0.12之间参见Scikit Learn中关于eps和其他参数的说明

现在看一下每个类中包含的数量:

-1类表示未明确聚类的句子,其他是已被分类的句子我们分析一下最大的类,表示最重要的主题 (或者评论最多的那个)

抽样一下其中一个类:

转换为事件对于每个分类我们得到如上形式的data frame接下来是以时间线排列这些句子,并过滤掉相似的句子每天只呈现一篇文章,这样实现出来的时间线就干净而统一

由于每天关于同一主题会产生许多标题,会用一个条件去过滤该句子将最好的表达事件,也就是蕴涵着这些标题代表的核心内容

按天聚类句子,在每个组中选择其最靠近中心的句子以下是从一组向量中找出中心向量的函数:

干净整洁最后用Plotly绘制一下时间线图:(公众号:)

就是这样,用一个脚本从2000篇文章中提取和组织事件现在可以想象每天将这一技术应用于上百万篇文章有多大用处仅以股票市场每日影响为例,事件提取可以说非常有价值

可以增加许多步骤提升事件提取的效果,诸如更好的预处理包括POS tagging和NER,使用更好的句子向量模型等等不过本文的方法,已经可以快速达到理想的结果

感谢阅读本文本文聚焦NLP及事件提取如果想了解更多有关数据科学和机器学习的信息,请follow我的账号有任何想法、评论或问题,请给我留言

想要继续查看该篇文章相关链接和参考文献

点击【一文带你读懂自然语言处理-事件提取】即可访问:

社长今日推荐:AI入门、大数据、机器学习免费教程

35本世界顶级原本教程限时开放,这类书单由知名数据科学站 KDnuggets 的副主编,同时也是资深的数据科学家、深度学习技术爱好者的Matthew Mayo推荐,他在机器学习和数据科学领域具有丰富的科研和从业经验

点击链接即可获取:

原创文章,未经授权禁止转载详情见转载须知

薏芽健脾凝胶疗程

小孩厌食怎么办

一款小程序如何开发

宝宝健脾胃食谱
小儿氨酚烷胺颗粒一日几次
儿童流鼻血上火了怎么办
Tags:
友情链接