[论文简读] 基于深度学习Web信息抽取与实现

news/2024/7/3 13:51:52

基于深度学习Web信息抽取与实现

2017年 浙大硕士学位论文

1 研究背景、目的以及相关技术

目的:利用神经网络进行网页信息抽取

Web信息抽取的相关技术总结

3~5 在其他论文中并没有提及,应该是作者自己归纳的
  1. 基于自然语言处理方式的信息抽取
  2. 基于包装器(wrapper)归纳方式的信息抽取
  3. 基于本体的信息抽取
  4. 基于HTML结构的信息抽取
  5. 基于Web查询的信息抽取

神经网络相关技术

  • RNN
  • LSTM
  • Tensorflow

2 基于RNN的信息抽取模型

大致过程就是通过词向量归纳相类似的词,比如电影领域的词库,然后对DOM节点进行配对,猜测是否为目标节点。

clipboard.png

clipboard.png

clipboard.png

clipboard.png

3 算法实现

clipboard.png

  1. 首先需要获取一定数量的主题型页面(比如电影页面),并对用户指定的关键目标信息进行标记
    (???还需要手动标记??!这档次差好多了吧!)
  2. 然后使用的标记过的样本页面进行训练,使系统获得识别目标信息的能力
  3. 网页内容预处理
    (这个部分就不放了,手动预处理,筛节点,然后添加一些关键词标记)

4 Tensorflow 模型

建立词库表

  1. 为每个单独的中文汉字而不是词组建立到词库表的映射。
  2. 为每个解析到的外文单词建立单独的映射。
  3. 为所有解析到的数字建立相同的映射。
  4. 为标记过的目标信息类别建立映射表。

emmmm 看不下去了,附上文章链接【万方】,有兴趣的可以了解一下,就这样吧,累觉不爱ε=(´ο`*)))


http://www.niftyadmin.cn/n/4261535.html

相关文章

毛笔效果简单思路

任何画线的程序,都是先在界面上获取若干不连续的点,然后将这些点连成线。 一些常见的笔型比较好实现,比如说铅笔、钢笔等等,这类笔型的线条的宽度和线条的颜色是固定的,只需要将点连接成固定颜色和固定宽度的线即可。 …

oracle 11g 从rman全备中恢复控制文件,Oracle RMAN 备份控制文件/恢复控制文件

--备份控制文件rman target /RMAN> startupRMAN> configure controlfile autobackup on; --启动自动备份RMAN> show CONTROLFILE AUTOBACKUP; --显示是否自动备份控制文件RMAN> configure controlfile autobackup format for device type disk to /backup/%F; --设…

oracle 全球大会2017,2017 Oracle Open World会议介绍汇总

十一期间,远在美国旧金山,举行了一年一度的Oracle Open World会议,这次会议分享主题有1800多个,按照官网的资料,参会人数是6万。演讲者有3000人左右,演讲者来自90多个国家,涉及的主题有2300个左…

python 公司名称获取公司行业_利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?...

大家好,我是 JackTian。我经常会收到读者关于一系列咨询运维方面的事情,比如:杰哥,运维到底是做什么的呀?运维的薪资水平/ 待遇怎么样呢?杰哥帮忙看下这个岗位的招聘需要对于小白来说,能否胜任的…

oracle频繁update同一张表,对于同一张表update带来的效率问题

需求:存在一张表create table tmp_report(...tmp_domain varchar(20),report_status int...);其中2列的值为:tmp_domain report_statusa3a2a1b4希望update report_status 的值为3所对应 tmp_domain 值相同的 report_status 都改成3,即&#x…

python中字符串异或_python实现了字符串的按位异或和php中的strpad函数

近期在写自己主动化測试,因为开发加密中用到strpad和字符串的按位异或,而python中没有这种函数和功能,所以必须自己写一套,要不自己主动化測试无法进行,所以就用python实现了一下,因为在写字符串的按位异或…

Linux 修改SSH端口 和 禁止Root远程登陆

SSH 端口默认是22. 但从安全方面考虑,建议修改这个端口。 端口的取值范围是 0 - 65535(即2的16次方),0到1024是系统使用的端口,如 http服务的端口80。我们可以使用的端口范围:1024到65535。这个是socket规定的。 一. Linux修改ssh…

Javascript的IE和Firefox兼容性汇编[转帖.收藏]

最近作浏览器兼容性方面的工作,发现此篇文章,太好了,转帖收藏了 Javascript的IE和Firefox兼容性汇编 作者:yaosansi 日期:2006-11-14 1. document.form.item 问题 (1)现有问题: 现有代码中存在许多 document.formName.…