[论文简读] Web Content Extraction Through Machine Learning

news/2024/7/5 12:28:34
《Web Content Extraction Through Machine Learning》 通过机器学习来提取网页内容
2014年,未见期刊会议上登载,作者 Ziyan Zhou @stanford.edu

简介

数据集

新闻文章网站为主
数据集链接 https://github.com/ziyan/spid...
clipboard.png

网页分块

本文采用了phantom.js作为headless webkit browser(无头浏览器,现在有更好的方法了,比如puppeteer.js)
对于每一个包含文本的DOM元素,算法会找到它最近的父元素标记为块。
遗憾的是,作者对一些噪音数据的处理没有详细地进行解释。

分块效果如图所示
clipboard.png

聚类

由于不同网页之间设计和布局存在较大差异,作者选择了DBSCAN作为聚类算法来解决簇数目未知/簇形状未知/噪声等问题(未给出距离函数)。

DBSCAN 密度聚类算法 大致原理就是选择一个样本节点,聚集所有密度可达的样本形成一个类,相比k-means聚类算法而言更适用于稠密的数据库,想要详细了解的可以 点击这里

寻找内容块

通过与标题简介等meta信息对比文本间的差异(最长公共子序列LCS算法),来评估每一个集群与描述之间的相似性。

分类

支持向量机SVM与交叉验证

特征选择

以下特征效果依次递增

  • 文本长度
  • 标签路径
  • CSS选择器
  • CSS属性

总结
emmm,有点浅了,数据集太少,而且针对性也太强,导致出来的结果很好,但是没有什么说服力,还是有可以参考的地方的。


http://www.niftyadmin.cn/n/3777636.html

相关文章

linux下mdadm建立软raid

Part I. RAID基础(引用) RAID 是冗余磁盘阵列(Redundant Array of Inexpensive Disk)的简称。它是把多个磁盘组成一个阵列,当作单一磁盘使用。它将数据以分段(striping)的方式分散存储在不同的磁盘中,通过…

零基础学python习题 - 进入python的世界

1. python拥有以下特性:面向对象的特性、动态性、内置的数据结构、简单性、健壮性、跨平台性、可扩展性、强类型语言、应用广泛 2. python 需要 编译 3. 以下不属于python内置数据结构的是(A) A. 数组  B. 列表  C. 元组  D. 字典 4. …

盒模型-深入理解盒模型及相关概念

Created By JishuBao on 2019-03-15 12:38:22 Recently revised in 2019-03-15 12:38:22 欢迎大家来到技术宝的掘金世界,您的star是我写文章最大的动力!GitHub地址    文章简介: 1、盒模型基本概念 2、何为border-box? 3、盒模型的其他属性 4、JS获…

Linux进程优先级管理

程对CPU资源分配就是指进程的优先权(priority)。优先权高的进程有优先执行权利。配置进程优先权对多任务环境的linux很有用,可以改善系统性能。还可以把进程运行到指定的CPU上,这样一来,把不重要的进程安排到某个CPU&a…

移动所联手南京联通推出5G产业技术创新服务基地,全面构建5G融合新生态

东南大学尤肖虎教授和中国联通南京分公司总经理顾建明共同为基地揭牌。 3月15日上午,由江苏省产业技术研究院移动通信技术研究所(以下简称移动所)、中国联通南京市分公司牵头的“‘5’限联通,‘G’致创新 ——5G产业技术创新服务…

Java操作 ActiveMQ 远程监控JMX设置

2019独角兽企业重金招聘Python工程师标准>>> activemq.xml设置 第一个配置: 在你下载activemq文件夹下的config中,找到activemq.xml,在broker节点增加useJmx"true" useJmx表示开启jmx监控 2.在managementContext节点更…

rsyncnbsp;命令详解

1、什么是Rsync Rsync(remote synchronize)是一个远程数据同步工具,可通过LAN/WAN快速同步多台主机间的文件。Rsync使用所谓的“Rsync算法”来使本地和远 程两个主机之间的文件达到同步,这个算法只传送两个文件的不同部分&#xf…

PHP学习3——数组

主要内容: 简介常用的方法循环遍历数组PHP预定义数组数组的处理函数数组 PHP由于是弱类型的语言,他的变量类型是可以自由变换的,他的数组很自由,长度是可以动态增加的。 他的索引默认为数字0开始,另外有一个很强大的地…