资讯专栏INFORMATION COLUMN

[论文简读] Web Content Extraction Through Machine Lear

leonardofed / 620人阅读

摘要:分块效果如图所示聚类由于不同网页之间设计和布局存在较大差异,作者选择了作为聚类算法来解决簇数目未知簇形状未知噪声等问题未给出距离函数。

《Web Content Extraction Through Machine Learning》 通过机器学习来提取网页内容
2014年,未见期刊会议上登载,作者 Ziyan Zhou @stanford.edu
简介 数据集

新闻文章网站为主
数据集链接 https://github.com/ziyan/spid...

网页分块

本文采用了phantom.js作为headless webkit browser(无头浏览器,现在有更好的方法了,比如puppeteer.js)
对于每一个包含文本的DOM元素,算法会找到它最近的父元素标记为块。
遗憾的是,作者对一些噪音数据的处理没有详细地进行解释。

分块效果如图所示

聚类

由于不同网页之间设计和布局存在较大差异,作者选择了DBSCAN作为聚类算法来解决簇数目未知/簇形状未知/噪声等问题(未给出距离函数)。

DBSCAN 密度聚类算法 大致原理就是选择一个样本节点,聚集所有密度可达的样本形成一个类,相比k-means聚类算法而言更适用于稠密的数据库,想要详细了解的可以点击这里
寻找内容块

通过与标题简介等meta信息对比文本间的差异(最长公共子序列LCS算法),来评估每一个集群与描述之间的相似性。

分类

支持向量机SVM与交叉验证

特征选择

以下特征效果依次递增

文本长度

标签路径

CSS选择器

CSS属性

总结
emmm,有点浅了,数据集太少,而且针对性也太强,导致出来的结果很好,但是没有什么说服力,还是有可以参考的地方的。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/96540.html

相关文章

  • [论文简读] Web Content Extraction Using Clustering

    摘要:实验结果实验数据集数据集都是新闻类网页,从五个中文新闻网站中收集一百个页面这最多也就五类吧,而且也就五百个,好像有点少了吧结果与验证性能指标这这这比较文本长度就了那不是只要包含新闻正文不就好了。 《Web Content Extraction Using Clustering with Web Structure》引用 Huang X, Gao Y, Huang L, et al. ...

    levinit 评论0 收藏0
  • 论文简读】 Deep web data extraction based on visual

    摘要:第一阶段设置卷积层和汇集层以学习图像的特征。除了为输出设置最后一个完全连接之外,第三阶段设置多个连接层以过滤先前层学习的特征。据区域检测的标准,如果,则数据区域被视为正样本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大学 2017 AIHC会议登载引用 Liu J, Li...

    shiguibiao 评论0 收藏0
  • [论文简读] Deep Neural Networks for Web Page Informati

    摘要:将候选框的坐标投影到最终的特征张量,并使用提取结果向量。最后,使用的线性模型将向量分类为预定义的类。 [论文简读] Deep Neural Networks for Web Page Information Extraction 基于深层神经网络进行网页信息提取 简单介绍 本文主要介绍了一种基于神经网络并结合视觉信息、文本信息的多网站通用包装器(wrapper) 本文的几个贡献o 提出...

    kel 评论0 收藏0
  • [论文简读] Deep Neural Networks for Web Page Informati

    摘要:将候选框的坐标投影到最终的特征张量,并使用提取结果向量。最后,使用的线性模型将向量分类为预定义的类。 [论文简读] Deep Neural Networks for Web Page Information Extraction 基于深层神经网络进行网页信息提取 简单介绍 本文主要介绍了一种基于神经网络并结合视觉信息、文本信息的多网站通用包装器(wrapper) 本文的几个贡献o 提出...

    xiangzhihong 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<