【论文简读】 Deep web data extraction based on visual

shiguibiao 发布于2019-08-23 10:44 / 2390人阅读

摘要：第一阶段设置卷积层和汇集层以学习图像的特征。除了为输出设置最后一个完全连接之外，第三阶段设置多个连接层以过滤先前层学习的特征。据区域检测的标准，如果，则数据区域被视为正样本。

《Deep web data extraction based on visual information processing》
作者 J Liu 上海海事大学 2017 AIHC会议登载
引用 Liu J, Lin L, Cai Z, et al. Deep web data extraction based on visual information processing[J]. Journal of Ambient Intelligence & Humanized Computing, 2017(1):1-11.

简介

一种基于卷积神经网络（CNN）的数据区域定位方法
结合视觉信息进行网页的分割（作者命名为VIBS）

1、CNN 基于卷积神经网路进行区域定位

CNN网络结构由3个阶段组成，如图所示。第一阶段设置卷积层和汇集层以学习图像的特征。第二阶段是设置展平图层所必需的，展平图层会将卷积图层和合并图层生成的特征图转换为一维矢量，以计算完整的连接图层。除了为输出设置最后一个完全连接之外，第三阶段设置多个连接层以过滤先前层学习的特征。

网络架构设计使用13级CNN，包括5个采样层（S），6个卷积层（C）和2个完全连接层。

据区域检测的标准IOU，如果IOU > 50％，则数据区域被视为正样本。

区域定位主要步骤流程图如下

2、基于视觉信息的网页分割方法 VIBS

3、实验结果和分析 数据集（Lianjia、Complanet、Fangjia）

58,500个样本数据集，其中有195种具有不同大小和不同位置的图像样本，包含数据区域，总共300个组。

实验结果

总结

总体看下来，文章的创新意义大于实际意义吧，这么高的精确度，感觉像是过拟合了，而且速度不可能这么快，应该是把网页先行保存成图片了的，文章写得很不错，对比什么的体系也比较完善，就是有些地方没有讲清楚，比如能否divide的判定等。

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/96637.html

[论文简读] Deep Neural Networks for Web Page Informati

摘要：将候选框的坐标投影到最终的特征张量，并使用提取结果向量。最后，使用的线性模型将向量分类为预定义的类。 [论文简读] Deep Neural Networks for Web Page Information Extraction 基于深层神经网络进行网页信息提取简单介绍本文主要介绍了一种基于神经网络并结合视觉信息、文本信息的多网站通用包装器（wrapper）本文的几个贡献o 提出...

kel 2019-08-22 18:30 评论0 收藏0
[论文简读] Deep Neural Networks for Web Page Informati

摘要：将候选框的坐标投影到最终的特征张量，并使用提取结果向量。最后，使用的线性模型将向量分类为预定义的类。 [论文简读] Deep Neural Networks for Web Page Information Extraction 基于深层神经网络进行网页信息提取简单介绍本文主要介绍了一种基于神经网络并结合视觉信息、文本信息的多网站通用包装器（wrapper）本文的几个贡献o 提出...

xiangzhihong 2019-07-30 16:58 评论0 收藏0
[论文简读] Web Content Extraction Using Clustering

摘要：实验结果实验数据集数据集都是新闻类网页，从五个中文新闻网站中收集一百个页面这最多也就五类吧，而且也就五百个，好像有点少了吧结果与验证性能指标这这这比较文本长度就了那不是只要包含新闻正文不就好了。《Web Content Extraction Using Clustering with Web Structure》引用 Huang X, Gao Y, Huang L, et al. ...

levinit 2019-08-23 10:49 评论0 收藏0