摘要:将候选框的坐标投影到最终的特征张量,并使用提取结果向量。最后,使用的线性模型将向量分类为预定义的类。
[论文简读] Deep Neural Networks for Web Page Information Extraction 基于深层神经网络进行网页信息提取 简单介绍
本文主要介绍了一种基于神经网络并结合视觉信息、文本信息的多网站通用包装器(wrapper)
本文的几个贡献
o 提出了一种将数据从web渲染引擎编码到深层神经网络的方法,即文本的空间编码方法
o 测试了该方法,并验证了其在非通用网站上提取信息的可行性
o 公开了数据集(暂未公开,从代码上看也是自己去找适合的网页爬下来的)、源码和最终模型
神经网络框架采用了Caffe作为模型训练框架
预处理从DOM树中提取所有的节点以及其位置,以矩形框表示,使用其文本作为文本输入, 叶节点作为候选输入,然后使用卷积神经网络来处理视觉信息和文本信息,得到一个预测概率P
空间文本编码 网络架构
o Screenshot 屏幕截图 由三个卷积层处理(前两层用来自BVLC AlexNet的预先训练的权重初始化)
o TextMap 的张量尺寸为128x160x160
o Candidates 候选列表
过程:视觉特征提取,然后与文本特征(中间)结合。 将候选框的坐标投影到最终的特征张量,并使用ROI MaxPool-ing提取结果向量。 最后,使用softmax的线性模型将向量分类为预定义的类。
实例文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/95940.html
摘要:将候选框的坐标投影到最终的特征张量,并使用提取结果向量。最后,使用的线性模型将向量分类为预定义的类。 [论文简读] Deep Neural Networks for Web Page Information Extraction 基于深层神经网络进行网页信息提取 简单介绍 本文主要介绍了一种基于神经网络并结合视觉信息、文本信息的多网站通用包装器(wrapper) 本文的几个贡献o 提出...
摘要:实验结果实验数据集数据集都是新闻类网页,从五个中文新闻网站中收集一百个页面这最多也就五类吧,而且也就五百个,好像有点少了吧结果与验证性能指标这这这比较文本长度就了那不是只要包含新闻正文不就好了。 《Web Content Extraction Using Clustering with Web Structure》引用 Huang X, Gao Y, Huang L, et al. ...
摘要:对于大多数想上手深度学习的小伙伴来说,我应当从那篇论文开始读起这是一个亘古不变的话题。接下来的论文将带你深入理解深度学习方法深度学习在前沿领域的不同应用。 对于大多数想上手深度学习的小伙伴来说,我应当从那篇论文开始读起?这是一个亘古不变的话题。而对那些已经入门的同学来说,了解一下不同方向的论文,也是不时之需。有没有一份完整的深度学习论文导引,让所有人都可以在里面找到想要的内容呢?有!今天就给...
摘要:第一阶段设置卷积层和汇集层以学习图像的特征。除了为输出设置最后一个完全连接之外,第三阶段设置多个连接层以过滤先前层学习的特征。据区域检测的标准,如果,则数据区域被视为正样本。 《Deep web data extraction based on visual information processing》作者 J Liu 上海海事大学 2017 AIHC会议登载引用 Liu J, Li...
阅读 2663·2023-04-25 20:19
阅读 1906·2021-11-24 09:38
阅读 1609·2021-11-16 11:44
阅读 4231·2021-09-02 15:40
阅读 1294·2019-08-30 15:55
阅读 1998·2019-08-30 15:52
阅读 3733·2019-08-29 17:20
阅读 2167·2019-08-29 13:48