资讯专栏INFORMATION COLUMN

BeautifulSoup 解析中文网页乱码问题

Miracle_lihb / 2203人阅读

摘要:如果中文页面编码是,,在构造器中传入参数即可解决乱码问题,即使分析的页面是的页面使用也不会出现乱码问题转自

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.leeon.me");
soup = BeautifulSoup(page,fromEncoding="gb18030")

print soup.originalEncoding
print soup.prettify()

如果中文页面编码是gb2312,gbk,在BeautifulSoup构造器中传入fromEncoding="gb18030"参数即可解决乱码问题,即使分析的页面是utf8的页面使用gb18030也不会出现乱码问题!

转自:http://leeon.me/a/beautifulsoup-chinese-page-resolve

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37410.html

相关文章

  • BeautifulSoup网页解析利器上手简介

    摘要:文档写得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代码中派上用场了。 关于爬虫的案例和方法,我们已讲过许多。不过在以往的文章中,大多是关注在 如何把网页上的内容抓取下来 。今天我们来分享下,当你已经把内容爬下来之后, 如何提取出其中你需要的具体信息 。 网页被抓取下来,通常就是 str 字符串类型的对象 ,要从里面寻找信息,最直接的想法就是直接通过字符串的 find 方法 ...

    Carl 评论0 收藏0
  • 爬虫问题总结

    摘要:编码我们发现,中有时候存在中文,这是就需要对进行编码。可以先将中文转换成编码,然后使用方法对参数进行编码后传递。 本文档对日常学习中用 python 做数据爬取时所遇到的一些问题做简要记录,以便日后查阅,部分问题可能因为认识不到位会存在一些误解,敬请告知,万分感谢,共同进步。 估算网站规模 该小节主要针对于整站爬取的情况。爬取整站之前,肯定是要先对一个网站的规模进行估计。这是可以使用g...

    nanfeiyan 评论0 收藏0
  • 新闻爬虫倒腾笔记

    摘要:新闻爬虫在列表页获取列表和时间材料,开发人员工具,插件,,安装包使用开发人员工具分析网站右键或打开,刷新载入打开页签,点选第二排的小漏斗,点入页面,因为新闻都有被检索到的需要,所以一般情况下都可以在第一个文档中找到需要的信息。 新闻爬虫1.0 在列表页获取列表和时间 材料:Pycharm,Chrome开发人员工具,infoLite插件,bs4,request 安装包 pip insta...

    April 评论0 收藏0
  • 爬虫初级操作(一)

    摘要:一个对应相应的状态码,状态码表示协议所返回的响应的状态。下面将状态码归结如下继续客户端应当继续发送请求。继续处理由扩展的状态码,代表处理将被继续执行。处理方式丢弃该状态码不被的应用程序直接使用,只是作为类型回应的默认解释。 本篇内容为 python 网络爬虫初级操作,内容主要有以下 3 部分: python 关于爬虫的一些基本操作和知识 静态网页抓取 动态网页抓取 基本操作和知识...

    Ocean 评论0 收藏0
  • Python爬虫之自制英汉字典

    摘要:笔者看到了,觉得还蛮有意思的,因此,决定自己也写一个玩玩首先我们的爬虫要能将英语单词翻译成中文,因此,我们就需要一个网站帮助我们做这件事情。   最近在微信公众号中看到有人用Python做了一个爬虫,可以将输入的英语单词翻译成中文,或者把中文词语翻译成英语单词。笔者看到了,觉得还蛮有意思的,因此,决定自己也写一个玩玩~~  首先我们的爬虫要能将英语单词翻译成中文,因此,我们就需要一个网...

    graf 评论0 收藏0

发表评论

0条评论

Miracle_lihb

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<