摘要:如果中文页面编码是,,在构造器中传入参数即可解决乱码问题,即使分析的页面是的页面使用也不会出现乱码问题转自
import urllib2 from BeautifulSoup import BeautifulSoup page = urllib2.urlopen("http://www.leeon.me"); soup = BeautifulSoup(page,fromEncoding="gb18030") print soup.originalEncoding print soup.prettify()
如果中文页面编码是gb2312,gbk,在BeautifulSoup构造器中传入fromEncoding="gb18030"参数即可解决乱码问题,即使分析的页面是utf8的页面使用gb18030也不会出现乱码问题!
转自:http://leeon.me/a/beautifulsoup-chinese-page-resolve
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/37410.html
摘要:文档写得很清楚,也有中文版,你只要看了最初的一小部分,就可以在代码中派上用场了。 关于爬虫的案例和方法,我们已讲过许多。不过在以往的文章中,大多是关注在 如何把网页上的内容抓取下来 。今天我们来分享下,当你已经把内容爬下来之后, 如何提取出其中你需要的具体信息 。 网页被抓取下来,通常就是 str 字符串类型的对象 ,要从里面寻找信息,最直接的想法就是直接通过字符串的 find 方法 ...
摘要:笔者看到了,觉得还蛮有意思的,因此,决定自己也写一个玩玩首先我们的爬虫要能将英语单词翻译成中文,因此,我们就需要一个网站帮助我们做这件事情。 最近在微信公众号中看到有人用Python做了一个爬虫,可以将输入的英语单词翻译成中文,或者把中文词语翻译成英语单词。笔者看到了,觉得还蛮有意思的,因此,决定自己也写一个玩玩~~ 首先我们的爬虫要能将英语单词翻译成中文,因此,我们就需要一个网...
阅读 2041·2019-08-30 15:53
阅读 3044·2019-08-30 15:44
阅读 2883·2019-08-30 14:11
阅读 2880·2019-08-30 14:01
阅读 2646·2019-08-29 15:16
阅读 3639·2019-08-29 13:10
阅读 1205·2019-08-29 10:56
阅读 2493·2019-08-26 13:58