BeautifulSoup 解析中文网页乱码问题

Miracle_lihb 发布于2019-07-24 17:44 / 2435人阅读

摘要：如果中文页面编码是，，在构造器中传入参数即可解决乱码问题，即使分析的页面是的页面使用也不会出现乱码问题转自

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen("http://www.leeon.me");
soup = BeautifulSoup(page,fromEncoding="gb18030")

print soup.originalEncoding
print soup.prettify()

如果中文页面编码是gb2312，gbk，在BeautifulSoup构造器中传入fromEncoding="gb18030"参数即可解决乱码问题，即使分析的页面是utf8的页面使用gb18030也不会出现乱码问题！

转自：http://leeon.me/a/beautifulsoup-chinese-page-resolve

GPU云服务器云服务器中文乱码系统问题 mysql中文乱码问题 asp网页乱码问题 php中文网页乱码

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/37410.html

BeautifulSoup：网页解析利器上手简介

摘要：文档写得很清楚，也有中文版，你只要看了最初的一小部分，就可以在代码中派上用场了。关于爬虫的案例和方法，我们已讲过许多。不过在以往的文章中，大多是关注在如何把网页上的内容抓取下来。今天我们来分享下，当你已经把内容爬下来之后，如何提取出其中你需要的具体信息。网页被抓取下来，通常就是 str 字符串类型的对象，要从里面寻找信息，最直接的想法就是直接通过字符串的 find 方法 ...

Carl 2019-07-31 10:09 评论0 收藏0
爬虫问题总结

摘要：编码我们发现，中有时候存在中文，这是就需要对进行编码。可以先将中文转换成编码，然后使用方法对参数进行编码后传递。本文档对日常学习中用 python 做数据爬取时所遇到的一些问题做简要记录，以便日后查阅，部分问题可能因为认识不到位会存在一些误解，敬请告知，万分感谢，共同进步。估算网站规模该小节主要针对于整站爬取的情况。爬取整站之前，肯定是要先对一个网站的规模进行估计。这是可以使用g...

nanfeiyan 2019-07-30 16:34 评论0 收藏0
新闻爬虫倒腾笔记

摘要：新闻爬虫在列表页获取列表和时间材料，开发人员工具，插件，，安装包使用开发人员工具分析网站右键或打开，刷新载入打开页签，点选第二排的小漏斗，点入页面，因为新闻都有被检索到的需要，所以一般情况下都可以在第一个文档中找到需要的信息。新闻爬虫1.0 在列表页获取列表和时间材料：Pycharm，Chrome开发人员工具，infoLite插件，bs4，request 安装包 pip insta...

April 2019-07-30 14:40 评论0 收藏0
爬虫初级操作（一）

摘要：一个对应相应的状态码，状态码表示协议所返回的响应的状态。下面将状态码归结如下继续客户端应当继续发送请求。继续处理由扩展的状态码，代表处理将被继续执行。处理方式丢弃该状态码不被的应用程序直接使用，只是作为类型回应的默认解释。本篇内容为 python 网络爬虫初级操作，内容主要有以下 3 部分： python 关于爬虫的一些基本操作和知识静态网页抓取动态网页抓取基本操作和知识...

Ocean 2019-07-30 16:57 评论0 收藏0
Python爬虫之自制英汉字典

摘要：笔者看到了，觉得还蛮有意思的，因此，决定自己也写一个玩玩首先我们的爬虫要能将英语单词翻译成中文，因此，我们就需要一个网站帮助我们做这件事情。最近在微信公众号中看到有人用Python做了一个爬虫，可以将输入的英语单词翻译成中文，或者把中文词语翻译成英语单词。笔者看到了，觉得还蛮有意思的，因此，决定自己也写一个玩玩~~ 首先我们的爬虫要能将英语单词翻译成中文，因此，我们就需要一个网...

graf 2019-07-30 16:37 评论0 收藏0