摘要:从今天起,我将在这里更新一个系列的简单爬虫到建立网站的实践手记。内容将会从最简单的开始,环境搭建,基本爬虫,入库,用建立可供用户访问的网站,网站部署。第一部分,买,装环境。我们爬虫站点的所有文件都放在里面。
从今天起,我将在这里更新一个系列的python简单爬虫到建立网站的实践手记。
内容将会从最简单的开始,环境搭建,基本爬虫,入库,用Django建立可供用户访问的网站,网站部署。
同时打算涉及简单的异步爬虫,piplibe,队列等等。
为了方便,将使用django和sqlite3来作为例子, 虽然有时候这并不是最合适的场景。。
最终目的:一个能用的自动更新的垃圾站
下面进入正题。
第一部分,买VPS,装环境。本文的一切操作都在vps上
在Runabove建立最便宜的instance.
选择魁省机房-Sandbox-M-Ubuntu14.10-输入Instace名字"PythonSpider"-FireUp!
不出一分钟,VPS就建立好了。
用SSH 连接服务器
先建立一个screen,顺手更新apt-get,以后都在这里面操作,避免掉线导致任务中断。
bashscreen -S spider # 取名叫spider的screen sudo apt-get update sudp apt-get upgrade
再顺手安装一些肯定会用的东西
bashsudo apt-get install gcc python-dev -y sudo - #这一步以后,用户就是root了 记住 nginx=stable # use nginx=development for latest development version add-apt-repository ppa:nginx/$nginx apt-get update apt-get install nginx -y apt-get install libxml2-dev libxslt1-dev lib32z1-dev -y
装pip和virtualenv
bashwget https://bootstrap.pypa.io/get-pip.py python get-pip.py pip install virtualenv
建立~/venv目录,建立virtualenv, 激活virtualenv
bashmkdir ~/venv cd ~/venv virtualenv spider source ~/venv/spider/bin/activate
之后,shell提示符应该是这样
安装django(1.7)
bashpip install django cd ~ # 返回用户目录
5秒钟后,django安装完毕,现在开始建立项目目录(Django的project)。我们爬虫站点的所有文件都放在里面。
bashdjango-admin startproject python_spider
再测试下安装是否成功
bashservice nginx stop # 为毛? 因为RunAbove的8000神马的端口不好用 python manage.py runserver 0.0.0.0:80 # 只能用80,真蛋疼
现在访问192.99.71.91,我就能看到Django的示例页面
没骗你吧? 好了,看一眼能用就ctrl+c把服务器关掉。
然后,再建立一个app
bashcd python_spider python manage.py startapp web
所以,现在我有一个Django项目,叫python_spider, 它里面有个app叫web.
未完待续。。。(点击下面阅读)
下一篇,是简单Python爬虫的编写。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/37503.html
摘要:接上回第二部分,编写爬虫。进入微信嵌套选择图片和上传图片接口,实现一键上传图片,遇到问题看吧,我现在已经可以通过爬虫获取的提问标题了。微信故意省略想做小偷站的,看到这里基本上就能搞出来了。下一篇,采集入库 上回,我装了环境 也就是一对乱七八糟的东西 装了pip,用pip装了virtualenv,建立了一个virtualenv,在这个virtualenv里面,装了Django,创建了一个...
摘要:进入正题第三部分,采集入库。内容如下加上这个可以记住问题在的位置,方便以后更新或者其他操作都很直白,关于各个可以看看的文档。代码如下添加方法采集当前分页正在抓取分页这个地方写得很笨,之前该在加上这个属性。 上回,我已经大概把爬虫写出来了。 我写了一个内容爬虫,一个爬取tag里面内容链接的爬虫 其实还差一个,就是收集一共有哪些tag的爬虫。但是这里先不说这个问题,因为我上次忘了 这次又不...
摘要:大概个月前已新手的身份写了几篇入门的文章爬虫建站入门手记从零开始建立采集站点结果弄到一半就弃坑了。前两次的视频存档编写爬虫入库由于很久没有写这些东西了,视频里面有一半的时间在和上找资料。。。下面是建立的一个微信群的二维码 大概20个月前已新手的身份写了几篇入门的文章:Python爬虫建站入门手记——从零开始建立采集站点 结果弄到一半就弃坑了。 该填的坑是要填的,于是我最近开始在 liv...
摘要:从零开始系列文章,将介绍如何利做为服务端脚本,通过框架开发。框架是基于的引擎,是目前速度最快的引擎。浏览器就基于,同时打开个网页都很流畅。标准的开发框架,可以帮助我们迅速建立站点,比起的开发效率更高,而且学习曲线更低。 从零开始nodejs系列文章,将介绍如何利Javascript做为服务端脚本,通过Nodejs框架web开发。Nodejs框架是基于V8的引擎,是目前速度最快的Java...
摘要:是什么呀是一个和不太一样的数据库。怀疑是同时联了四个集合的数据造成的。这本书的定位是和的应用,所以有意弱化了数据库的搭建维护和底层优化。所以本书可能不适合数据库工程师。 这篇文章没有代码,请放心阅读。 程序员最宝贵的东西是生命,生命属于程序员只有一次。一个程序员的一生应该这样度过:当她回首往事的时候,她不会因为搭建环境浪费时间而悔恨,也不会因为集群无法运行而羞耻。这样,在她开发的时候,...
阅读 1186·2021-09-26 09:55
阅读 3105·2019-08-30 15:55
阅读 924·2019-08-30 15:53
阅读 2250·2019-08-30 13:59
阅读 2347·2019-08-29 13:08
阅读 1075·2019-08-29 12:19
阅读 3268·2019-08-26 13:41
阅读 397·2019-08-26 13:24