飞污熊博客

Scrapy笔记12- 抓取动态网站

发表于 2016-04-15 分类于 python

前面我们介绍的都是去抓取静态的网站页面，也就是说我们打开某个链接，它的内容全部呈现出来。但是如今的互联网大部分的web页面都是动态的，经常逛的网站例如京东、淘宝等，商品列表都是js，并有Ajax渲染，下载某个链接得到的页面里面含有异步加载的内容，这样再使用之前的方式我们根本获取不到异步加载的这些网页内容。

使用Javascript渲染和处理网页是种非常常见的做法，如何处理一个大量使用Javascript的页面是Scrapy爬虫开发中一个常见的问题，这篇文章将说明如何在Scrapy爬虫中使用scrapy-splash来处理页面中得Javascript。

阅读全文 »

Scrapy笔记11- 模拟登录

发表于 2016-04-12 分类于 python

有时候爬取网站的时候需要登录，在Scrapy中可以通过模拟登录保存cookie后再去爬取相应的页面。这里我通过登录github然后爬取自己的issue列表来演示下整个原理。

要想实现登录就需要表单提交，先通过浏览器访问github的登录页面https://github.com/login，然后使用浏览器调试工具来得到登录时需要提交什么东西。我这里使用chrome浏览器的调试工具，F12打开后选择Network，并将Preserve log勾上。我故意输入错误的用户名和密码，得到它提交的form表单参数还有POST提交的UR 去查看html源码会发现表单里面有个隐藏的authenticity_token值，这个是需要先获取然后跟用户名和密码一起提交的。

阅读全文 »

Scrapy笔记10- 动态配置爬虫

发表于 2016-04-10 分类于 python

有很多时候我们需要从多个网站爬取所需要的数据，比如我们想爬取多个网站的新闻，将其存储到数据库同一个表中。我们是不是要对每个网站都得去定义一个Spider类呢？其实不需要，我们可以通过维护一个规则配置表或者一个规则配置文件来动态增加或修改爬取规则，然后程序代码不需要更改就能实现多个网站爬取。

要这样做，我们就不能再使用前面的scrapy crawl test这种命令了，我们需要使用编程的方式运行Scrapy spider，参考官方文档

阅读全文 »

Scrapy笔记09- 部署

发表于 2016-03-21 分类于 python

本篇主要介绍两种部署爬虫的方案。如果仅仅在开发调试的时候在本地部署跑起来是很容易的，不过要是生产环境，爬虫任务量大，并且持续时间长，那么还是建议使用专业的部署方法。主要是两种方案：

Scrapyd 开源方案
Scrapy Cloud 云方案

阅读全文 »

Scrapy笔记08- 文件与图片

发表于 2016-03-20 分类于 python

Scrapy为我们提供了可重用的item pipelines为某个特定的Item去下载文件。通常来说你会选择使用Files Pipeline或Images Pipeline。

这两个管道都实现了：

避免重复下载
可以指定下载后保存的地方(文件系统目录中,Amazon S3中)

阅读全文 »

Scrapy笔记07- 内置服务

发表于 2016-03-19 分类于 python

Scrapy使用Python内置的的日志系统来记录事件日志。

日志配置

LOG_ENABLED = true
LOG_ENCODING = "utf-8"
LOG_LEVEL = logging.INFO
LOG_FILE = "log/spider.log"
LOG_STDOUT = True
LOG_FORMAT = "%(asctime)s [%(name)s] %(levelname)s: %(message)s"
LOG_DATEFORMAT = "%Y-%m-%d %H:%M:%S"

阅读全文 »

Scrapy笔记06- Item Pipeline

发表于 2016-03-18 分类于 python

当一个item被蜘蛛爬取到之后会被发送给Item Pipeline，然后多个组件按照顺序处理这个item。每个Item Pipeline组件其实就是一个实现了一个简单方法的Python类。他们接受一个item并在上面执行逻辑，还能决定这个item到底是否还要继续往下传输，如果不要了就直接丢弃。

使用Item Pipeline的常用场景：

清理HTML数据
验证被抓取的数据(检查item是否包含某些字段)
重复性检查(然后丢弃)
将抓取的数据存储到数据库中

阅读全文 »

Scrapy笔记05- Item详解

发表于 2016-03-16 分类于 python

Item是保存结构数据的地方，Scrapy可以将解析结果以字典形式返回，但是Python中字典缺少结构，在大型爬虫系统中很不方便。

Item提供了类字典的API，并且可以很方便的声明字段，很多Scrapy组件可以利用Item的其他信息。

阅读全文 »

Scrapy笔记04- Selector详解

发表于 2016-03-14 分类于 python

在你爬取网页的时候，最普遍的事情就是在页面源码中提取需要的数据，我们有几个库可以帮你完成这个任务：

BeautifulSoup是python中一个非常流行的抓取库, 它还能合理的处理错误格式的标签，但是有一个唯一缺点就是：它运行很慢。
lxml是一个基于ElementTree 的XML解析库(同时还能解析HTML), 不过lxml并不是Python标准库

而Scrapy实现了自己的数据提取机制，它们被称为选择器，通过XPath 或CSS表达式在HTML文档中来选择特定的部分

XPath是一用来在XML中选择节点的语言，同时可以用在HTML上面。
CSS是一种HTML文档上面的样式语言。

Scrapy选择器构建在lxml基础之上，所以可以保证速度和准确性。

本章我们来详细讲解下选择器的工作原理，还有它们极其简单和相似的API，比lxml的API少多了，因为lxml可以用于很多其他领域。

完整的API请查看Selector参考

阅读全文 »

Scrapy笔记03- Spider详解

发表于 2016-03-12 分类于 python

Spider是爬虫框架的核心，爬取流程如下：

先初始化请求URL列表，并指定下载后处理response的回调函数。初次请求URL通过start_urls指定，调用start_requests() 产生Request对象，然后注册parse方法作为回调
在parse回调中解析response并返回字典,Item对象,Request对象或它们的迭代对象。Request 对象还会包含回调函数，之后Scrapy下载完后会被这里注册的回调函数处理。
在回调函数里面，你通过使用选择器（同样可以使用BeautifulSoup,lxml或其他工具）解析页面内容，并生成解析后的结果Item。
最后返回的这些Item通常会被持久化到数据库中( 使用Item Pipeline) 或者使用Feed exports将其保存到文件中。

尽管这个流程适合于所有的蜘蛛，但是Scrapy里面为不同的使用目的实现了一些常见的Spider。下面我们把它们列出来。

阅读全文 »