Scrapy笔记06- Item Pipeline
当一个item被蜘蛛爬取到之后会被发送给Item Pipeline,然后多个组件按照顺序处理这个item。 每个Item Pipeline组件其实就是一个实现了一个简单方法的Python类。他们接受一个item并在上面执行逻辑, 还能决定这个item到底是否还要继续往下传输,如果不要了就直接丢弃。
使用Item Pipeline的常用场景:
- 清理HTML数据
- 验证被抓取的数据(检查item是否包含某些字段)
- 重复性检查(然后丢弃)
- 将抓取的数据存储到数据库中