##

一、Scrapy

Scrapy 基础

  • 是一个爬虫框架,同时易扩展,可以添加新的模块达到自定义扩展
  • 输出格式多样:json,csv,xml 等
  • 自动处理编码

Scrapy 框架架构图

下载方法以及问题,在 anaconda 博客中

二、Scrapy 使用

使用 SOP

  • 创建工程
    • 键入cmd cd到需要下载的目录下
    • 输入scrapy startproject tutorial(最后是项目名字)
    • !此后所有有关命令的操作,均在下一级文件夹下,也有是有 cfg 文件后缀的文件夹下
  • 定义 Item,构造爬取的对象
  • 编写 spider,爬虫主体
    • scrapy genspider amazon_spider https://……
  • pipelines,默认 return item
  • 编写其他配置,其中 pipeline 用于处理爬取后所得到的结果
  • 执行爬虫
    • scrapy crawl amazon_spider

常用命令

参考

  • 查看其官方文档
  • 简书