尼采般地抒情

公告栏

此网站主题为本人手写主题,主题还在开发中……


作者:尼采般地抒情
本站主页面和blog页面暂时一样,目的是为了百度收录,百度收录之后,会将主页换回引导页~

站点信息

文章数目:195
已运行时间:
目录
  1. 一、爬虫基本架构
    1. url 管理模块
    2. 网页下载模块
    3. 网页解析模块
  2. 二、BeautifulSoup 解析网页
  3. 三、Scrapy
    1. Scrapy 基础
    2. Scrapy 框架架构图
  4. 四、Scrapy 使用
    1. 使用 SOP
    2. 常用命令
  5. 参考

尼采般地抒情

尼采般地抒情

公告栏

此网站主题为本人手写主题,主题还在开发中……


作者:尼采般地抒情
本站主页面和blog页面暂时一样,目的是为了百度收录,百度收录之后,会将主页换回引导页~

站点信息

文章数目:195
已运行时间:

一、爬虫基本架构

url 管理模块

  • 就是管理自己爬取的的网页不要重复爬取,避免爬取进入死循环
  • 使用 python 当中的 set 数据结构

网页下载模块

将对应的 url 模块下载到本地或者读入内存

实现方式

  • 通过 url 下载
from urllib.request import urlopen
test_url = "https://wztlink1013.github.io"
response = urlopen(test_url)
print (response.getcode()) # 200 表示访问成功
print (response.read())
  • 通过 Request 访问
  • 通过 cookie 访问

网页解析模块

从已经下载的网页中爬取数据,实现方式有:

  1. 正则表达式
  2. html.parser
  3. BeautifulSoup:结构化解析网页
  4. lxml
  5. 结构化解析
  6. DOM(Document Object Model),树形结构,就是 html 的基本骨架

二、BeautifulSoup 解析网页

三、Scrapy

Scrapy 基础

  • 是一个爬虫框架,同时易扩展,可以添加新的模块达到自定义扩展
  • 输出格式多样:json,csv,xml 等
  • 自动处理编码

Scrapy 框架架构图

下载方法以及问题,在 anaconda 博客中

四、Scrapy 使用

使用 SOP

  • 创建工程
    • 键入cmd cd到需要下载的目录下
    • 输入scrapy startproject tutorial(最后是项目名字)
    • !此后所有有关命令的操作,均在下一级文件夹下,也有是有 cfg 文件后缀的文件夹下
  • 定义 Item,构造爬取的对象
  • 编写 spider,爬虫主体
    • scrapy genspider amazon_spider https://……
  • pipelines,默认 return item
  • 编写其他配置,其中 pipeline 用于处理爬取后所得到的结果
  • 执行爬虫
    • scrapy crawl amazon_spider

常用命令

参考

  • 查看其官方文档
  • 简书

博客内容遵循: 署名-非商业性使用-禁止演绎 4.0 国际(CC BY-NC-ND 4.0)

本文永久链接: https://www.wztlink1013.com/blog/zsvfxg/

编辑: 部署: 订阅:

评论区

Twikoo 转换 utterances

最新评论

Loading...