python_爬虫
创始人
2024-01-20 14:02:28
0

定时、定量、制定目标的数据搜集程序。

技术库

网络请求

  • urllib
  • requests(三方)/ urllib3
  • selenium(UI自动测试、动态js渲染)
  • appium(手机App的爬虫或UI测试)

urllib

在这里插入图片描述

requests

基于urllib和urllib3封装的便捷使用的网络请求库
在这里插入图片描述

数据解析

  • re正则
  • xpath
  • bs4
  • json

数据存储

  • pymysql
  • mongodb
  • elasticsearch

多任务库

  • threading(多线程)、queue(线程队列)
  • asynio(协程)、gevent/eventlet(三方)

爬虫框架

  • scrapy
  • scrapy-redis(分布式多机爬虫)

反爬策略

  • UA(User-Agent)策略
  • 登录限制(Cookie)策略
  • 请求频次(IP代理)策略
  • 验证码(图片-云打码,文字或物件图片选择、滑块)
  • 动态js(Selenium/Splash/api接口)策略

爬虫与服务端的交互

伪造浏览器(User-Agent指定请求头),向服务器发起请求,接收响应数据,根据数据类型解析存储。
在这里插入图片描述
WSGI (web Servive Gateway interface web服务网关接口 基于socket)
WebKit (web客服端实现的框架)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
一帆风顺二龙腾飞三阳开泰祝福语... 本篇文章极速百科给大家谈谈一帆风顺二龙腾飞三阳开泰祝福语,以及一帆风顺二龙腾飞三阳开泰祝福语结婚对应...
美团联名卡审核成功待激活(美团... 今天百科达人给各位分享美团联名卡审核成功待激活的知识,其中也会对美团联名卡审核未通过进行解释,如果能...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...