爬虫 - 拽熊博客

基于scrapy的redis安装和配置方法

在定向爬虫的制作过程中，使用分布式爬取技术可以显著提高爬取效率。而 Redis 配合 Scrapy 是实现分布式爬取的基础。 Redis 是一个高性能的 Key-Value 数据库，它把数据保存在内存里。因此可以...

拽熊3年前

476

我们在写爬虫，构建网络请求的时候，不可避免地要添加请求头( headers )，这里介绍工具一键生成请求头，省去编写请求头信息的麻烦！方法一：网站在线转换工具网址：https://curlconverter.com...

拽熊3年前

17513

什么是Requests Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Request...

拽熊3年前

915

xpath表达式：我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。我们需要安装lxml模块来支持xpath的操作。 from lxml import etree 一、转换特定html对象方法一：etr...

拽熊3年前

9314

和lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据区别在于：BeautifulSoup4可以使用CSS 选择器，lxml使用xpath 一、安装安装 Beautiful S...

拽熊3年前

10810

一、python多线程关于多线程的知识，看下面这篇文章即可。二、多线程实例这里我们是把本站python爬虫教程四中的爬虫例子，给改编写成使用多线程的模式的。原代码效果如下： import os impor...

拽熊3年前

6113

一、Scrapy框架简介 Scrapy是用Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的优势在于，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来...

拽熊3年前

1187

问题背景如果目标网站没有设置好HTTPS证书，又或者网站的HTTPS证书不被CA机构认可，用浏览器访问的话，就可能会出现SSL证书错误的提示。用requests库来请求这类网站的话，会直接抛出SSLError...

拽熊3年前

6013