拽熊 - 拽熊博客

9枚徽章超级管理员管理员

日拱一卒,功不唐捐

Python爬虫教程五：数据清洗 – BeautifulSoup模块

和lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据区别在于：BeautifulSoup4可以使用CSS 选择器，lxml使用xpath 一、安装安装 Beautiful S...

2年前

10810

一、什么是多线程？多线程类似于同时执行多个不同程序，多线程运行有如下优点：使用线程可以把占据长时间的程序中的任务放到后台去处理。用户界面可以更加吸引人，比如用户点击了一个按钮去触...

2年前

1436

问题背景如果目标网站没有设置好HTTPS证书，又或者网站的HTTPS证书不被CA机构认可，用浏览器访问的话，就可能会出现SSL证书错误的提示。用requests库来请求这类网站的话，会直接抛出SSLError...

2年前

5713

一、python多线程关于多线程的知识，看下面这篇文章即可。二、多线程实例这里我们是把本站python爬虫教程四中的爬虫例子，给改编写成使用多线程的模式的。原代码效果如下： import os impor...

2年前

5813

pyinstaller打包机制我们写的python脚本是不能脱离python解释器单独运行的，所以在打包的时候，至少会将python解释器和脚本一起打包，同样，为了打包的exe能正常运行，会把我们所有安装的第三...

2年前

556

一、Scrapy框架简介 Scrapy是用Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的优势在于，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来...

2年前

1107

一、数据清洗方式 spider代码 import scrapy class PicspiderSpider(scrapy.Spider): name = 'picSpider' # 爬虫的识别名称，必须是唯一的，在不同的爬虫必须定义不同的名字 allowed_domains = ...

2年前

12613

window系统安装java 出现以下信息，说明环境变量配置成功：流行JAVA开发工具正所谓工欲善其事必先利其器，我们在开发java语言过程中同样需要一款不错的开发工具，目前市场上的IDE很多，本文为...

2年前

7112