爬虫对于许多Python初学者来说都是一个好玩有趣的技能,但大多数人都是从网上得来的经验,会认为学习爬虫是件很难的事,像处理反爬机制以及反反爬,总是让人望而却步,今天我们来进行爬虫实操,需要注意爬虫本身并不违法,但恶意爬取文件将会涉及相关法律,为避免不必要的纠纷,本文采取一个不存在的网站进行演示,本文适合Python初学者以及爬虫初学者学习,博主是大一.所以讲的话和相关技能并不特别专业,望大家谅解
1. 导入模块部分
from urllib import request
from urllib.parse import quote
import string
import time
import json
from bs4 import BeautifulSoup
import codecs
import os
-
urllib.request
: 用于发送HTTP请求 -
urllib.parse.quote
: 用于对URL进行编码 -
string
: 提供字符串操作相关常量 -
json
: 用于JSON数据的处理 -
BeautifulSoup
: 用于解析HTML文档 -
codecs
: 提供文件编码相关功能 -
os
: 提供操作系统相关功能,如文件/目录操作2. 创建图片目录
-
if not os.path.exists("/images"):os.mkdir("/images")
检查