引入requests包,发起请求并获取响应数据。
import requestsif __name__ == "__main__":#step 1:指定urlurl = 'http://www.7k7k.com/'#step 2:发起请求,get方法会返回一个响应对象response = requests.get(url)#step 3:获取响应数据.text返回的是字符川形式的响应数据page_text = response.textprint(page_text)#step 4:持久化存储with open('e:/Reptile/sogou.html','w',encoding='utf-8') as fp:fp.write(page_text)print('爬取数据结束!!!|')
爬虫的本质是:
用自动化方式高效地模拟人类浏览网页的行为,批量获取并解析公开的数据。
更具体来讲是一组程序逻辑,实现核心的三件事:
- 像浏览器一样请求网页(发送 HTTP 请求,拿到 HTML/JSON/文件等原始数据)
- 像人一样提取信息(用规则或算法从原始数据中解析出你需要的内容)
- 像蜘蛛一样发现新链接(自动跟踪页面中的 URL,持续扩大抓取范围)
所以,爬虫 = 自动化请求 + 数据解析 + 链接发现,本质是一种批量化、系统化的数据搬运工,把互联网上的公开信息“搬”到你的本地数据库或文件里。