在日常上网浏览网页、刷视频时,背后都离不开 HTTP 协议的支持。作为 Web 世界的 “交通规则”,它负责服务器和客户端浏览器之间的数据传输。这篇文章就带大家全面了解 HTTP 协议,从基本概念到通信细节,再到安全相关的 HTTPS,让你对它有清晰的认知。
一、HTTP 协议是什么?
HTTP 协议,全名叫 Hyper Text Transfer Protocol(超文本传输协议),是应用层里专门用来在服务器和客户端浏览器之间传输超文本数据的协议。像我们平时看到的文字、图片、视频、音频这些,都靠它来传递。
它不只是个简单的传输协议,还是个双向协议,工作在 “浏览器 - 服务器” 架构下。简单说就是:浏览器把请求数据发给服务器,服务器处理完请求后,再把响应信息回传给浏览器。
二、HTTP 协议怎么通信?
HTTP 属于应用层协议,默认用 80 端口,在传输层会借助 TCP 协议来传数据。整个通信过程分 11 步,咱们结合浏览器和服务器(比如 Tomcat)的交互来看看:
- 用户在浏览器上发起新请求,比如输入网址按回车;
- 浏览器向服务器发送 TCP 连接请求;
- 服务器和浏览器通过 TCP 三次握手,建立起 TCP 连接;
- 浏览器按照 HTTP 协议格式,生成请求数据包(也就是 HTTP 请求报文);
- 把这个请求数据包发给服务器;
- 服务器按照 HTTP 协议格式,解析收到的请求报文;
- 服务器执行请求处理,调用相关的业务逻辑方法,生成响应数据;
- 服务器再按照 HTTP 协议格式,把响应数据打包成响应数据包(HTTP 响应报文);
- 服务器把响应数据包发送给浏览器;
- 浏览器按照 HTTP 协议格式,解析响应数据包;
- 浏览器把响应数据包里的内容显示在页面上,用户就能看到网页了。
三、URL:定位资源的 “地址”
HTTP 协议靠 URL(Uniform Resource Locator,统一资源定位符)来找到要访问的资源,它的格式是:http://host [":"port] [abs_path]
给大家举个例子:http://192.168.0.116:8080/index.html
,这里每个部分的意思很明确:
- “http” 表示用 HTTP 协议定位网络资源;
- “host” 是合法的 Internet 主机域名或者 IP 地址,比如例子里的 “192.168.0.116”;
- “port” 是端口号,要是没写就用默认的 80 端口,例子里用的是 8080 端口;
- “abs_path” 是请求资源的 URI,例子里就是 “/index.html”。
这里得提一下 URL 和 URI、URN 的关系。URL 是 URI(Uniform Resource Identifier,统一资源标识符)的子集,它在 URI 的基础上多了定位资源的能力。而 URI 除了包含 URL,还包含 URN(Uniform Resource Name,统一资源名称)。URN 只用来定义资源的名称,没法定位资源,比如 “urn:isbn:0451450523”,这只是一本书的 ISBN 编号,能确定是哪本书,但没法知道在哪儿能找到这本书。
简单总结下三者的关系:URI 是大概念,下面分了 URL 和 URN,URL 能定位资源,URN 只能命名资源。
四、HTTP 报文:数据传输的 “包裹”
HTTP 报文分请求报文和响应报文,就像快递包裹一样,里面装着通信需要的各种信息。
4.1 请求报文
浏览器通过 URL 发请求时,会把请求信息打包成 HTTP 请求报文发给服务器。它的结构分四部分:
- 第一行是请求行,包含请求方式、URL、协议版本,比如 “GET /index.html HTTP/1.1”;
- 接下来几行是 HTTP 请求首部,里面有多个首部字段,用来传递额外的请求信息;
- 一个空行,作用是分隔首部和后面的内容主体 Body;
- 最后是请求的内容主体,也就是要传给服务器的数据(不是所有请求都有)。
4.2 响应报文
服务器处理完请求后,会把响应信息装进 HTTP 响应报文回传给浏览器。它的结构和请求报文类似,也分四部分:
- 第一行是状态行,包含协议版本、状态码和描述,最常见的就是 “HTTP/1.1 200 OK”,表示请求成功;
- 接下来几行是响应首部,同样有多个首部字段;
- 一个空行,分隔首部和内容主体;
- 最后是响应的内容主体,也就是服务器返回给浏览器的数据,比如网页的 HTML 代码。
给大家看个 HTTP 响应报文的示例(实际报文会更复杂,这里是简化版):
HTTP/1.1 200 OK
Content-Type: text/html; charset=UTF-8
Content-Length: 1234<html>
<body>
响应内容
</body>
</html>
五、常用的 HTTP 请求方式
HTTP 请求报文的第一行(请求行)里会指定请求方式,常见的有 GET、POST、HEAD、PUT、DELETE、OPTIONS 这几种,各自的用途不一样:
请求方式 | 用途 | 特点 |
---|---|---|
GET | 获取资源 | 只检索数据,不影响资源;参数通过 URL 传递;幂等且可缓存 |
POST | 提交数据增加资源 | 用来创建或增加资源;两个相同请求不会覆盖;参数通过 Request Body 传递;非幂等且不可缓存 |
HEAD | 获取响应报头 | 和 GET 类似,但只返回响应报头,没有内容主体;常用于确认 URL 有效性和资源更新时间 |
PUT | 修改资源 | 用来更新资源;两个相同请求会覆盖;数据通过内容主体传递;幂等 |
DELETE | 删除资源 | 用来删除指定资源;幂等 |
OPTIONS | 查询支持的方法 | 询问指定 URL 支持哪些请求方式;返回结果会包含 “Allow: GET, POST, HEAD, OPTIONS” 这类内容 |
这里重点说下 GET 和 POST 的区别,这俩是平时用得最多的:
- 用途不同:GET 是拿数据,POST 是提交数据;
- 请求报文格式有差异:POST 的请求行是 “POST /URL HTTP/1.1 \r\n”,GET 的是 “GET /URL HTTP/1.1 \r\n”;
- 参数传递方式不一样:GET 的参数在 URL 里,POST 的参数在 Request Body 里;
- 幂等性和缓存不同:GET 是幂等(多次执行结果一样)且能缓存,POST 是非幂等且不能缓存。
六、HTTP 首部字段:传递额外信息的 “小纸条”
HTTP 首部字段就像通信时附带的 “小纸条”,用来传递额外的信息,比如服务器域名、数据长度、内容类型等等。下面给大家介绍几个常用的:
- Host 字段:浏览器发请求时,用来指定服务器的域名。示例:
Host: www.apesource.com
- Content-Length 字段:服务器返回响应时,告诉浏览器本次响应数据的长度。示例:
Content-Length: 1000
- Connection 字段:浏览器用来要求服务器使用长连接,方便后续请求复用。示例:
Connection: keep-alive
(要是想断开连接,就写Connection: close
) - Content-Type 字段:服务器告诉浏览器,本次响应数据的类型和编码。示例:
Content-Type: text/html; charset=utf-8
(表示是 HTML 文件,编码是 UTF-8) - Accept 字段:浏览器发请求时,说明自己能接受哪些格式的响应数据。示例:
Accept: */*
(表示所有格式都能接受) - Content-Encoding 字段:服务器告诉浏览器,响应数据用的压缩格式。示例:
Content-Encoding: gzip
- Accept-Encoding 字段:浏览器告诉服务器,自己能处理哪些压缩格式。示例:
Accept-Encoding: gzip, deflate
七、HTTP 状态码:请求结果的 “反馈信号”
服务器返回的响应报文里,状态行中的状态码就像 “反馈信号”,告诉浏览器请求处理的结果。状态码分 5 大类,每类有不同的含义:
7.1 1XX:信息提示
这类状态码是协议处理中的中间状态,实际用得很少,主要是告诉浏览器 “请求正在处理中”。
7.2 2XX:请求成功
表示服务器成功处理了请求,常见的有:
- 200 OK:最常用的,说明请求完全成功,响应里有完整的内容主体;
- 204 No Content:和 200 OK 类似,但响应报文没有内容主体;
- 206 Partial Content:用于分块下载或断点续传,说明返回的只是资源的一部分。
7.3 3XX:重定向
表示客户端请求的资源位置变了,需要用新的 URL 重新请求,常见的有:
- 301 Moved Permanently:永久重定向,说明原来的资源没了,以后都得用新 URL 访问;
- 302 Found:临时重定向,资源还在,但暂时得用另一个 URL 访问。
7.4 4XX:客户端错误
表示浏览器发的请求有问题,服务器没法处理,常见的有:
- 400 Bad Request:请求报文格式错了,服务器看不懂;
- 403 Forbidden:服务器不让访问这个资源,不是请求格式的问题;
- 404 Not Found:请求的资源在服务器上找不到;
- 405 Not Allowed:服务器不支持浏览器用的这种请求方式。
7.5 5XX:服务器错误
表示请求没问题,但服务器处理时出了内部错误,常见的有:
- 500 Internal Server Error:服务器内部出了未知错误;
- 501 Not Implemented:浏览器请求的功能,服务器还没实现;
- 502 Bad Gateway:服务器作为网关或代理时,访问后端服务器出错了(自身没问题);
- 503 Service Unavailable:服务器现在太忙了,暂时没法响应请求,建议稍后再试。
八、连接管理:让通信更高效
HTTP 的连接管理主要涉及短连接、长连接和管线化连接,目的是减少通信开销,提高效率。
8.1 短连接和长连接
- 短连接:HTTP/1.0 默认用的是短连接。每次通信都要重新 TCP 三次握手建立连接,响应完就 TCP 四次挥手断开。这样频繁建立和断开连接,开销很大。
- 长连接:HTTP/1.1 改成了默认长连接(也叫持久性连接)。建立一次 TCP 连接就能进行多次 HTTP 通信,不用每次都重新连,大大减少了开销,还能减轻服务器压力。
这里要注意两点:
- HTTP/1.0 里要是想用长连接,得在请求里加
Connection: Keep-Alive
; - HTTP/1.1 里要是想断开长连接,客户端或服务器得发
Connection: close
。
8.2 管线化连接
管线化连接是把多个 HTTP 请求批量提交的技术,发请求时不用等服务器先响应前一个。不过这得基于长连接,而且只有 HTTP/1.1 支持,HTTP/1.0 不支持。
比如以前发两个请求,得等第一个请求的响应回来,再发第二个;有了管线化,能同时把两个请求发出去,服务器处理完再依次返回响应,效率更高。
九、HTTPS:给 HTTP 加层 “安全锁”
HTTP 协议因为用明文传输,存在不少安全问题,而 HTTPS 就是为了解决这些问题而生的。
9.1 HTTP 的安全隐患
HTTP 用明文传数据,会有三个主要问题:
- 内容可能被窃听:比如数据被抓包,里面的信息就能被看到;
- 通信方身份可能被伪装:比如遇到钓鱼网站,你以为是正规网站,其实是假的;
- 报文可能被篡改:比如传输过程中,数据被改了(像强制植入广告),还没法发现。
9.2 什么是 HTTPS?
HTTPS 不是新协议,而是在 HTTP 和 TCP 之间加了一层 SSL(Secure Sockets Layer,安全套接层)。简单说就是:HTTP 先和 SSL 通信,再由 SSL 和 TCP 通信。通过 SSL,HTTPS 有了加密(防窃听)、认证(防伪装)、完整性保护(防篡改)这三个能力。
9.3 HTTP 和 HTTPS 的区别
- 安全性不同:HTTP 明文传输,不安全;HTTPS 加了 SSL,加密传输,安全;
- 连接建立过程不同:HTTP 只要 TCP 三次握手就能传报文;HTTPS 在 TCP 三次握手后,还要进行 SSL 握手,才能传加密报文;
- 端口不同:HTTP 默认 80 端口,HTTPS 默认 443 端口;
- 证书要求不同:HTTPS 需要向 CA(证书权威机构)申请数字证书,证明服务器身份;HTTP 不用。
9.4 两种加密方式
HTTPS 的加密主要用两种方式,各有优缺点:
9.4.1 对称密钥加密
加密和解密用同一个密钥。优点是运算速度快,缺点是没法安全地把密钥传给对方 —— 要是密钥在传输过程中被偷了,加密就没意义了。
9.4.2 非对称密钥加密
也叫公开密钥加密,加密和解密用不同的密钥(一个公钥,一个私钥)。公钥谁都能拿,私钥只有自己有。
- 加密过程:发送方用接收方的公钥加密数据,接收方用自己的私钥解密;
- 签名过程:发送方用自己的私钥签名,接收方用发送方的公钥验证签名,能确认发送方身份。
优点是公钥传输安全,缺点是运算速度慢。
9.5 HTTPS 的工作原理
HTTPS 的工作过程其实就是结合了两种加密方式,既保证安全又兼顾速度,具体步骤如下:
- 用户用浏览器访问 HTTPS 网站,服务器收到请求后,选择浏览器支持的加密和哈希算法,然后把数字证书(里面包含颁发机构、网址、公钥、有效期等信息)返回给浏览器;
- 浏览器校验证书:要是证书有问题(比如过期、不被信任),会弹出警告;要是没问题,就生成一个随机秘钥 X,用证书里的公钥加密后发给服务器;
- 服务器收到加密后的随机秘钥 X,用自己的私钥解密,得到 X;然后用 X 对网页内容加密,发给浏览器;
- 浏览器用之前生成的随机秘钥 X 和约定的加密算法,解密服务器发来的内容,最后把网页显示给用户。
到这里,HTTP 协议的核心内容就讲完了。从基本概念到通信流程,再到安全升级的 HTTPS,相信大家对 HTTP 有了更全面的认识。如果有疑问,欢迎在评论区交流~