🧱 一、滥用 Meta Robots 标签
❌ 常见问题:
问题 | 描述 |
---|---|
设置了 noindex 不该屏蔽的页面 | 比如产品页、分类页被意外 noindex,导致不被收录 |
设置 nofollow 导致内链失效 | 所有链接都被 nofollow,影响爬虫抓取路径 |
在 <meta> 标签和 HTTP header 中冲突 | 比如 meta 设为 index,但 HTTP header 设为 noindex |
✅ 改善建议:
-
核心页面使用:
<meta name="robots" content="index, follow">
-
仅对 隐私页、后台页、重复内容页 使用
noindex, nofollow
-
使用 GSC 检查“已排除的页面”原因,确认是否因 noindex
🧱 二、滥用 Canonical 标签(rel=canonical)
❌ 常见问题:
问题 | 描述 |
---|---|
所有页面都指向主页 | 导致所有页面内容都不被索引(Google 以为是重复页) |
指向错误的 URL(比如 HTTP 版本) | 会造成错误页面收录 |
动态参数页未正确规范 | 如分页、筛选页 canonical 到非匹配内容页 |
✅ 改善建议:
-
每个页面都应规范到自己或等价的原始版本,如:
<link rel="canonical" href="https://example.com/product/123" />
-
使用绝对路径,确保协议(https)和域名一致
-
不要全站统一写
<link rel="canonical" href="https://example.com/">
🧱 三、滥用 hreflang 标签(多语言/地区)
❌ 常见问题:
问题 | 描述 |
---|---|
hreflang 设置国家语言代码不对 | 比如写成 en 而非 en-us ,或漏了地区 |
自引用缺失 | 页面未包含指向自己的 hreflang 标签 |
hreflang 与 canonical 指向不同页面 | 会让 Google 不知道信哪一个 |
页面语言不对应 | hreflang 指的是西班牙语,页面内容却是英语 |
✅ 改善建议:
-
每个页面都应包含 自我引用 + 所有语言版本,如:
<link rel="alternate" hreflang="en-us" href="https://example.com/us/page" /> <link rel="alternate" hreflang="es-pe" href="https://example.com/pe/page" /> <link rel="alternate" hreflang="x-default" href="https://example.com/" />
-
hreflang 和 canonical 应该保持一致(指向自己或同内容的页面)
-
用 Google 的 hreflang 检查工具 检查是否互相指向
🔍 快速排查方法
工具 | 用法 |
---|---|
Google Search Console | 查看抓取/索引状态、noindex/canonical/hreflang 错误 |
Screaming Frog SEO Spider | 批量检查 meta robots、canonical、hreflang 设置是否正确 |
Ahrefs / SEMrush | 查看重复页面、索引异常页面 |
Site:example.com 搜索 | 检查哪些页面已被 Google 收录(可能被 canonical 指错) |
✅ 总结:改进要点
标签 | 正确用法 | 改善关键 |
---|---|---|
meta robots | 只屏蔽非核心页面 | 核心页面必须 index, follow |
rel=canonical | 每页只指向等价唯一页面 | 避免全站统一、避免参数误指 |
hreflang | 含自引用、语言正确、页面匹配 | 与 canonical 保持一致 |
元机器人
<meta name="robots" content="指令1, 指令2">
放在 <head>
中。
🧾 常见的 content 指令解释:
指令 | 含义 |
---|---|
index | ✅ 允许搜索引擎收录此页面(默认) |
noindex | ❌ 不让搜索引擎收录此页面(页面不会出现在搜索结果中) |
follow | ✅ 允许搜索引擎继续抓取页面上的链接 |
nofollow | ❌ 不让搜索引擎抓取页面上的链接 |
noarchive | 不显示缓存快照(Google 搜索结果的“缓存”) |
nosnippet | 不显示摘要片段(meta 描述、结构化数据) |
max-snippet:0 | 限制摘要片段字数 |
max-image-preview:none | 禁止图像预览 |
✅ 示例:
1. 允许索引和跟踪链接(默认,无需设置)
<meta name="robots" content="index, follow">
2. 不收录,但允许抓取链接
<meta name="robots" content="noindex, follow">
👉 常用于:登陆页、重复内容页、支付成功页等
3. 不收录,也不跟踪链接
<meta name="robots" content="noindex, nofollow">
👉 常用于:后台、测试页面、用户隐私页面
🚫 注意事项:
-
不写 robots 标签,默认就是
index, follow
。 -
一旦设置了
noindex
,页面就不会被收录,无论链接多好。 -
若 robots.txt 中屏蔽了页面,meta robots 不会生效(因为根本访问不到页面)。
🔍 检查工具:
-
浏览器 → 右键查看网页源代码 → 搜索
meta name="robots"
-
Google Search Console → URL 检查工具 → 查看“页面可索引性”