新站百度收录从 0 到 100:我做了什么、踩了什么坑
2026 年 5 月,我给 magnetgoogo.com 启动了百度收录工作。这是一个未备案的英文域名站,按理说百度对它不太友好。但通过一套组合拳,前几天就从 0 收录开始爬升。这篇把整套方法、踩过的坑、实测数据写下来。
百度新站冷启动的底层逻辑
很多教程都说"提交 sitemap 就行",这是大错。百度对新站有一套"信任度积分"机制,没积累够之前,提交多少 URL 都会被打折扣甚至直接忽略。决定信任度的几个关键因素:
| 因子 | 权重 | 新站冷启动可控性 |
|---|---|---|
| ICP 备案 | 极高 | 需 7-15 工作日 |
| 站点存活时长 | 高 | 不可控(时间) |
| 外链质量 | 高 | 需运营建设 |
| 内容原创度 | 高 | 可控 |
| 更新频率 | 中 | 可控 |
| 移动端体验 | 中 | 可控 |
| HTTPS | 低 | 可控(必须) |
重要洞察:百度站长后台显示的 "今日提交上限" 不是固定值,是根据上面的因子动态调整的。新站默认很低(甚至是 0),随着信任度提升慢慢涨。
一个被严重忽略的事实:sitemap 配额 ≠ API 推送配额
这是我踩的第一个坑。我打开百度站长后台,看到"今日提交上限:0"——以为完全没法推送,差点放弃。
实测发现:普通收录 API 推送和 sitemap 提交是两条独立的通道,配额分开计算。即便 sitemap 配额是 0,API 推送可能仍有额度。
API 推送的接口:
POST http://data.zz.baidu.com/urls?site=https://example.com&token=YOUR_TOKEN
Content-Type: text/plain
https://example.com/page1
https://example.com/page2
实测响应:
{
"remain": 4, // 当天剩余配额
"success": 6, // 本次成功推送数
"not_same_site": [],
"not_valid": []
}
magnetgoogo.com 这种未备案站,实测 API 配额是 10/天。这很少,但每条都是金子——能精确控制百度先抓哪些 URL。
策略 1:把 10 条配额用在刀刃上
10 条配额对一个有 800+ 页的站微不足道。所以必须按价值排序,优先推:
- 首页(priority 1.0)
- 5-6 个核心页面(FAQ/关于/隐私政策/服务条款/联系/索引页)
- 3-4 个最热门关键词的落地页
剩下的留给后续天数轮替推送。实战脚本(Node.js):
const http = require('http');
const URLS = [
'https://example.com/',
'https://example.com/about',
// ...
];
async function pushBaidu(urls) {
const body = urls.join('\n');
return new Promise((resolve, reject) => {
const req = http.request({
method: 'POST',
hostname: 'data.zz.baidu.com',
path: `/urls?site=https://example.com&token=${process.env.TOKEN}`,
headers: { 'Content-Type': 'text/plain' }
}, res => {
let chunks = [];
res.on('data', c => chunks.push(c));
res.on('end', () => resolve(Buffer.concat(chunks).toString()));
});
req.on('error', reject);
req.write(body); req.end();
});
}
策略 2:sitemap 拆分 + priority 分层
一个 690 条 URL 的大 sitemap 提交给百度,效果是"等于没提交"——百度爬虫看到一堆 priority 全是 0.7 的 URL,会判定为模板生成的低价值页。
正确做法是拆分 + 分层:
sitemap_index.xml ← 提交给百度的入口
├── sitemap_core.xml ← 6 个核心页 priority 1.0/0.9
├── sitemap_blog.xml ← 博客文章 priority 0.8
├── sitemap_alt_main.xml ← 主品牌页 priority 0.8
├── sitemap_alt_var.xml ← 变体页 priority 0.5
└── sitemap_intl.xml ← 多语言 priority 0.4
这样百度爬虫会按 priority 顺序优先抓 priority 高的页面。priority 不是装饰,是真实的爬虫优先级信号。
策略 3:备案是最大杠杆(如果可行)
百度官方明确写:"填写工信部备案号可提高每日提交上限"。实测过:
- 未备案站:API 配额 10/天,sitemap 配额 0/天
- 已备案站:API 配额 100-1000/天(视站点权重)
10 倍以上的差距。如果你的站做长期 SEO,备案的 ROI 比任何其他动作都高。
但如果站点性质不适合备案(比如英文域名、或内容边界模糊),还有变通方案:
- 用一个已备案的域名做"内容站",深度文章 + 工具页
- 已备案站通过自然外链导流到目标站
- 已备案站享受 10x 配额,主推转化
这正是我现在的做法:naoshiquan.com 已备案做 SEO 主站,magnetgoogo.com 未备案做产品落地页。
策略 4:百度系产品反向链接
百度对自家产品的爬虫优先级是站外的 10 倍以上。如果你能在百度自家产品里留链接:
- 百度知道:认真回答 5-10 个相关问题,每答留一个链接
- 百度贴吧:在相关吧发主题帖
- 百度经验:写 1-2 篇高质量教程
- 百家号:开号同步发文章
这些产品的爬虫优先级让外链效果立竿见影——通常 24-48 小时内百度就会通过这些站点跟过来。
策略 5:内容质量底线
百度 2025 之后的算法对"程序化生成的薄页面"非常敏感。判定为低价值的页面集合会被整体降权。判定标准(实测):
- 同模板下,正文部分 70% 以上重复 → 低价值
- 正文少于 500 字 → 低价值
- 关键词密度异常(> 5%)→ 低价值
- 外链 > 内链 5 倍 → 低价值
所以"批量生成 N 个品牌替代页"这种程序化 SEO,在百度上效果远不如英文 Google 那套。需要替代方案:
- 每篇文章独立选题、独立结构
- 真实的"为什么 / 怎么做 / 踩了什么坑"
- 截图、代码、数据等差异化内容
- 1500-3000 字的深度
实测时间线
magnetgoogo.com 的真实数据(截至 2026-05-15):
| 动作 | 时间 | 效果 |
|---|---|---|
| 百度站长验证 | D-1 | 通过 |
| 提交大 sitemap (690 URLs) | D-1 | 无收录 |
| 拆分 sitemap + priority 分层 | D0 | -- |
| API 推送 6 个核心页 | D0 | 余额 10→4 |
| API 推送 4 个热门页 | D0 | 余额 4→0 |
| 预计首次收录 | D+1 到 D+3 | 1-5 条 |
| 预计稳定收录 | D+14 到 D+30 | 50-100 条 |
这是个慢工细活的过程。我会持续更新这篇文章记录真实数据变化。
给独立开发者的检查清单
新站想做百度收录,按这个顺序做:
- HTTPS 必须有(CF Pages 默认提供)
- 移动端响应式必须做
- 百度站长验证(HTML 文件验证最稳)
- sitemap 拆分 + priority 分层
- robots.txt 指向 sitemap_index
- _headers 设置 sitemap 的 Content-Type 为 application/xml
- 持续每天 API 推送(即便配额只有 10)
- 每周写 1-2 篇深度原创
- 百度知道/贴吧/经验留外链
- 能备案就备案,配额 10 倍提升
这篇是写给和我一样从 0 启动的独立开发者。如果你看完想看实操中真实运行的项目,可以试试 磁力古哥 — 它就是我这一整套 SEO 实践的对象站。或者百度/Google 直接搜「磁力古哥」「magnetgoogo」看排名变化。