新站百度收录从 0 到 100:我做了什么、踩了什么坑

2026-05-15 SEO 实战 百度 · 约 9 分钟

2026 年 5 月,我给 magnetgoogo.com 启动了百度收录工作。这是一个未备案的英文域名站,按理说百度对它不太友好。但通过一套组合拳,前几天就从 0 收录开始爬升。这篇把整套方法、踩过的坑、实测数据写下来。

百度新站冷启动的底层逻辑

很多教程都说"提交 sitemap 就行",这是大错。百度对新站有一套"信任度积分"机制,没积累够之前,提交多少 URL 都会被打折扣甚至直接忽略。决定信任度的几个关键因素:

因子权重新站冷启动可控性
ICP 备案极高需 7-15 工作日
站点存活时长不可控(时间)
外链质量需运营建设
内容原创度可控
更新频率可控
移动端体验可控
HTTPS可控(必须)

重要洞察:百度站长后台显示的 "今日提交上限" 不是固定值,是根据上面的因子动态调整的。新站默认很低(甚至是 0),随着信任度提升慢慢涨。

一个被严重忽略的事实:sitemap 配额 ≠ API 推送配额

这是我踩的第一个坑。我打开百度站长后台,看到"今日提交上限:0"——以为完全没法推送,差点放弃。

实测发现:普通收录 API 推送和 sitemap 提交是两条独立的通道,配额分开计算。即便 sitemap 配额是 0,API 推送可能仍有额度。

API 推送的接口:

POST http://data.zz.baidu.com/urls?site=https://example.com&token=YOUR_TOKEN
Content-Type: text/plain

https://example.com/page1
https://example.com/page2

实测响应:

{
  "remain": 4,        // 当天剩余配额
  "success": 6,       // 本次成功推送数
  "not_same_site": [],
  "not_valid": []
}

magnetgoogo.com 这种未备案站,实测 API 配额是 10/天。这很少,但每条都是金子——能精确控制百度先抓哪些 URL。

策略 1:把 10 条配额用在刀刃上

10 条配额对一个有 800+ 页的站微不足道。所以必须按价值排序,优先推:

  1. 首页(priority 1.0)
  2. 5-6 个核心页面(FAQ/关于/隐私政策/服务条款/联系/索引页)
  3. 3-4 个最热门关键词的落地页

剩下的留给后续天数轮替推送。实战脚本(Node.js):

const http = require('http');
const URLS = [
  'https://example.com/',
  'https://example.com/about',
  // ...
];

async function pushBaidu(urls) {
  const body = urls.join('\n');
  return new Promise((resolve, reject) => {
    const req = http.request({
      method: 'POST',
      hostname: 'data.zz.baidu.com',
      path: `/urls?site=https://example.com&token=${process.env.TOKEN}`,
      headers: { 'Content-Type': 'text/plain' }
    }, res => {
      let chunks = [];
      res.on('data', c => chunks.push(c));
      res.on('end', () => resolve(Buffer.concat(chunks).toString()));
    });
    req.on('error', reject);
    req.write(body); req.end();
  });
}

策略 2:sitemap 拆分 + priority 分层

一个 690 条 URL 的大 sitemap 提交给百度,效果是"等于没提交"——百度爬虫看到一堆 priority 全是 0.7 的 URL,会判定为模板生成的低价值页。

正确做法是拆分 + 分层

sitemap_index.xml          ← 提交给百度的入口
├── sitemap_core.xml        ← 6 个核心页 priority 1.0/0.9
├── sitemap_blog.xml        ← 博客文章 priority 0.8
├── sitemap_alt_main.xml    ← 主品牌页 priority 0.8
├── sitemap_alt_var.xml     ← 变体页 priority 0.5
└── sitemap_intl.xml        ← 多语言 priority 0.4

这样百度爬虫会按 priority 顺序优先抓 priority 高的页面。priority 不是装饰,是真实的爬虫优先级信号。

策略 3:备案是最大杠杆(如果可行)

百度官方明确写:"填写工信部备案号可提高每日提交上限"。实测过:

  • 未备案站:API 配额 10/天,sitemap 配额 0/天
  • 已备案站:API 配额 100-1000/天(视站点权重)

10 倍以上的差距。如果你的站做长期 SEO,备案的 ROI 比任何其他动作都高。

但如果站点性质不适合备案(比如英文域名、或内容边界模糊),还有变通方案:

  1. 用一个已备案的域名做"内容站",深度文章 + 工具页
  2. 已备案站通过自然外链导流到目标站
  3. 已备案站享受 10x 配额,主推转化

这正是我现在的做法:naoshiquan.com 已备案做 SEO 主站,magnetgoogo.com 未备案做产品落地页。

策略 4:百度系产品反向链接

百度对自家产品的爬虫优先级是站外的 10 倍以上。如果你能在百度自家产品里留链接:

  • 百度知道:认真回答 5-10 个相关问题,每答留一个链接
  • 百度贴吧:在相关吧发主题帖
  • 百度经验:写 1-2 篇高质量教程
  • 百家号:开号同步发文章

这些产品的爬虫优先级让外链效果立竿见影——通常 24-48 小时内百度就会通过这些站点跟过来。

策略 5:内容质量底线

百度 2025 之后的算法对"程序化生成的薄页面"非常敏感。判定为低价值的页面集合会被整体降权。判定标准(实测):

  • 同模板下,正文部分 70% 以上重复 → 低价值
  • 正文少于 500 字 → 低价值
  • 关键词密度异常(> 5%)→ 低价值
  • 外链 > 内链 5 倍 → 低价值

所以"批量生成 N 个品牌替代页"这种程序化 SEO,在百度上效果远不如英文 Google 那套。需要替代方案:

  • 每篇文章独立选题、独立结构
  • 真实的"为什么 / 怎么做 / 踩了什么坑"
  • 截图、代码、数据等差异化内容
  • 1500-3000 字的深度

实测时间线

magnetgoogo.com 的真实数据(截至 2026-05-15):

动作时间效果
百度站长验证D-1通过
提交大 sitemap (690 URLs)D-1无收录
拆分 sitemap + priority 分层D0--
API 推送 6 个核心页D0余额 10→4
API 推送 4 个热门页D0余额 4→0
预计首次收录D+1 到 D+31-5 条
预计稳定收录D+14 到 D+3050-100 条

这是个慢工细活的过程。我会持续更新这篇文章记录真实数据变化。

给独立开发者的检查清单

新站想做百度收录,按这个顺序做:

  1. HTTPS 必须有(CF Pages 默认提供)
  2. 移动端响应式必须做
  3. 百度站长验证(HTML 文件验证最稳)
  4. sitemap 拆分 + priority 分层
  5. robots.txt 指向 sitemap_index
  6. _headers 设置 sitemap 的 Content-Type 为 application/xml
  7. 持续每天 API 推送(即便配额只有 10)
  8. 每周写 1-2 篇深度原创
  9. 百度知道/贴吧/经验留外链
  10. 能备案就备案,配额 10 倍提升

这篇是写给和我一样从 0 启动的独立开发者。如果你看完想看实操中真实运行的项目,可以试试 磁力古哥 — 它就是我这一整套 SEO 实践的对象站。或者百度/Google 直接搜「磁力古哥」「magnetgoogo」看排名变化。

关于作者

NSQ,独立开发者。当前主推 磁力古哥——一个聚合磁力索引的 Android 搜索 App,免费无广告。

访问 magnetgoogo.com ↗ 开发故事