去年年底,我运营的网站LocateTV迁移到了亚马逊网络服务 (AWS) 的云端,以利用其更高的灵活性和更低的运营成本。迁移后不久,我发现 Googlebot 对该网站的抓取量几乎是以前的两倍。进一步调查后,我发现 Google 一直在从 amazonaws.com 的一个子域名抓取该网站。
问题在于当你在 AWS 上启动服务器时
,它会自动获取一个类似于的公共 DNS 条目。这 电报数据库 味着该服务器将通过此域名以及你注册到同一 IP 地址的主域名访问。对于我们来说,这个问题更加严重,因为我们的主域名有两个 Web 服务器,因此整个网站的数据是通过两个不同的进行爬取的。
现在,这些 AWS 子域名已经没有外部链接了
但作为域名注册商,Google 收到了新 11+ 企业经理的人力资源管理艺术 的 DNS 条目通知,并继续索引了大量页面。所有这些都给我们的服务器带来了额外的负载,并导致了严重的重复内容问题(我费了不少劲才解决了这个问题——详情见下文)。
真是一团糟。
我想分析一下有多少其他网站受到了这个问 阿拉伯联合酋长国电话号码 题的影响。在 Google 上快速搜索一下site:compute-会发现有近 50 万个网页被索引(虽然这个命令的统计数据通常不太准确,但足以说明问题的规模):
我猜测这些页面大部分都是重复内容,因为网站所有者为其网站设置了单独的 DNS 条目。我检查的前几个网站确实存在这种情况:
对于 Box Office Mojo,Google 报告称有 76,500 个页面被索引到 amazonaws.com 地址。这意味着索引中存在大量重复内容。快速搜索“票房最快突破 5 亿美元的电影”等特定内容,会显示来自两个域名的重复内容(此外还有一个安全子域名和其中一个服务器的 IP 地址——哎呀!):