虽然我认为谷歌在过滤大多数关键词的重复内容方面会做得很合理,但索引中存在所有这些重复内容以及浪费的抓取时间仍然是非常糟糕的。对于谷歌(以及其他搜索引擎)来说,这种做法相当愚蠢。很容易就能发现,真实域名和 AWS 子域名解析到同一个 IP 地址,而且页面也相同。这样一来,他们就可以节省大量时间去抓取那些由于 DNS 条目重复而导致的 URL。
解决问题的根源
作为优秀的 SEO 人员,我们知道 电报筛查 应该尽一切努力确保只有一个域名解析到网站。目前,我们无法阻止 AWS 添加公共 DNS 条目,因此,解决这个问题的一种方法是确保如果使用 AWS 子域访问 Web 服务器,则重定向到主域。以下是使用 Apache mod_rewrite 的示例,演示了如何执行此操作:
这个修复很快就阻止了 Googlebot 抓取我们的 amazonaws.com 子域名地址,这大大减轻了我们服务器的负载。但当我发现问题时,已经有数千个页面被索引了。由于这些页面可能没有造成任何损害,我决定让 Google 找出所有 301 重定向,然后从索引中删除它们。于是我等了又等。一个月后,索引页面的数量(根据 site: 命令)完全一样。没有任何页面被从索引中删除。
清理它
为了帮助谷歌,我决定使用网站 获得客户好评的 7 种方法 站长工具提交移除请求。我暂时移除了 301 重定向,以便谷歌查看我的网站验证文件(显然它被重定向到了我主域名的验证文件),然后又重新添加了 301 重定向。我提交了完整的网站移除请求,但被拒绝了,因为该域名没有被 robots.txt 屏蔽。同样,我认为这很愚蠢,因为整个子域名都被重定向到了正确的域名。
这让我有点恼火
所以我想再给 Google 一个月时间,看看 阿拉伯联合酋长国电话号码 它是否能找到 301 重定向。至少又过了一个月,没有页面从索引中掉出来。这证实了我的猜测:Google 在查找不在网络链接图中的内容的 301 重定向方面做得相当糟糕。我以前也遇到过这种情况,当时我修改了网址,更新了所有内部链接以指向新网址,并重定向了旧网址。Google 似乎不会回过头去重新抓取其索引中未在其标准网页抓取中找到的页面,以查看它们是否已被删除或重定向(即使会,速度也非常非常慢)。