Sitemap一直是所有搜索引擎收录的必要文件之一,但是文件的设置若出了问题,很容易让bot自动屏蔽某些链接,其中就包含noindex标签。
问题解析:
对于noindex的使用,首先这个是针对Google bot设置的权限,属于是通过“元标记”屏蔽其收录的一种方式,一般情况下Google bot将不抓取收录。
常见的元标记有以下几种方式:
您可以将元标记添加到 HTML 网页。元标记会告诉搜索引擎在搜索结果中显示网页时都有哪些限制。了解如何使用元标记阻止搜索引擎将网页编入索引。
以下是一些可以添加到 HTML 网页中的常见元标记:
- 要防止您网站上的特定报道出现在 Google 新闻中,请使用以下元标记屏蔽 Googlebot-News 的访问:
<meta name="Googlebot-News" content="noindex, nofollow">
。 - 要防止您网站上的特定报道出现在 Google 新闻和 Google 搜索中,请使用以下元标记屏蔽 Googlebot 的访问:
<meta name="googlebot" content="noindex, nofollow">
。 - 要防止所有漫游器将您网站上的特定报道编入索引,请使用以下元标记:
<meta name="robots" content="noindex, nofollow">
。 - 要防止漫游器抓取特定报道中的图片,请使用以下元标记:
<meta name="robots" content="noimageindex">
。 - 要通知我们应在特定时间从 Google 索引中移除某篇报道,请使用以下元标记:
<meta name="googlebot" content="unavailable_after: 25-Aug-2011 15:00:00 EST">
。 - 请以 RFC 850 格式指定时间和日期。系统会将该元标记视为移除请求。移除日期过后,网页大约需要一天时间才会从搜索结果中消失。但是,首次抓取报道的同时必须一并抓取该标记,否则标记无法生效。
- 您还可通过其他方法限制搜索结果中显示的内容。
详情可参考资料:阻止Google访问网站的内容
解答:如果您想要生成完好的sitemap文件,您可以使用Google推荐的Wordpress插件,比如yoastseo,您也可以手动添加XML格式、TXT格式都可以。您这种标记情况,一般是使用插件或者设置页面权限的时候,阻止了爬虫抓取,所以生成的sitemap也出现noindex标记。
常见的sitemap文件格式,参考如下:
让您的 CMS 为您生成站点地图
如果您使用的是 WordPress、Wix 或 Blogger 等 CMS,则您的 CMS 很可能已经为搜索引擎提供了站点地图。尝试搜索有关您的 CMS 如何生成站点地图的信息,或者如果您的 CMS 不自动生成站点地图,则搜索如何创建站点地图的信息。例如,对于 Wix,搜索“wix 站点地图”,或者对于 Blogger,搜索“Blogger RSS”。
手动创建站点地图
对于少于几十个 URL 的站点地图,您可以手动创建站点地图。为此,打开文本编辑器,例如 Windows 记事本或 Nano(Linux、MacOS) ,并遵循站点地图格式部分中描述的语法。只要 URL 中允许使用字符,您就可以随意命名文件。
您可以手动创建更大的站点地图,但这是一个乏味的过程并且难以长期维护。
使用工具自动生成站点地图
对于包含几十个 URL 的站点地图,您需要生成站点地图。有多种工具可以 生成站点地图。但是,最好的方法是让您的网站软件为您生成它。例如,您可以从您网站的数据库中提取您网站的 URL,然后将这些 URL 导出到您的 Web 服务器上的屏幕或实际文件中。与您的开发人员或服务器管理员讨论此解决方案。
您不必担心站点地图中 URL 的顺序,这对 Google 来说无关紧要。请记住 站点地图的大小要求;如果站点地图变得太大,您必须将其拆分为更小的站点地图。
参考资料:sitemap的构建