看看robots.txt文件

2023-07-04 02:30:02 85

一个robots.txt文件是一个简单的，静态的文件，您可以以抓取特定网页或目录的内容停止搜索引擎添加到您的网站。您甚至可以阻止某些用户代理对站点的某些区域进行爬网。

让我们以一个真实的示例为例，看看如果您决定设置Feedburner供稿来代替常规的RSS供稿，该怎么办。除了要说您得到一些不错的使用情况统计信息，而且因为仅在Feedburner更新时才查看提要，它可以节省服务器上的某些处理能力，因此我将不介绍您为什么要执行此操作。一旦您允许博客发布Feeburner供稿而不是常规供稿，则需要停止搜索引擎将旧供稿编入索引。停止出现在搜索索引中，您可以让用户获取Feedburner供稿，而不是本地供稿。然后，您将放置一个robots.txt包含以下内容的文件。

User-agent: *
Disallow: /feed

在另一种情况下，您可能希望阻止某个机器人抓取您网站的内容。在以下示例中，我们将停止一个名为ia_archiver的用户代理，该代理用于在archive.org上创建您的站点的副本。您可能有几个原因想阻止这种情况的发生，但这是您需要的规则。

User-agent: ia_archiver
Disallow: /

那么就SEO而言是否有益甚至有用？好吧，robots.txt文件的一种用法可以带来有益的结果，尽管其益处取决于站点的大小。让我解释。

Google，Yahoo，MSN和其他搜索引擎都采用了这种sitemap.xml格式。除了这种格式外，还可以sitemap.xml从robots.txt文件向文件添加链接。您可以在robots.txt文件中添加以下内容。

Sitemap:http://www.example.com/sitemap.xml

这行有点多余，因为上面的所有搜索引擎都会自动sitemap.xml在您的域的根目录下查找一个名为的文件。如果sitemap.xml文件是由CMS创建的，并且具有非标准名称，则通常会使用此选项。如果是这种情况，那么重写规则可能会更好，但是仍然可以使用您的robots.txt文件。

Sitemap:http://www.example.com/cms/feeds/sitemap/format/xml/

当您拥有大型站点并需要将站点映射文件分散在不同文件中时，此选项的功能显而易见。您可以链接到站点映射索引文件（该文件包含对其他sitemap.xml文件的引用，可能不会称为sitemap.xml），也可以仅链接sitemap.xml一个robots.txt文件中的多个文件。这是一个robots.txt引用两个站点映射文件的文件，每个文件都包含一半的站点。

Sitemap: http://www.example.com/sitemapa-m.xml
Sitemap: http://www.example.com/sitemapn-z.xml

我快速浏览了SEO行业中许多人运营的网站，发现许多网站robots.txt只是出于禁止某些文件或目录的目的而使用该文件。一些人使用该文件来指向他们的sitemap.xml文件，该文件通常被称为其他文件。更有趣的是，许多站点根本没有一个名为robots.txt的文件，这使我认为它们并不是那么有用。

我个人认为，仅robots.txt当您有任何要防止被抓取的内容或要向XML网站映射添加链接的情况下，我才会使用文件。设置一个如下所示的robots.txt文件：

User-agent: *
Disallow:
 
Sitemap: http://www.example.com/sitemap.xml

允许所有用户代理对您网站上的所有页面进行爬网，但是由于这是默认行为，因此最好不进行设置。

看看robots.txt文件

热门推荐

随机推荐