看看robots.txt文件
一个robots.txt文件是一个简单的,静态的文件,您可以以抓取特定网页或目录的内容停止搜索引擎添加到您的网站。您甚至可以阻止某些用户代理对站点的某些区域进行爬网。
让我们以一个真实的示例为例,看看如果您决定设置Feedburner供稿来代替常规的RSS供稿,该怎么办。除了要说您得到一些不错的使用情况统计信息,而且因为仅在Feedburner更新时才查看提要,它可以节省服务器上的某些处理能力,因此我将不介绍您为什么要执行此操作。一旦您允许博客发布Feeburner供稿而不是常规供稿,则需要停止搜索引擎将旧供稿编入索引。停止出现在搜索索引中,您可以让用户获取Feedburner供稿,而不是本地供稿。然后,您将放置一个robots.txt包含以下内容的文件。
User-agent: * Disallow: /feed
在另一种情况下,您可能希望阻止某个机器人抓取您网站的内容。在以下示例中,我们将停止一个名为ia_archiver的用户代理,该代理用于在archive.org上创建您的站点的副本。您可能有几个原因想阻止这种情况的发生,但这是您需要的规则。
User-agent: ia_archiver Disallow: /
那么就SEO而言是否有益甚至有用?好吧,robots.txt文件的一种用法可以带来有益的结果,尽管其益处取决于站点的大小。让我解释。
Google,Yahoo,MSN和其他搜索引擎都采用了这种sitemap.xml格式。除了这种格式外,还可以sitemap.xml从robots.txt文件向文件添加链接。您可以在robots.txt文件中添加以下内容。
Sitemap:http://www.example.com/sitemap.xml
这行有点多余,因为上面的所有搜索引擎都会自动sitemap.xml在您的域的根目录下查找一个名为的文件。如果sitemap.xml文件是由CMS创建的,并且具有非标准名称,则通常会使用此选项。如果是这种情况,那么重写规则可能会更好,但是仍然可以使用您的robots.txt文件。
Sitemap:http://www.example.com/cms/feeds/sitemap/format/xml/
当您拥有大型站点并需要将站点映射文件分散在不同文件中时,此选项的功能显而易见。您可以链接到站点映射索引文件(该文件包含对其他sitemap.xml文件的引用,可能不会称为sitemap.xml),也可以仅链接sitemap.xml一个robots.txt文件中的多个文件。这是一个robots.txt引用两个站点映射文件的文件,每个文件都包含一半的站点。
Sitemap: http://www.example.com/sitemapa-m.xml Sitemap: http://www.example.com/sitemapn-z.xml
我快速浏览了SEO行业中许多人运营的网站,发现许多网站robots.txt只是出于禁止某些文件或目录的目的而使用该文件。一些人使用该文件来指向他们的sitemap.xml文件,该文件通常被称为其他文件。更有趣的是,许多站点根本没有一个名为robots.txt的文件,这使我认为它们并不是那么有用。
我个人认为,仅robots.txt当您有任何要防止被抓取的内容或要向XML网站映射添加链接的情况下,我才会使用文件。设置一个如下所示的robots.txt文件:
User-agent: * Disallow: Sitemap: http://www.example.com/sitemap.xml
允许所有用户代理对您网站上的所有页面进行爬网,但是由于这是默认行为,因此最好不进行设置。