blog

有趣的robots.txt

<p>技术搜索引擎优化中最无聊的话题之一是robots.txt</p><p>很少有一个有趣的问题需要在文件中解决,并且大多数错误来自不理解指令或来自拼写错误</p><p> robots.txt文件的一般用途只是向抓取工具建议他们能够和不能去的地方</p><p> User-Agent:Googlebot允许:.js允许:.css许多公司使用robots.txt文件做过创意</p><p>看看下面的例子! Nike.com在他们的robots.txt里面对他们的口号很好,“只是抓它”,但他们也包括他们的标志</p><p>先知也使用艺术并有招聘信息</p><p> TripAdvisor在robots.txt文件中有一条招聘消息</p><p> Yelp喜欢提醒机器人阿西莫夫的三部法则生效</p><p>和last.fm一样</p><p>根据YouTube,我们已经失去了对机器人的战争</p><p> Page One Power在他们的robots.txt中有一个很好的“星球大战”参考</p><p> Google希望确保Larry Page和Sergey Brin在他们的killer-robots.txt文件中免受Terminators的攻击</p><p>谁可以忽略互联网的头版</p><p> Reddit引用了来自“Futurama”的Bender和来自“The Earth The Earth Stood Still”的Gort.Humans.txt将自己描述为“了解网站背后的人的一项举措</p><p>这是一个TXT文件,其中包含有关为构建网站做出贡献的不同人员的信息</p><p>“当我尝试使用几个域时,我很惊讶地发现这种情况比我想象的要多</p><p>请访问https://www.google.com/humans.txt</p><p>我最喜欢的一个例子是来自Oliver Mason,他不允许所有事情并向他的博客告别,然后再将每个单独的文件再次放在文件中</p><p>正如他在底部评论,他知道这是一个坏主意</p><p> (不要只是在这里阅读robots.txt,请认真阅读这个家伙的整个网站</p><p>)在我的个人网站上,我有一个robots.txt文件也可以搞砸人</p><p>该文件验证正常,即使乍一看它看起来像我阻止所有爬虫</p><p>原因是我在开头使用BOM(字节顺序标记)字符保存了文件,这使我的第一行无效 - 正如您在Google Search Console中进行验证时所看到的那样</p><p>如果第一行无效,则Disallow没有User-Agent引用,因此它也无效</p><p>如果您搜索“世界上最伟大的SEO”,您将在Matt Cutts的网站上找到一个实际上并不存在的页面</p><p> SEO Mofo选择了一个被https://www.mattcutts.com/robots.txt阻止的目录(/ files)</p><p> Google对此页面的唯一信息来自为不存在的页面构建的链接</p><p>在页面404s中,Google仍会在搜索结果中显示链接中的锚文本</p><p>由亚历克·伯特伦(Alec Bertram)深思熟虑,除了他的robots.txt文件之外,这个惊人的壮举记录在了其他地方</p><p>他有如何,来源,甚至菜单来指导你</p><p>这也用于vinna.cc,将整个游戏嵌入到文件中</p><p>前往https://vinna.cc/robots.txt并玩机器人机器人革命!本文中表达的观点是客座作者的观点,

查看所有