大家做网站难免有些时候不想让某些搜索引擎抓取某些页面,当然可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: * Disallow: /
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)
User-agent: * Allow: /
例3. 禁止某个搜索引擎的访问
User-agent: BadBot Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: Baiduspider Allow:/
User-agent: * Disallow: /wp-*/ Disallow: /*?connect=* Disallow: /date/* Disallow: /kod/* Disallow: /api/* Disallow: /*/trackback Disallow: /*.js$ Disallow: /*.css$ Disallow:/*?replytocom* Disallow: /comments/ Disallow: /*/comments/ Disallow: /feed/* Disallow: /*/*/feed/* Disallow: /*/*/*/feed/* Disallow:/articles/* Disallow:/shuoshuo/* Sitemap: https://www.zhujizhen.com/sitemap.xml
免责声明:本站发布的内容(图片、视频和文字)以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容,联系我们QQ:712375056,同时欢迎投稿传递力量。
Copyright © 2009-2022 56dr.com. All Rights Reserved. 特网科技 特网云 版权所有 特网科技 粤ICP备16109289号
域名注册服务机构:阿里云计算有限公司(万网) 域名服务机构:烟台帝思普网络科技有限公司(DNSPod) CDN服务:阿里云计算有限公司 百度云 中国互联网举报中心 增值电信业务经营许可证B2
建议您使用Chrome、Firefox、Edge、IE10及以上版本和360等主流浏览器浏览本网站