公告:80热点导航网(www.80rd.com)专业网址导航平台,欢迎优秀网站入驻(违法站勿扰),快审仅需20元/站,永久收录!合作QQ:160-204-68

快速审核,网站广告合作请联系我们
  • 网站:32029
  • 待审:29996
  • 文章:2256
  • 会员:2681
资料一
 
1.robots.txt文件是什么
 
robots.txt是一个纯文本文件,是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。每个站点最好建立一个robots.txt文件,对seo更友好。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt(即使这个robots.txt文件只是一个空文件)。
 
2.robots.txt的写法(语法)
 
1)User-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*,则该协议对任何机器人均有效。
 
2)Disallow: 该项的值用于描述不希望被访问到的一个URL,一个目录或者整个网站。以Disallow 开头的URL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问。
 
3)用法举例:
 
网站目录下所有文件均能被所有搜索引擎蜘蛛访问
 
User-agent: *
 
Disallow:
 
禁止所有搜索引擎蜘蛛访问网站的任何部分
 
User-agent: *
 
Disallow: /
 
禁止所有的搜索引擎蜘蛛访问网站的几个目录
 
User-agent: *
 
Disallow: /a/
 
Disallow: /b/
 
禁止搜索引擎蜘蛛访问目录a和目录b
 
只允许某个搜索引擎蜘蛛访问
 
User-agent: Googlebot
 
Disallow:
 
您应该限制网站某些文件不被蜘蛛抓取。
 
一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
 
3.robots.txt文件带来的风险以及解决
 
robots.txt 同时也带来了一定的风险:其也给攻击者指明了网站的目录结构和私密数据所在的位置。设置访问权限,对您的隐私内容实施密码保护,这样,攻击者便无从进入。
 
4.常见搜索引擎蜘蛛Robots名字
 
Baiduspider :http://www.baidu.com
 
Scooter :http://www.altavista.com
 
ia_archiver: http://www.alexa.com
 
Googlebot :http://www.google.com
 
Inktomi Slurp :http://www.yahoo.com
 
FAST-WebCrawler: http://www.alltheweb.com
 
Slurp :http://www.inktomi.com
 
MSNBOT :http://search.msn.com
 
5.注意事项:
 
1)robots.txt必须放置在站点的根目录下,而且文件名必须全部小写。
 
2)不要在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取。
 
3)为安全考虑,建议很重要的文件夹不要写在robots.txt文件中,或你只建一个空白robots.txt文件,在不要访问的目录中加入其它的技术(目前还在探索中……)。
 
seo会聚网robot.txt文件实例:www.seohj.com/robots.txt。
 
我们也可以通过Robots META标签来针对一个个具体的页面。关于Robots META标签的详细介绍在Robots META标签用法。
 
1.语法:
 
<meta name="robots"content="搜索方式">
 
2.说明:
 
在该语法中,搜索方式的值和其对应的含义如下:
 
all:页面将被检索,且页面上的链接可以被查询;
 
none:页面不能被检索,且页面上的链接不可以被查询;
 
index:页面将被检索,但不设置链接是否可以被查询;
 
follow:页面上的链接可以被查询;
 
noindex:页面不能被检索,但页面上的链接可以被查询;
 
nofollow:页面能被检索,但页面上的链接却不可以被查询。
 
3.实例:
 
该实例设定网页能被检索,但页面上的链接却不可以被查询,代码如下:
 
<html>
 
<head>
 
<title>限制搜索方式</title>
 
<meta name="robots"content="index">
 
</head>
 
<body></body>
 
关键词: 此网站的robots限制 robots.txt robots是什么意思 robots限制
精彩推荐

带你玩转robots协议 robots协议怎么写 新手必备

时间:2017-05-21

2013年2月8日北京市第一中级人民法院正式受理了百度诉奇虎360违反Robots协议抓...

百度快速排名的七大谎言

时间:2016-08-11

关于快速排名网上有很多相关资料,但是如果你按照网上的那些说法去操作的话你会发现貌似都没有效果!是的,要承认一点:能研发出快速排名的人不会把核心技术公布出来。网上...

教你如何快速提升营销活动专题的SEO效果

时间:2016-06-26

欧洲杯期间,你的网站有没有制作新的专题,专题有没有借助搜索引擎渠道获得流量?怎么?你正在此为事发愁?没关系,院长请来ITSEO创始人、江湖人称夜大大的夜息,用图文并...

快审网站推荐
随机网站推荐

常州信威燃2020.03.11

常州市信威燃气设备有限公司,是气化器,燃...

红袋鼠亲子2020.10.09

红袋鼠网站采用原《幼儿画报》杂志社网站域名http://www.hongdai...

AMZ123亚马2022.01.05

AMZ123是一家专注于亚马逊卖家导航的网站,因其中立、专业而在众...