使用标签来阻挡搜索蜘蛛检索网页

你可以使用特定的标签去告知搜索引擎机器人,不要去检索特定的网页内容。

如果你想要知道,如何去阻挡网页蜘蛛检索你全部的网站,可以阅读这篇文章(如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?)

你也可以使用相同的标签,来命令搜索机器人不要去扫描网页以及追踪网页链接。

这是一个很好用的标签,即使你只想尝试去限制整个网站的一个网页。

在HTML程式码中,’no follow, no index’是基本的:

若要复制使用请将<>改为半形。

<html>

<head>

<title>…</title>

<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>

</head>

</html>

当使用标签时,有三个重点部分是需要牢记的。

1.如果他们愿意,网络机器人可以忽略标签,会忽略标签大多是不良的网络机器人,他们会扫描网络安全漏洞并利用它,或者是使用电子邮件收割机,让滥发邮件者抓取E-mail。

2.NOFOLLOW 指令只是用于网页上的链接,如果搜索机器人找到其它网页的链接,并且没有使用NOFOLLOW,搜索机器人会直接到达这个网页。

3.在这裡的NOFOLLOW标签,是不同于rel=”nofollow”属性,你可以设定在<a href> 标签裡。

撰写给搜索机器人看的标签

像其它标签一样使用在HTML,他们应该被放置在HTML程式码的部分,就如同范例上。

<META NAME=”ROBOTS” CONTENT=”NOINDEX, FOLLOW”>

让我们依照上面的例子再接再厉。

1.NAME属性是使用”ROBOTS”。

2.CONTENT属性有四种不同的参数可以设定:

逗号分开参数是允许的,但是只有某些组合是有意义的,如果没有使用标签,对搜索机器人的预设而言,是使用INDEX,FOLLOW的,所以你不需要去指定,还是可以被抓取到。

<META NAME=”ROBOTS” CONTENT=”NOINDEX, FOLLOW”>

<META NAME=”ROBOTS” CONTENT=”INDEX, NOFOLLOW”>

<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>

如果你需要进一步的了解,如何阻挡搜索机器人检索你的网站,你可以观看这篇文章(如何使用robots.txt阻止搜索引擎爬(抓取)你的网站?)

发表回复

后才能评论