A. 如何拒绝搜索引擎收录自己的网站

例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
实例分析:淘宝网的 Robots.txt文件
User-agent: spider
Disallow: /
很显然淘宝不允许网络的机器人访问其网站下其所有的目录。
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow:
例3. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: Baispider
allow:/
例5.一个简单例子
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
User-agent:后的*具有特殊的含义,代表“anyrobot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。

B. 禁止搜索引擎识别问答类网页上文字但允许收录该网页的链接的代码如何写1

robots.text
-----------------------
User-agent: *
Allow: /

User-agent: Googlebot
Allow: /

User-agent: spider
Disallow: /

前面2行指接受所有蜘蛛抓取,中间两行指接受google抓取,最后两行指拒绝网络抓取。User-agent: 指漫游器的名称。Allow指允许 ,Disallow指拒绝,/指根目录

C. 给网站添加什么代码,网站发布的内容就不会被百度收录了

在根目录下写一个robots.txt文件。
搜索引擎使用spider程序自动访问互联网上的网页回并获取网页信息。spider在访问一个网站时答,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

因内容较长发不下,具体请参考文章:《如何撰写Robots文件来禁止搜索引擎收录》

D. 怎么取消百度收录

取消网络收录,你的意思是不想被网络收录网站么,直接robots编写拒绝全站收录,如同淘宝一样。将robots文件放到根目录网络就不会收录和抓取网页了。

User-agent: *

Disallow:/

robots用法使用说明

E. 如何让网站不让百度收录

写一个robots.txt文件放到你的网站的根目录,记住一定要根目录才有效。可以参考淘宝的。http://www.taobao.com/robots.txt