robots.txt是搜索引擎中的一個協(xié)議,當(dāng)你的網(wǎng)站有一些內(nèi)容不想給蜘蛛爬取,那可以利用robots.txt來告訴蜘蛛不要去爬取這些頁面,不爬取這些頁面當(dāng)然就不收錄了。
robots.txt是搜索引擎中訪問網(wǎng)站的時候要查看的第一個文件。當(dāng)一個搜索蜘蛛訪問一個站點(diǎn)時,它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
robots.txt規(guī)則怎么寫
新建一個txt文本,命名為robots.txt,比如說你不想給蜘蛛去爬你網(wǎng)站后臺這個文件夾,那就就這樣寫,該文件放在網(wǎng)站根目錄
User-agent: *
Disallow: /admin/
解釋:
User-agent: * 這個是代表所有搜索引擎
Disallow: /admin/ 禁止爬取admin這個文件夾
Disallow: / 代表根目錄所有
Allow: / 代表允許 例子:比如說你禁止webdesgn文件夾 但是你又想讓他收錄webdesign下的wangzhanjianshe 寫法Allow: /webdesign/wangzhanjianshe/*.html 收錄webdesign下的wangzhanjianshe下的所有html
如果你只想對百度有效,那就這樣寫。User-agent: Baiduspider 這樣只對百度有效,其它搜索引擎不受限制。
搜索引擎蜘蛛的名字:Baiduspider 百度蜘蛛、Googlebot 谷歌蜘蛛、Bingbot 必應(yīng)蜘蛛、360Spider 360蜘蛛、Sogouspider 搜狗蜘蛛