查看其它闆塊

robots.txt協議如何使用及寫作語法

來(lái)源：https://www.bb620.com| 2022-06-25 01:51:45

如何使用robots.txt及其詳解?在(zài)國(guó)内，網站管理者似乎對robots.txt并沒有引起多大(dà)重視，應一(yī / yì ／yí)些朋友之(zhī)請求，今天想通過這(zhè)篇文章來(lái)簡單談一(yī / yì ／yí)下robots.txt的(de)寫作。

?robots.txt基本介紹?robots.txt是(shì)一(yī / yì ／yí)個(gè)純文本文件，在(zài)這(zhè)個(gè)文件中網站管理者可以(yǐ)聲明該網站中不(bù)想被robots訪問的(de)部分，或者指定搜索引擎隻收錄指定的(de)内容。

?當一(yī / yì ／yí)個(gè)搜索機器人(rén)（有的(de)叫搜索蜘蛛）訪問一(yī / yì ／yí)個(gè)站點時(shí)，它會首先檢查該站點根目錄下是(shì)否存在(zài)robots.txt，如果存在(zài)，搜索機器人(rén)就(jiù)會按照該文件中的(de)内容來(lái)确定訪問的(de)範圍；如果該文件不(bù)存在(zài)，那麽搜索機器人(rén)就(jiù)沿着鏈接抓取。?另外，robots.txt必須放置在(zài)一(yī / yì ／yí)個(gè)站點的(de)根目錄下，而(ér)且文件名必須全部小寫。?robots.txt寫作語法?首先，我們來(lái)看一(yī / yì ／yí)個(gè)robots.txt範例：http://www.seovip.cn/robots.txt?訪問以(yǐ)上(shàng)具體地(dì / de)址，我們可以(yǐ)看到(dào)robots.txt的(de)具體内容如下：?# Robots.txt file from http://www.seovip.cn# All robots will spider the domain?User-agent: *Disallow:?以(yǐ)上(shàng)文本表達的(de)意思是(shì)允許所有的(de)搜索機器人(rén)訪問www.seovip.cn站點下的(de)所有文件。?具體語法分析：其中#後面文字爲(wéi / wèi)說(shuō)明信息；User-agent:後面爲(wéi / wèi)搜索機器人(rén)的(de)名稱，後面如果是(shì)*，則泛指所有的(de)搜索機器人(rén)；Disallow:後面爲(wéi / wèi)不(bù)允許訪問的(de)文件目錄。?下面，我将列舉一(yī / yì ／yí)些robots.txt的(de)具體用法：?允許所有的(de)robot訪問?User-agent: *Disallow:?或者也(yě)可以(yǐ)建一(yī / yì ／yí)個(gè)空文件 "/robots.txt" file?禁止所有搜索引擎訪問網站的(de)任何部分?User-agent: *Disallow: /?禁止所有搜索引擎訪問網站的(de)幾個(gè)部分（下例中的(de)01、02、03目錄）?User-agent: *Disallow: /01/Disallow: /02/Disallow: /03/?禁止某個(gè)搜索引擎的(de)訪問（下例中的(de)BadBot）?User-agent: BadBotDisallow: /?隻允許某個(gè)搜索引擎的(de)訪問（下例中的(de)Crawler）?User-agent: CrawlerDisallow:?User-agent: *Disallow: /?另外，我覺得有必要(yào / yāo)進行拓展說(shuō)明，對robots meta進行一(yī / yì ／yí)些介紹：?Robots META标簽則主要(yào / yāo)是(shì)針對一(yī / yì ／yí)個(gè)個(gè)具體的(de)頁面。和(hé / huò)其他(tā)的(de)META标簽（如使用的(de)語言、頁面的(de)描述、關鍵詞等）一(yī / yì ／yí)樣，Robots META标簽也(yě)是(shì)放在(zài)頁面的(de)＜head＞＜/head＞中，專門用來(lái)告訴搜索引擎ROBOTS如何抓取該頁的(de)内容。?Robots META标簽的(de)寫法：?Robots META标簽中沒有大(dà)小寫之(zhī)分，name=”Robots”表示所有的(de)搜索引擎，可以(yǐ)針對某個(gè)具體搜索引擎寫爲(wéi / wèi)name=”BaiduSpider”。 content部分有四個(gè)指令選項：index、noindex、follow、nofollow，指令間以(yǐ)“,”分隔。?INDEX 指令告訴搜索機器人(rén)抓取該頁面；?FOLLOW 指令表示搜索機器人(rén)可以(yǐ)沿着該頁面上(shàng)的(de)鏈接繼續抓取下去；?Robots Meta标簽的(de)缺省值是(shì)INDEX和(hé / huò)FOLLOW，隻有inktomi除外，對于(yú)它，缺省值是(shì)INDEX,NOFOLLOW。?這(zhè)樣，一(yī / yì ／yí)共有四種組合：?＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞?其中?＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以(yǐ)寫成＜META NAME="ROBOTS" CONTENT="ALL"＞；?＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以(yǐ)寫成＜META NAME="ROBOTS" CONTENT="NONE"＞?目前看來(lái)，絕大(dà)多數的(de)搜索引擎機器人(rén)都遵守robots.txt的(de)規則，而(ér)對于(yú)Robots META标簽，目前支持的(de)并不(bù)多，但是(shì)正在(zài)逐漸增加，如著名搜索引擎GOOGLE就(jiù)完全支持，而(ér)且GOOGLE還增加了(le／liǎo)一(yī / yì ／yí)個(gè)指令“archive”，可以(yǐ)限制GOOGLE是(shì)否保留網頁快照。例如：?＜META NAME="googlebot" CONTENT="index,follow,noarchive"＞?表示抓取該站點中頁面并沿着頁面中鏈接抓取，但是(shì)不(bù)在(zài)GOOLGE上(shàng)保留該頁面的(de)網頁快照。?如何使用robots.txt?robots.txt 文件對抓取網絡的(de)搜索引擎漫遊器（稱爲(wéi / wèi)漫遊器）進行限制。這(zhè)些漫遊器是(shì)自動的(de)，在(zài)它們訪問網頁前會查看是(shì)否存在(zài)限制其訪問特定網頁的(de) robots.txt 文件。如果你想保護網站上(shàng)的(de)某些内容不(bù)被搜索引擎收入的(de)話，robots.txt是(shì)一(yī / yì ／yí)個(gè)簡單有效的(de)工具。這(zhè)裏簡單介紹一(yī / yì ／yí)下怎麽使用它。?如何放置Robots.txt文件?robots.txt自身是(shì)一(yī / yì ／yí)個(gè)文本文件。它必須位于(yú)域名的(de)根目錄中并被命名爲(wéi / wèi)"robots.txt"。位于(yú)子(zǐ)目錄中的(de) robots.txt 文件無效，因爲(wéi / wèi)漫遊器隻在(zài)域名的(de)根目錄中查找此文件。例如，http://www.example.com/robots.txt 是(shì)有效位置，http://www.example.com/mysite/robots.txt 則不(bù)是(shì)。?這(zhè)裏舉一(yī / yì ／yí)個(gè)robots.txt的(de)例子(zǐ):?User-agent: *?Disallow: /cgi-bin/?Disallow: /tmp/?Disallow: /~name/使用 robots.txt 文件攔截或删除整個(gè)網站??要(yào / yāo)從搜索引擎中删除您的(de)網站，并防止所有漫遊器在(zài)以(yǐ)後抓取您的(de)網站，請将以(yǐ)下 robots.txt 文件放入您服務器的(de)根目錄：?User-agent: *?Disallow: /?要(yào / yāo)隻從 Google 中删除您的(de)網站，并隻是(shì)防止 Googlebot 将來(lái)抓取您的(de)網站，請将以(yǐ)下 robots.txt 文件放入您服務器的(de)根目錄：User-agent: Googlebot?Disallow: /?每個(gè)端口都應有自己的(de) robots.txt 文件。尤其是(shì)您通過 http 和(hé / huò) https 托管内容的(de)時(shí)候，這(zhè)些協議都需要(yào / yāo)有各自的(de) robots.txt 文件。例如，要(yào / yāo)讓 Googlebot 隻爲(wéi / wèi)所有的(de) http 網頁而(ér)不(bù)爲(wéi / wèi) https 網頁編制索引，應使用下面的(de) robots.txt 文件。對于(yú) http 協議 (http://yourserver.com/robots.txt):?User-agent: *?Allow: /?對于(yú) https 協議 (https://yourserver.com/robots.txt):?User-agent: *?Disallow: /?允許所有的(de)漫遊器訪問您的(de)網頁User-agent: *?Disallow:?(另一(yī / yì ／yí)種方法: 建立一(yī / yì ／yí)個(gè)空的(de) "/robots.txt" 文件, 或者不(bù)使用robot.txt。)?使用 robots.txt 文件攔截或删除網頁?您可以(yǐ)使用 robots.txt 文件來(lái)阻止 Googlebot 抓取您網站上(shàng)的(de)網頁。例如，如果您正在(zài)手動創建 robots.txt 文件以(yǐ)阻止 Googlebot 抓取某一(yī / yì ／yí)特定目錄下（例如，private）的(de)所有網頁，可使用以(yǐ)下 robots.txt 條目：??User-agent: Googlebot?Disallow: /private要(yào / yāo)阻止 Googlebot 抓取特定文件類型（例如，.gif）的(de)所有文件，可使用以(yǐ)下 robots.txt 條目：User-agent: Googlebot?Disallow: /*.gif$要(yào / yāo)阻止 Googlebot 抓取所有包含 ? 的(de)網址（具體地(dì / de)說(shuō)，這(zhè)種網址以(yǐ)您的(de)域名開頭，後接任意字符串，然後是(shì)問号，而(ér)後又是(shì)任意字符串），可使用以(yǐ)下條目：User-agent: Googlebot?Disallow: /*??盡管我們不(bù)抓取被 robots.txt 攔截的(de)網頁内容或爲(wéi / wèi)其編制索引，但如果我們在(zài)網絡上(shàng)的(de)其他(tā)網頁中發現這(zhè)些内容，我們仍然會抓取其網址并編制索引。因此，網頁網址及其他(tā)公開的(de)信息，例如指向該網站的(de)鏈接中的(de)定位文字，有可能會出(chū)現在(zài) Google 搜索結果中。不(bù)過，您網頁上(shàng)的(de)内容不(bù)會被抓取、編制索引和(hé / huò)顯示。?作爲(wéi / wèi)網站管理員工具的(de)一(yī / yì ／yí)部分，Google提供了(le／liǎo)robots.txt分析工具。它可以(yǐ)按照 Googlebot 讀取 robots.txt 文件的(de)相同方式讀取該文件，并且可爲(wéi / wèi) Google user-agents（如 Googlebot）提供結果。我們強烈建議您使用它。在(zài)創建一(yī / yì ／yí)個(gè)robots.txt文件之(zhī)前，有必要(yào / yāo)考慮一(yī / yì ／yí)下哪些内容可以(yǐ)被用戶搜得到(dào)，而(ér)哪些則不(bù)應該被搜得到(dào)。這(zhè)樣的(de)話，通過合理地(dì / de)使用robots.txt, 搜索引擎在(zài)把用戶帶到(dào)您網站的(de)同時(shí)，又能保證隐私信息不(bù)被收錄。??? ? ? ?誤區一(yī / yì ／yí)：我的(de)網站上(shàng)的(de)所有文件都需要(yào / yāo)蜘蛛抓取，那我就(jiù)沒必要(yào / yāo)在(zài)添加robots.txt文件了(le／liǎo)。反正如果該文件不(bù)存在(zài)，所有的(de)搜索蜘蛛将默認能夠訪問網站上(shàng)所有沒有被口令保護的(de)頁面。?　　每當用戶試圖訪問某個(gè)不(bù)存在(zài)的(de)URL時(shí)，服務器都會在(zài)日志中記錄404錯誤（無法找到(dào)文件）。每當搜索蜘蛛來(lái)尋找并不(bù)存在(zài)的(de)robots.txt文件時(shí)，服務器也(yě)将在(zài)日志中記錄一(yī / yì ／yí)條404錯誤，所以(yǐ)你應該做網站中添加一(yī / yì ／yí)個(gè)robots.txt。　　誤區二：在(zài)robots.txt文件中設置所有的(de)文件都可以(yǐ)被搜索蜘蛛抓取，這(zhè)樣可以(yǐ)增加網站的(de)收錄率。　　網站中的(de)程序腳本、樣式表等文件即使被蜘蛛收錄，也(yě)不(bù)會增加網站的(de)收錄率，還隻會浪費服務器資源。因此必須在(zài)robots.txt文件裏設置不(bù)要(yào / yāo)讓搜索蜘蛛索引這(zhè)些文件。　　具體哪些文件需要(yào / yāo)排除，在(zài)robots.txt使用技巧一(yī / yì ／yí)文中有詳細介紹。　　誤區三：搜索蜘蛛抓取網頁太浪費服務器資源，在(zài)robots.txt文件設置所有的(de)搜索蜘蛛都不(bù)能抓取全部的(de)網頁。　　如果這(zhè)樣的(de)話，會導緻整個(gè)網站不(bù)能被搜索引擎收錄。robots.txt使用技巧? ?1. 每當用戶試圖訪問某個(gè)不(bù)存在(zài)的(de)URL時(shí)，服務器都會在(zài)日志中記錄404錯誤（無法找到(dào)文件）。每當搜索蜘蛛來(lái)尋找并不(bù)存在(zài)的(de)robots.txt文件時(shí)，服務器也(yě)将在(zài)日志中記錄一(yī / yì ／yí)條404錯誤，所以(yǐ)你應該在(zài)網站中添加一(yī / yì ／yí)個(gè)robots.txt。?　　2. 網站管理員必須使蜘蛛程序遠離某些服務器上(shàng)的(de)目錄——保證服務器性能。比如：大(dà)多數網站服務器都有程序儲存在(zài)“cgi-bin”目錄下，因此在(zài)robots.txt文件中加入“Disallow: /cgi-bin”是(shì)個(gè)好主意，這(zhè)樣能夠避免将所有程序文件被蜘蛛索引，可以(yǐ)節省服務器資源。一(yī / yì ／yí)般網站中不(bù)需要(yào / yāo)蜘蛛抓取的(de)文件有：後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模闆文件、導航圖片和(hé / huò)背景圖片等等。　　下面是(shì)VeryCMS裏的(de)robots.txt文件：　　User-agent: *　　Disallow: /admin/ 後台管理文件　　Disallow: /require/ 程序文件　　Disallow: /attachment/ 附件　　Disallow: /images/ 圖片　　Disallow: /data/ 數據庫文件　　Disallow: /template/ 模闆文件　　Disallow: /css/ 樣式表文件　　Disallow: /lang/ 編碼文件　　Disallow: /script/ 腳本文件　　3. 如果你的(de)網站是(shì)動态網頁，并且你爲(wéi / wèi)這(zhè)些動态網頁創建了(le／liǎo)靜态副本，以(yǐ)供搜索蜘蛛更容易抓取。那麽你需要(yào / yāo)在(zài)robots.txt文件裏設置避免動态網頁被蜘蛛索引，以(yǐ)保證這(zhè)些網頁不(bù)會被視爲(wéi / wèi)含重複内容。　　4. robots.txt文件裏還可以(yǐ)直接包括在(zài)sitemap文件的(de)鏈接。就(jiù)像這(zhè)樣：　　Sitemap: sitemap.xml　　目前對此表示支持的(de)搜索引擎公司有Google, Yahoo, Ask and MSN。而(ér)中文搜索引擎公司，顯然不(bù)在(zài)這(zhè)個(gè)圈子(zǐ)内。這(zhè)樣做的(de)好處就(jiù)是(shì)，站長不(bù)用到(dào)每個(gè)搜索引擎的(de)站長工具或者相似的(de)站長部分，去提交自己的(de)sitemap文件，搜索引擎的(de)蜘蛛自己就(jiù)會抓取robots.txt文件，讀取其中的(de)sitemap路徑，接着抓取其中相鏈接的(de)網頁。　　5. 合理使用robots.txt文件還能避免訪問時(shí)出(chū)錯。比如，不(bù)能讓搜索者直接進入購物車頁面。因爲(wéi / wèi)沒有理由使購物車被收錄，所以(yǐ)你可以(yǐ)在(zài)robots.txt文件裏設置來(lái)阻止搜索者直接進入購物車頁面。

robots.txt協議如何使用及寫作語法由東莞網站設計編輯 /wuh/news/9315.html如需轉載請注明出(chū)處

東莞網站設計東莞小程序商城開發東莞網站制作東莞做網站公司東莞網站建設東莞微信小程序開發東莞小程序開發東莞網站優化汕頭網站建設清遠網站建設英文網站建設商城網站建設門戶網站建設中山網站建設韶關網站建設江門網站建設專業網站建設佛山網站建設關鍵詞優化網站托管 SEO外包

返回首頁了(le／liǎo)解更多新聞資訊

南沙網站建設

網站建設

微信小程序

營銷推廣

案例

資訊

關于(yú)

探知 • 創造美好

查看其它闆塊

robots.txt協議如何使用及寫作語法

TAG标簽

多一(yī / yì ／yí)份參考，總有益處

我們能做什麽

我們的(de)優勢

聯系我們

周邊城市展開

南沙網站建設

網站建設

微信小程序

營銷推廣

案例

資訊

關于(yú)

關于(yú)

XiangYang

探知 • 創造美好

查看其它闆塊

robots.txt協議如何使用及寫作語法

TAG标簽

多一(yī / yì ／yí)份參考，總有益處

我們能做什麽

我們的(de)優勢

聯系我們

周邊城市展開