南沙新聞資訊

探知 • 創造美好

不(bù)斷超越客戶的(de)期望值,源自我們對這(zhè)個(gè)行業的(de)熱愛

robots.txt協議如何使用及寫作語法

來(lái)源:https://www.bb620.com| 2022-06-25 01:51:45

如何使用robots.txt及其詳解?在(zài)國(guó)内,網站管理者似乎對robots.txt并沒有引起多大(dà)重視,應一(yī / yì /yí)些朋友之(zhī)請求,今天想通過這(zhè)篇文章來(lái)簡單談一(yī / yì /yí)下robots.txt的(de)寫作。

東莞網站建設公司
?robots.txt基本介紹?robots.txt是(shì)一(yī / yì /yí)個(gè)純文本文件,在(zài)這(zhè)個(gè)文件中網站管理者可以(yǐ)聲明該網站中不(bù)想被robots訪問的(de)部分,或者指定搜索引擎隻收錄指定的(de)内容。
東莞網站設計
?當一(yī / yì /yí)個(gè)搜索機器人(rén)(有的(de)叫搜索蜘蛛)訪問一(yī / yì /yí)個(gè)站點時(shí),它會首先檢查該站點根目錄下是(shì)否存在(zài)robots.txt,如果存在(zài),搜索機器人(rén)就(jiù)會按照該文件中的(de)内容來(lái)确定訪問的(de)範圍;如果該文件不(bù)存在(zài),那麽搜索機器人(rén)就(jiù)沿着鏈接抓取。?另外,robots.txt必須放置在(zài)一(yī / yì /yí)個(gè)站點的(de)根目錄下,而(ér)且文件名必須全部小寫。?robots.txt寫作語法?首先,我們來(lái)看一(yī / yì /yí)個(gè)robots.txt範例:http://www.seovip.cn/robots.txt?訪問以(yǐ)上(shàng)具體地(dì / de)址,我們可以(yǐ)看到(dào)robots.txt的(de)具體内容如下:?# Robots.txt file from http://www.seovip.cn# All robots will spider the domain?User-agent: *Disallow:?以(yǐ)上(shàng)文本表達的(de)意思是(shì)允許所有的(de)搜索機器人(rén)訪問www.seovip.cn站點下的(de)所有文件。?具體語法分析:其中#後面文字爲(wéi / wèi)說(shuō)明信息;User-agent:後面爲(wéi / wèi)搜索機器人(rén)的(de)名稱,後面如果是(shì)*,則泛指所有的(de)搜索機器人(rén);Disallow:後面爲(wéi / wèi)不(bù)允許訪問的(de)文件目錄。?下面,我将列舉一(yī / yì /yí)些robots.txt的(de)具體用法:?允許所有的(de)robot訪問?User-agent: *Disallow:?或者也(yě)可以(yǐ)建一(yī / yì /yí)個(gè)空文件 "/robots.txt" file?禁止所有搜索引擎訪問網站的(de)任何部分?User-agent: *Disallow: /?禁止所有搜索引擎訪問網站的(de)幾個(gè)部分(下例中的(de)01、02、03目錄)?User-agent: *Disallow: /01/Disallow: /02/Disallow: /03/?禁止某個(gè)搜索引擎的(de)訪問(下例中的(de)BadBot)?User-agent: BadBotDisallow: /?隻允許某個(gè)搜索引擎的(de)訪問(下例中的(de)Crawler)?User-agent: CrawlerDisallow:?User-agent: *Disallow: /?另外,我覺得有必要(yào / yāo)進行拓展說(shuō)明,對robots meta進行一(yī / yì /yí)些介紹:?Robots META标簽則主要(yào / yāo)是(shì)針對一(yī / yì /yí)個(gè)個(gè)具體的(de)頁面。和(hé / huò)其他(tā)的(de)META标簽(如使用的(de)語言、頁面的(de)描述、關鍵詞等)一(yī / yì /yí)樣,Robots META标簽也(yě)是(shì)放在(zài)頁面的(de)<head></head>中,專門用來(lái)告訴搜索引擎ROBOTS如何抓取該頁的(de)内容。?Robots META标簽的(de)寫法:?Robots META标簽中沒有大(dà)小寫之(zhī)分,name=”Robots”表示所有的(de)搜索引擎,可以(yǐ)針對某個(gè)具體搜索引擎寫爲(wéi / wèi)name=”BaiduSpider”。 content部分有四個(gè)指令選項:index、noindex、follow、nofollow,指令間以(yǐ)“,”分隔。?INDEX 指令告訴搜索機器人(rén)抓取該頁面;?FOLLOW 指令表示搜索機器人(rén)可以(yǐ)沿着該頁面上(shàng)的(de)鏈接繼續抓取下去;?Robots Meta标簽的(de)缺省值是(shì)INDEX和(hé / huò)FOLLOW,隻有inktomi除外,對于(yú)它,缺省值是(shì)INDEX,NOFOLLOW。?這(zhè)樣,一(yī / yì /yí)共有四種組合:?<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"><META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"><META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"><META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">?其中?<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以(yǐ)寫成<META NAME="ROBOTS" CONTENT="ALL">;?<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以(yǐ)寫成<META NAME="ROBOTS" CONTENT="NONE">?目前看來(lái),絕大(dà)多數的(de)搜索引擎機器人(rén)都遵守robots.txt的(de)規則,而(ér)對于(yú)Robots META标簽,目前支持的(de)并不(bù)多,但是(shì)正在(zài)逐漸增加,如著名搜索引擎GOOGLE就(jiù)完全支持,而(ér)且GOOGLE還增加了(le/liǎo)一(yī / yì /yí)個(gè)指令“archive”,可以(yǐ)限制GOOGLE是(shì)否保留網頁快照。例如:?<META NAME="googlebot" CONTENT="index,follow,noarchive">?表示抓取該站點中頁面并沿着頁面中鏈接抓取,但是(shì)不(bù)在(zài)GOOLGE上(shàng)保留該頁面的(de)網頁快照。?如何使用robots.txt?robots.txt 文件對抓取網絡的(de)搜索引擎漫遊器(稱爲(wéi / wèi)漫遊器)進行限制。這(zhè)些漫遊器是(shì)自動的(de),在(zài)它們訪問網頁前會查看是(shì)否存在(zài)限制其訪問特定網頁的(de) robots.txt 文件。如果你想保護網站上(shàng)的(de)某些内容不(bù)被搜索引擎收入的(de)話,robots.txt是(shì)一(yī / yì /yí)個(gè)簡單有效的(de)工具。這(zhè)裏簡單介紹一(yī / yì /yí)下怎麽使用它。?如何放置Robots.txt文件?robots.txt自身是(shì)一(yī / yì /yí)個(gè)文本文件。它必須位于(yú)域名的(de)根目錄中并 被命名爲(wéi / wèi)"robots.txt"。位于(yú)子(zǐ)目錄中的(de) robots.txt 文件無效,因爲(wéi / wèi)漫遊器隻在(zài)域名的(de)根目錄中查找此文件。例如,http://www.example.com/robots.txt 是(shì)有效位置,http://www.example.com/mysite/robots.txt 則不(bù)是(shì)。?這(zhè)裏舉一(yī / yì /yí)個(gè)robots.txt的(de)例子(zǐ):?User-agent: *?Disallow: /cgi-bin/?Disallow: /tmp/?Disallow: /~name/使用 robots.txt 文件攔截或删除整個(gè)網站??要(yào / yāo)從搜索引擎中删除您的(de)網站,并防止所有漫遊器在(zài)以(yǐ)後抓取您的(de)網站,請将以(yǐ)下 robots.txt 文件放入您服務器的(de)根目錄:?User-agent: *?Disallow: /?要(yào / yāo)隻從 Google 中删除您的(de)網站,并隻是(shì)防止 Googlebot 将來(lái)抓取您的(de)網站,請将以(yǐ)下 robots.txt 文件放入您服務器的(de)根目錄:User-agent: Googlebot?Disallow: /?每個(gè)端口都應有自己的(de) robots.txt 文件。尤其是(shì)您通過 http 和(hé / huò) https 托管内容的(de)時(shí)候,這(zhè)些協議都需要(yào / yāo)有各自的(de) robots.txt 文件。例如,要(yào / yāo)讓 Googlebot 隻爲(wéi / wèi)所有的(de) http 網頁而(ér)不(bù)爲(wéi / wèi) https 網頁編制索引,應使用下面的(de) robots.txt 文件。對于(yú) http 協議 (http://yourserver.com/robots.txt):?User-agent: *?Allow: /?對于(yú) https 協議 (https://yourserver.com/robots.txt):?User-agent: *?Disallow: /?允許所有的(de)漫遊器訪問您的(de)網頁User-agent: *?Disallow:?(另一(yī / yì /yí)種方法: 建立一(yī / yì /yí)個(gè)空的(de) "/robots.txt" 文件, 或者不(bù)使用robot.txt。)?使用 robots.txt 文件攔截或删除網頁?您可以(yǐ)使用 robots.txt 文件來(lái)阻止 Googlebot 抓取您網站上(shàng)的(de)網頁。 例如,如果您正在(zài)手動創建 robots.txt 文件以(yǐ)阻止 Googlebot 抓取某一(yī / yì /yí)特定目錄下(例如,private)的(de)所有網頁,可使用以(yǐ)下 robots.txt 條目:??User-agent: Googlebot?Disallow: /private要(yào / yāo)阻止 Googlebot 抓取特定文件類型(例如,.gif)的(de)所有文件,可使用以(yǐ)下 robots.txt 條目:User-agent: Googlebot?Disallow: /*.gif$要(yào / yāo)阻止 Googlebot 抓取所有包含 ? 的(de)網址(具體地(dì / de)說(shuō),這(zhè)種網址以(yǐ)您的(de)域名開頭,後接任意字符串,然後是(shì)問号,而(ér)後又是(shì)任意字符串),可使用以(yǐ)下條目:User-agent: Googlebot?Disallow: /*??盡管我們不(bù)抓取被 robots.txt 攔截的(de)網頁内容或爲(wéi / wèi)其編制索引,但如果我們在(zài)網絡上(shàng)的(de)其他(tā)網頁中發現這(zhè)些内容,我們仍然會抓取其網址并編制索引。因此,網頁網址及其他(tā)公開的(de)信息,例如指 向該網站的(de)鏈接中的(de)定位文字,有可能會出(chū)現在(zài) Google 搜索結果中。不(bù)過,您網頁上(shàng)的(de)内容不(bù)會被抓取、編制索引和(hé / huò)顯示。?作爲(wéi / wèi)網站管理員工具的(de)一(yī / yì /yí)部分,Google提供了(le/liǎo)robots.txt分析工具。它可以(yǐ)按照 Googlebot 讀取 robots.txt 文件的(de)相同方式讀取該文件,并且可爲(wéi / wèi) Google user-agents(如 Googlebot)提供結果。我們強烈建議您使用它。 在(zài)創建一(yī / yì /yí)個(gè)robots.txt文件之(zhī)前,有必要(yào / yāo)考慮一(yī / yì /yí)下哪些内容可以(yǐ)被用戶搜得到(dào),而(ér)哪些則不(bù)應該被搜得到(dào)。 這(zhè)樣的(de)話,通過合理地(dì / de)使用robots.txt, 搜索引擎在(zài)把用戶帶到(dào)您網站的(de)同時(shí),又能保證隐私信息不(bù)被收錄。??? ? ? ?誤區一(yī / yì /yí):我的(de)網站上(shàng)的(de)所有文件都需要(yào / yāo)蜘蛛抓取,那我就(jiù)沒必要(yào / yāo)在(zài)添加robots.txt文件了(le/liǎo)。反正如果該文件不(bù)存在(zài),所有的(de)搜索蜘蛛将默認能夠訪問網站上(shàng)所有沒有被口令保護的(de)頁面。?  每當用戶試圖訪問某個(gè)不(bù)存在(zài)的(de)URL時(shí),服務器都會在(zài)日志中記錄404錯誤(無法找到(dào)文件)。每當搜索蜘蛛來(lái)尋找并不(bù)存在(zài)的(de)robots.txt文件時(shí),服務器也(yě)将在(zài)日志中記錄一(yī / yì /yí)條404錯誤,所以(yǐ)你應該做網站中添加一(yī / yì /yí)個(gè)robots.txt。  誤區二:在(zài)robots.txt文件中設置所有的(de)文件都可以(yǐ)被搜索蜘蛛抓取,這(zhè)樣可以(yǐ)增加網站的(de)收錄率。  網站中的(de)程序腳本、樣式表等文件即使被蜘蛛收錄,也(yě)不(bù)會增加網站的(de)收錄率,還隻會浪費服務器資源。因此必須在(zài)robots.txt文件裏設置不(bù)要(yào / yāo)讓搜索蜘蛛索引這(zhè)些文件。  具體哪些文件需要(yào / yāo)排除, 在(zài)robots.txt使用技巧一(yī / yì /yí)文中有詳細介紹。  誤區三:搜索蜘蛛抓取網頁太浪費服務器資源,在(zài)robots.txt文件設置所有的(de)搜索蜘蛛都不(bù)能抓取全部的(de)網頁。  如果這(zhè)樣的(de)話,會導緻整個(gè)網站不(bù)能被搜索引擎收錄。robots.txt使用技巧? ?1. 每當用戶試圖訪問某個(gè)不(bù)存在(zài)的(de)URL時(shí),服務器都會在(zài)日志中記錄404錯誤(無法找到(dào)文件)。每當搜索蜘蛛來(lái)尋找并不(bù)存在(zài)的(de)robots.txt文件時(shí),服務器也(yě)将在(zài)日志中記錄一(yī / yì /yí)條404錯誤,所以(yǐ)你應該在(zài)網站中添加一(yī / yì /yí)個(gè)robots.txt。?  2. 網站管理員必須使蜘蛛程序遠離某些服務器上(shàng)的(de)目錄——保證服務器性能。比如:大(dà)多數網站服務器都有程序儲存在(zài)“cgi-bin”目錄下,因此在(zài)robots.txt文件中加入“Disallow: /cgi-bin”是(shì)個(gè)好主意,這(zhè)樣能夠避免将所有程序文件被蜘蛛索引,可以(yǐ)節省服務器資源。一(yī / yì /yí)般網站中不(bù)需要(yào / yāo)蜘蛛抓取的(de)文件有:後台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模闆文件、導航圖片和(hé / huò)背景圖片等等。  下面是(shì)VeryCMS裏的(de)robots.txt文件:  User-agent: *  Disallow: /admin/ 後台管理文件  Disallow: /require/ 程序文件  Disallow: /attachment/ 附件  Disallow: /images/ 圖片  Disallow: /data/ 數據庫文件  Disallow: /template/ 模闆文件  Disallow: /css/ 樣式表文件  Disallow: /lang/ 編碼文件  Disallow: /script/ 腳本文件  3. 如果你的(de)網站是(shì)動态網頁,并且你爲(wéi / wèi)這(zhè)些動态網頁創建了(le/liǎo)靜态副本,以(yǐ)供搜索蜘蛛更容易抓取。那麽你需要(yào / yāo)在(zài)robots.txt文件裏設置避免動态網頁被蜘蛛索引,以(yǐ)保證這(zhè)些網頁不(bù)會被視爲(wéi / wèi)含重複内容。  4. robots.txt文件裏還可以(yǐ)直接包括在(zài)sitemap文件的(de)鏈接。就(jiù)像這(zhè)樣:  Sitemap: sitemap.xml  目前對此表示支持的(de)搜索引擎公司有Google, Yahoo, Ask and MSN。而(ér)中文搜索引擎公司,顯然不(bù)在(zài)這(zhè)個(gè)圈子(zǐ)内。這(zhè)樣做的(de)好處就(jiù)是(shì),站長不(bù)用到(dào)每個(gè)搜索引擎的(de)站長工具或者相似的(de)站長部分,去提交自己的(de)sitemap文件,搜索引擎的(de)蜘蛛自己就(jiù)會抓取robots.txt文件,讀取其中的(de)sitemap路徑,接着抓取其中相鏈接的(de)網頁。  5. 合理使用robots.txt文件還能避免訪問時(shí)出(chū)錯。比如,不(bù)能讓搜索者直接進入購物車頁面。因爲(wéi / wèi)沒有理由使購物車被收錄,所以(yǐ)你可以(yǐ)在(zài)robots.txt文件裏設置來(lái)阻止搜索者直接進入購物車頁面。

robots.txt協議如何使用及寫作語法由東莞網站設計編輯 /wuh/news/9315.html如需轉載請注明出(chū)處

東莞網站設計 東莞小程序商城開發 東莞網站制作 東莞做網站公司 東莞網站建設 東莞微信小程序開發 東莞小程序開發 東莞網站優化 汕頭網站建設 清遠網站建設 英文網站建設 商城網站建設 門戶網站建設 中山網站建設 韶關網站建設 江門網站建設 專業網站建設 佛山網站建設 關鍵詞優化 網站托管 SEO外包

多一(yī / yì /yí)份參考,總有益處