教育行業A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

Robots協議是什么?Robots文件中選項的含義

更新時間:2022年08月25日10時38分 來源:傳智教育 瀏覽次數:

好口碑IT培訓

Robots協議又稱爬蟲協議,它是國際互聯網界通行的道德規范,用于保護網站數據和敏感信息,確保網站用戶的個人信息和隱私不受侵犯。為了讓網絡爬蟲了解網站的訪問范圍,網站管理員通常會在網站的根目錄下放置一個符合Robots協議的robots.txt文件,通過這個文件告知網絡爬蟲在抓取該網站時存在哪些限制,哪些網頁是允許被抓取的,哪些網頁是禁止被抓取的。

當網絡爬蟲訪問網站時,應先檢查該網站的根目錄下是否存在robots.txt文件。若robots.txt文件不存在,則網絡爬蟲會訪問該網站上所有被口令保護的頁面;若robots.txt文件存在,則網絡爬蟲會按照該文件的內容確定訪問網站的范圍。

robots.txt文件中的內容有著一套通用的寫作規范。下面以豆瓣網站根目錄下的robots.txt文件為例,分析robots.txt文件的語法規則。

User-agent: *
Disallow: /subject_search
…
Disallow: /share/
Allow: /ads.txt
Sitemap: https://www.douban.com/sitemap_index.xml
Sitemap:
https://www.douban.com/sitemap_updated_index.xml
# Crawl-delay: 5
User-agent: Wandoujia Spider
Disallow: /
User-agent: Mediapartners-Google

robots.txt文件選項說明

User-agent:用于指定網絡爬蟲的名稱。若該選項的值為“*”,則說明robots.txt文件對任何網絡爬蟲均有效。帶有“*”號的User-agent選項只能出現一次。例如,示例的第一條語句User-agent:*。

Disallow:用于指定網絡爬蟲禁止訪問的目錄。若Disallow選項的內容為空,說明網站的任何內容都是被允許訪問的。在robots.txt文件中,至少要有一個包含Disallow選項的語句。例如,Disallow:/subject_search禁止網絡爬蟲訪問目錄/subject_search。

注意:Robots協議只是一個網站與網絡爬蟲之間達成的“君子”協議,它并不是計算機中的防火墻,沒有實際的約束力。如果把網站比作私人花園,那么robots.txt文件便是私人花園門口的告示牌,這個告示牌上寫有是否可以進入花園,以及進入花園后應該遵守的規則,但告示牌并不是高高的圍欄,它只對遵守協議的“君子”有用,對于違背協議的人而言并沒有太大的作用。

盡管Robots協議沒有一定的強制約束力,但網絡爬蟲仍然要遵守協議,違背協議可能會存在一定的法律風險。

0 分享到:
精品人妻av区