欧美成人精品手机在线观看_69视频国产_动漫精品第一页_日韩中文字幕网 - 日本欧美一区二区

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發文檔 其他文檔  
 
網站管理員

[點晴永久免費OA]百度/360/頭條/搜狗/bing/Google搜索引擎用到的網絡爬蟲介紹與識別

admin
2024年4月11日 10:24 本文熱度 948

網絡爬蟲是一種自動化程序,可以按照一定的規則和算法在互聯網上抓取網頁信息。爬蟲通過訪問網頁的超鏈接、解析頁面內容等方式,收集網頁數據并存儲在本地或數據庫中。爬蟲的主要功能包括發現新網頁、下載網頁內容、解析網頁結構、提取有用信息等。

然而爬蟲訪問網站可能會占用服務器資源,浪費流量,甚至可能造成服務器宕機,為了應對這些問題,識別爬蟲并進行攔截屏蔽是至關重要的。

一種常見的識別爬蟲的方法是通過User Agent(簡稱 UA),即用戶代理,這是一個特殊的字符串頭,使服務器能夠識別客戶端的操作系統、瀏覽器等信息。不同的爬蟲有不同的User Agent,比如百度蜘蛛(Baiduspider)、360蜘蛛(360 Spider)、頭條搜索蜘蛛(Bytespider)等,不同的爬蟲通常會有其獨特的User Agent標識,通過識別這些標識,網站管理員可以初步判斷來訪者是否為爬蟲,并據此采取相應的攔截措施。

以下國內外常見的UA特征:

國內

    Baiduspider

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)  Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)


360Spider

Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider

以下為360搜索的蜘蛛IP段:   180.153.232.*    180.153.234.*    180.153.236.*    180.163.220.*    42.236.101.*    42.236.102.*    42.236.103.*    42.236.10.*    42.236.12.*    42.236.13.*    42.236.14.*    42.236.15.*    42.236.16.*    42.236.17.*    42.236.46.*    42.236.48.*    42.236.49.*    42.236.50.*    42.236.51.*    42.236.52.*    42.236.53.*    42.236.54.*    42.236.55.*    42.236.99.*


    Bytespider   頭條搜索(字節跳動)

Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36

Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)

Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Version/7.0 Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)

頭條搜索ip字段介紹

頭條搜索的ip字段總共涉及10個ip,具體字段如下:

  • 110.249.201.0/24

  • 110.249.202.0/24

  • 111.225.148.0/24

  • 111.225.149.0/24

  • 220.243.135.0/24

  • 220.243.136.0/24

  • 220.243.188.0/24

  • 220.243.189.0/24

  • 60.8.123.0/24

  • 60.8.151.0/24

sougou spider

sogou spider User-Agent字段:

Sogou web spider 和 Sogou inst spider


國外

bingbot

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) Chrome/

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)W.X.Y.Z Safari/537.36

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36  (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)


Googlebot

   

 [Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)            

     

YanDexBot

Mozilla/5.0 (compatible; YandexAccessibilityBot/3.0; +http://yandex.com/bots)

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

除了User Agent外,還有robots協議,即爬蟲協議,網站可以通過robots.txt文件告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。正常搜索引擎均遵守robots協議,但是,這個robots協議不是防火墻,也沒有強制執行力強制執行力,惡意搜索引擎完全可以忽視robots.txt文件去抓取網頁的快照。因此,我們不能僅僅依賴robots.txt來保護網站資源安全。相反,我們應該采取多種手段相結合的策略,包括識別User Agent、分析IP地址、監控爬蟲行為等,以實現對惡意爬蟲的有效攔截。

參考鏈接:

https://help.baidu.com/question?prod_id=99&class=0&id=3001

https://zhanzhang.toutiao.com/page/outer/docs/26899

http://www.so.com/help/spider_ip.html

https://help.sogou.com/guide.html

http://www.bing.com/webmasters/help/which-crawlers-does-bing-use-8c184ec0

https://www.pdflibr.com/crawler/googlebot

https://yandex.com/support/webmaster/robot-workings/check-yandex-robots.html


該文章在 2024/4/11 10:25:00 編輯過
關鍵字查詢
相關文章
正在查詢...
點晴ERP是一款針對中小制造業的專業生產管理軟件系統,系統成熟度和易用性得到了國內大量中小企業的青睞。
點晴PMS碼頭管理系統主要針對港口碼頭集裝箱與散貨日常運作、調度、堆場、車隊、財務費用、相關報表等業務管理,結合碼頭的業務特點,圍繞調度、堆場作業而開發的。集技術的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業的高效ERP管理信息系統。
點晴WMS倉儲管理系統提供了貨物產品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質期管理,貨位管理,庫位管理,生產管理,WMS管理系統,標簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務都免費,不限功能、不限時間、不限用戶的免費OA協同辦公管理系統。
Copyright 2010-2025 ClickSun All Rights Reserved