關於抓取預算已經有很多討論,它是谷歌用來衡量在不使伺服器超載的情況下抓取網站的術語。
谷歌網站管理員部落格發布了一個非常完整且資訊豐富的說明,其中指出了網站上需要考慮的一些要點。
但是,讓我們看看託管該已爬網站點的伺服器一側的問題。
Google-Pablak 抓取預算如您所知,不僅 Google 機器人造訪您的網站,Bing、Yahoo 甚至 Facebook 也造訪您的網站,它們都使用類似的方法來控制爬行。
不同之處在於,Google更清楚地解釋了這個過程,並且擁有控制它的工具,因為它是產生最大量探索的過程。
在搜尋控制台中查看抓取統計資料
假設您的網站有 1,000 個頁面;如果平均值中的數字輕鬆超過該數字,那麼您應該不會遇到任何重大問題
但是,如果由於某種原因(無論是受歡迎程度還是內容增加),您最終獲得了 10,000 個頁面,並且平均抓取價值沒有變化,那麼您就有麻煩了。
根據我多年的經驗,只有幾次,當伺服器無法滿足充滿頁面的網站的爬行需求時,我必須處理有限的爬行預算的後果。
伺服器負載值(Web 伺服器主機負載)
用於網路託管的伺服器配置有由每分鐘同時傳入連線數決定的負載值,並具有不影響操作的安全裕度。
Google 推薦的預設連線數為 4。
爬網首先開啟 4 個連接,然後如果確定 Web 或檔案 白俄羅斯 whatsapp 列表 伺服器有足夠的容量來承受更高的負載,則會嘗試增加該數量。
在抓取過程中,機器人動態分析伺服器回應和檔案。如果沒有足夠的容量來承載配置伺服器的主機的負載,則機器人會降低爬網頻率,直到達到可接受的回應時間。在這些情況下,連線數可能會低於指定數量,具體取決於系統活動。
當這種情況發生時,伺服器的運作是有保證的,但網站爬行是不夠的
理想主機的負載值是多少?
沒有理想值,因為沒有理想的伺服器,據了解,伺服器越強大(記憶體、處理器速度等),它接受的負載值就越高。
必須仔細分析網站的效能,以選擇適合您需求的方案。的正確解決方案。