百度服務器每天會收到數(shù)百億次來自用戶的請求,這些請求在到達百度服務器之前,需要在百度外的公共網(wǎng)絡上經(jīng)過多層網(wǎng)絡設備(如運營商接入交換機等)和鏈路(如運營商骨干網(wǎng)鏈路、省網(wǎng)鏈路等)的轉發(fā)及傳輸。公共網(wǎng)絡中的設備或者鏈路故障,會導致部分用戶無法正常訪問百度的服務,影響用戶體驗。因此,需要對用戶到百度的外網(wǎng)連通性進行實時監(jiān)控,在故障時引導用戶流量繞過故障設備/鏈路,從而提高用戶體驗。
獵鷹:作為百度外網(wǎng)質量監(jiān)控平臺,對整個百度的外網(wǎng)訪問質量進行實時監(jiān)測,實現(xiàn)了分鐘級的外網(wǎng)故障發(fā)現(xiàn)和告警,同時提供豐富的數(shù)據(jù)可視化展示,為百度服務的可用性保駕護航,成為百度運維工程師日常工作的必備利器之一。
接下來,本文將對百度外網(wǎng)質量監(jiān)控平臺獵鷹進行介紹,主要介紹外網(wǎng)監(jiān)控概述、外網(wǎng)故障場景以及相關需求。
為什么需要外網(wǎng)監(jiān)控?
百度擁有數(shù)十萬臺服務器,這些服務器分布在不同地理位置的互聯(lián)網(wǎng)數(shù)據(jù)中心中。當用戶訪問百度服務的時候,域名解析服務(DNS)會給用戶返回一個VIP地址(虛機地址),然后用戶的請求會被轉發(fā)到這個VIP地址上。用戶的請求在到達這個VIP地址之前,依次會經(jīng)過用戶本地接入設備(比如ADSL)→用戶所在地域的網(wǎng)絡運營商接入設備→運營商骨干網(wǎng)鏈路→百度IDC所在地域的運營商接入設備→百度IDC的VIP.
外網(wǎng)監(jiān)控對運維的價值
那么對于百度的運維工程師和網(wǎng)絡組工程師來說,日常工作中對外網(wǎng)監(jiān)控系統(tǒng)有哪些通用需求呢?通過對運維工程師和網(wǎng)絡組工程師進行相關調研,整理需求如下:
1、真實反映用戶到百度IDC間的網(wǎng)絡訪問質量
對于運維工程師來說,他們真正關注的是影響用戶訪問體驗的網(wǎng)絡故障,因此,真實反映用戶到百度IDC間的網(wǎng)絡訪問質量是外網(wǎng)監(jiān)控系統(tǒng)進行網(wǎng)絡質量監(jiān)測的基礎。
2、覆蓋全國三大運營商的各個省份
百度服務每天會收到數(shù)百億次來自三大運營商各個省份的用戶請求,為了盡可能多地發(fā)現(xiàn)用戶端到百度IDC間的網(wǎng)絡問題,監(jiān)測點應當盡量覆蓋三大運營商的各個省份。
3、準確快速地主動告警,確定故障類型及影響范圍
當出現(xiàn)網(wǎng)絡故障時,需要快速檢測出故障并進行主動告警,需要確定故障類型(機房側故障、骨干網(wǎng)故障、單省份故障),以便于決定采取何種策略進行止損,并且需要確定故障影響范圍(即哪些業(yè)務線受到影響了),沒有受到影響的業(yè)務線的運維工程師不需要收到故障告警。同時,為了盡可能地縮短故障影響的時間,需要盡可能快地檢測出故障。
4、支持不同視角的可視化展示
運維工程師通常情況下只關注與其服務相關的網(wǎng)絡質量視圖,而網(wǎng)絡組工程師通常需要關注全局的網(wǎng)絡質量視圖,因此需要提供多種不同視角的網(wǎng)絡質量視圖,讓運維工程師和網(wǎng)絡組工程師都能夠快速地獲取到其關心的網(wǎng)絡質量視圖。
小結
本文從宏觀上介紹了百度外網(wǎng)質量監(jiān)控的意義、外網(wǎng)故障場景分類以及百度運維工程師對外網(wǎng)監(jiān)控系統(tǒng)的需求。