國務(wù)院關(guān)于印發(fā)《2024—2025年節(jié)能降碳行動方案》的通知
DeepFlow為企業(yè)混合云建立統(tǒng)一高效的網(wǎng)絡(luò)流量采集與分發(fā)平臺
DeepFlow為企業(yè)混合云建立統(tǒng)一高效的網(wǎng)絡(luò)流量采集與分發(fā)平臺經(jīng)過十多年的發(fā)展,企業(yè)在IT基礎(chǔ)設(shè)施以及云原生的業(yè)務(wù)應(yīng)用上穩(wěn)步推進。上云業(yè)務(wù)規(guī)模增加,混合云中網(wǎng)絡(luò)變得更為復(fù)雜,企業(yè)
經(jīng)過十多年的發(fā)展,企業(yè)在IT基礎(chǔ)設(shè)施以及云原生的業(yè)務(wù)應(yīng)用上穩(wěn)步推進。上云業(yè)務(wù)規(guī)模增加,混合云中網(wǎng)絡(luò)變得更為復(fù)雜,企業(yè)對業(yè)務(wù)安全的訴求、行業(yè)主管部門監(jiān)管的要求有增無減。
為什么混合云需要全網(wǎng)流量
在混合云環(huán)境,企業(yè)的業(yè)務(wù)運行在邏輯網(wǎng)絡(luò)中,同樣面臨網(wǎng)絡(luò)性能分析、網(wǎng)絡(luò)問題定位及排障、網(wǎng)絡(luò)安全管理、合規(guī)審計、網(wǎng)絡(luò)擴展等問題。獲取完整的網(wǎng)絡(luò)流量是解決上述問題的前提。獲取并管理好現(xiàn)網(wǎng)監(jiān)控流量并不是一件輕松的事情。在云環(huán)境下,選擇網(wǎng)絡(luò)流量采集方案需要考慮流量獲取的方式、環(huán)境中的流量模型、規(guī)模及可管理性、對現(xiàn)網(wǎng)環(huán)境的影響、平臺開放性。目前獲取虛擬交換機流量的技術(shù)方案有以下幾種,企業(yè)可根據(jù)自身IT環(huán)境的實際情況進行靈活部署。
1)在虛擬機或工作負載(Workload)中安裝采集探針,從操作系統(tǒng)層抓取流量信息。此方案探針部署規(guī)模大,且需要獲取虛擬機根(Root)權(quán)限。
2)通過在虛擬交換機(OVS:Open vSwitch、VDS:vSphere Distributed Switch、VSS:Virtual Standard Switch)上配置鏡像或廣播策略,將所需流量引出。該方案需要對生產(chǎn)平面的虛擬交換機進行配置。
3)在宿主機Hypervisor(如 Openstack Hypervisor)上安裝采集探針,以用戶態(tài)進程形式獨立獲取虛擬交換機上的流量。該方案無需對生產(chǎn)平面的虛擬交換機進行配置。
混合云環(huán)境中,網(wǎng)絡(luò)規(guī)模宏大且資源池類型繁多,虛擬交換機采集點數(shù)量相比傳統(tǒng)監(jiān)控規(guī)模有幾個數(shù)量級的增長。在構(gòu)建整體采集方案時,企業(yè)應(yīng)充分考慮IT資源的多樣性,采集平臺應(yīng)該分階段進行建設(shè),尤其要注意確保方案具備擴展和統(tǒng)一管理能力。單一的生產(chǎn)環(huán)境在企業(yè)中并不多見,在進行流量采集部署時,需要滿足平滑部署且保證業(yè)務(wù)不間斷,同時確保對計算資源和網(wǎng)絡(luò)帶寬的消耗限制。
全網(wǎng)流量采集與分發(fā)方案
多數(shù)大型企業(yè)目前都存在多數(shù)據(jù)中心、混合云的IT設(shè)施資源,從網(wǎng)絡(luò)的角度看,自有的數(shù)據(jù)中心通過專有網(wǎng)絡(luò)互聯(lián),并劃分業(yè)務(wù)區(qū),并且有可能存在多個分支機構(gòu)網(wǎng)絡(luò)。為保障資源彈性,業(yè)務(wù)快速上線等,也大量使用公有云資源,選擇多個云服務(wù)商。企業(yè)從運維排障、運營管理、業(yè)務(wù)性能等方面都需要對網(wǎng)絡(luò)有全面清晰的畫像。
本方案的目標(biāo)是為企業(yè)混合云建立統(tǒng)一高效的網(wǎng)絡(luò)流量采集及分發(fā)平臺,面對各類資源池實現(xiàn)統(tǒng)一的流量采集抽象層,并且能對流量實現(xiàn)過濾、去重、壓縮、截短等處理功能,支持IPv4、IPv6協(xié)議環(huán)境,能為網(wǎng)絡(luò)運營中心、安全運營中心、大數(shù)據(jù)分析平臺等多方流量消費端提供數(shù)據(jù)供給。
數(shù)據(jù)中心側(cè)
實現(xiàn)全網(wǎng)流量采集及處理,可以從區(qū)域以及資源池來規(guī)劃,數(shù)據(jù)中心可按區(qū)域來定義,區(qū)域內(nèi)通常包含多個可用區(qū);區(qū)域內(nèi)的網(wǎng)絡(luò)流量包含可用區(qū)內(nèi)的物理網(wǎng)絡(luò)流量和資源池內(nèi)的虛擬網(wǎng)絡(luò)流量。在物理網(wǎng)絡(luò)中,采集點通常由設(shè)備廠商的監(jiān)控方案實現(xiàn)。DeepFlow® 采集器可對接設(shè)備廠商方案的標(biāo)準(zhǔn)數(shù)據(jù)輸出。各類型號的DeepFlow® 采集器為全網(wǎng)流量采集方案提供數(shù)據(jù)包捕獲能力;按部署方式分為VMware ESXi采集器、KVM采集器、KVM-DPDK采集器、HyperV采集器、容器OnVM采集器、容器OnHost采集器、Workload采集器等。
公有云側(cè)
公有云為租戶提供VPC網(wǎng)絡(luò),Workload采集器以用戶態(tài)的軟件形式部署在虛擬機、容器、裸金屬設(shè)備等Workload上,支持Linux、Windows等主流操作系統(tǒng),實現(xiàn)VPC內(nèi)各類資源的網(wǎng)絡(luò)流量采集。由于部署安裝在Workload操作系統(tǒng)上,采集器數(shù)量多,可以通過鏡像進行預(yù)裝。
控制管理側(cè)
由于采集器數(shù)量大、策略多,波動強,需從控制面設(shè)計入手,解決大規(guī)模及可管理性的問題。在多點的部署環(huán)境中,首先指定主區(qū)域(Region),主控制器存在于主區(qū)域中,當(dāng)啟動主控制器高可用功能,主區(qū)域內(nèi)應(yīng)部署多臺控制器,通過心跳保證控制器間的狀態(tài)同步,及時啟動主、備控制器選舉。選舉產(chǎn)生主控制器后,為整體流量管理平臺提供控制入口。除主區(qū)域外的其他區(qū)域控制器為從控制器,不參與主控制器選舉。在云環(huán)境、容器環(huán)境中,控制器通過對接虛擬化資源池、配置管理數(shù)據(jù)庫、公有云開放API等,可實現(xiàn)多粒度下發(fā)采集、分發(fā)策略,更靈活、更貼近業(yè)務(wù)應(yīng)用。
控制器完全控制采集器狀態(tài),各類采集器具備相同狀態(tài)機機制,各類型的采集器可能處于自檢、運行、停止、異常、保護等幾種狀中,其中保護狀態(tài),是確保采集器工作時,平臺能對其使用CPU、內(nèi)存資源使用上限的限定。當(dāng)采集器壓力過大時,采集器狀態(tài)將由“運行”切換至“保護”狀態(tài),以確保不對生產(chǎn)環(huán)境產(chǎn)生影響,直至重新調(diào)整資源配置或處理壓力下降,切回至“運行”狀態(tài)。
此外,單一DeepFlow® 控制器可管理2000個采集器,通常能夠滿足一個可用區(qū);控制器最大支持50臺的規(guī)模,方案整體可滿足10萬臺采集器統(tǒng)一管理,足以應(yīng)對大型企業(yè)私有IT、公有云、容器等網(wǎng)絡(luò)流量采集需求。
基于分布式的監(jiān)控流量處理
不同于集中式后處理的方案,DeepFlow® 采集器具備專利算法的前置計算能力可在采集點對流量進行直接處理。眾多采集器和控制器共同構(gòu)建成一個與云網(wǎng)規(guī)模一致的分布式流量處理系統(tǒng),大幅減少了分發(fā)數(shù)據(jù)對監(jiān)控網(wǎng)絡(luò)和后端分析工具的壓力。通過各類型的采集器實現(xiàn)流量采集處理抽象層,主要對數(shù)據(jù)包處理能力進行抽象,包括過濾、去重、數(shù)據(jù)包截短、壓縮、特征標(biāo)記等功能。
高性能網(wǎng)絡(luò)時序數(shù)據(jù)訂閱服務(wù)
對于非原始數(shù)據(jù)包的數(shù)據(jù)消費需求,平臺提供開放的數(shù)據(jù)訂閱方式。處理后的包頭,網(wǎng)絡(luò)元數(shù)據(jù)、遙測統(tǒng)計數(shù)據(jù)通過網(wǎng)絡(luò)平面匯總至高性能時序數(shù)據(jù)庫中,可通過API,消息隊列為其他數(shù)據(jù)消費平臺調(diào)用。
部署
整體方案主要涉及采集器、控制器、高性能時序數(shù)據(jù)庫三部分,在完成規(guī)劃整體方案后,可分區(qū)域、分資源池按階段投入建設(shè),最終為企業(yè)混合云IT基礎(chǔ)設(shè)施環(huán)境構(gòu)建統(tǒng)一的流量監(jiān)控管理平臺。對于已經(jīng)運行的混合云環(huán)境,可以在不影響生產(chǎn)環(huán)境運行的情況下部署實施,網(wǎng)絡(luò)規(guī)劃上將 DeepFlow® 平臺所涉及的管理、監(jiān)控分發(fā)平面復(fù)用在已有的網(wǎng)絡(luò)平面中,通??梢詮?fù)用已有的網(wǎng)絡(luò)管理平面。對于整體規(guī)劃的方案,建議對整體混合云規(guī)劃獨立的網(wǎng)絡(luò)監(jiān)控平面,對混合云的監(jiān)管流量統(tǒng)一、獨立地進行管理。根據(jù)流量、資源情況整體規(guī)劃采集器的性能,DeepFlow® 采集器最低可配置1vCPU、128M的計算資源。
與傳統(tǒng)方案比較
采集技術(shù)先進:全網(wǎng)采集方案主要圍繞 DeepFlow® 采集器技術(shù)實現(xiàn),采集器以進程形態(tài)部署,最大程度上避免對生產(chǎn)交換平面的干擾,不存在與生產(chǎn)平面交換機流表沖突的風(fēng)險,同時在操作系統(tǒng)上繼承進程級保護優(yōu)勢,實現(xiàn)整體系統(tǒng)穩(wěn)定。
分布式系統(tǒng):采集到數(shù)據(jù)包后避免集中處理,采用分布式架構(gòu),采集點分布處理控制器集中管理。
場景全規(guī)模大:整體方案是基于分布式設(shè)計模型以及多地域管理,可以充分保障資源池規(guī)模彈性擴展,整體系統(tǒng)可管理 10 萬臺采集器,涵蓋虛擬機、容器、公有云資源池。
可管理性:平臺主控制器具備對所有采集器的監(jiān)控和管理能力。通過對接云平臺使得操作貼近資源池特性,針對云資源的遷移、回收、重新部署等場景做到了實時策略跟隨,保障采集能力在動態(tài)環(huán)境下的持續(xù)執(zhí)行。
數(shù)據(jù)服務(wù):數(shù)據(jù)服務(wù)是將流量采集與后端平臺對接的重要環(huán)節(jié),完整流量數(shù)據(jù)包多目的地分發(fā),高性能網(wǎng)絡(luò)時序數(shù)據(jù)庫通過API、ZeroMQ、Kafka等消息隊列提供流數(shù)據(jù)服務(wù)。同時也將采集與后端各類分析工具解耦,避免流量采集器局限在僅為單一工具服務(wù)的豎井中。
總結(jié)
DeepFlow® 混合云全網(wǎng)監(jiān)控流量采集與分發(fā)解決方案為企業(yè)在混合云、云原生等新型IT基礎(chǔ)設(shè)施環(huán)境演進過程中,提供完整地、可持續(xù)的平臺級監(jiān)控流量管理,避免重復(fù)投入,重復(fù)安裝,解決實際網(wǎng)絡(luò)監(jiān)管難題,也為企業(yè)規(guī)劃整體運維、安全平臺補齊現(xiàn)網(wǎng)流量、流日志這一板塊。本方案已應(yīng)用于金融、運營商等客戶IT環(huán)境中。