NETSCOUT 2020/08/31

管好 IT / OT 網路效能,別讓數位轉型功虧一簣!

NetScout Systems台灣區總經理 金大剛

許多企業、政府、金融機構於數位轉型過程中,仍然只高度重視資訊安全相關議題,但往往忽略服務效能監控議題。因此,當服務中斷時,CIO轄下的IT個部門主管無法於第一時間回應CXO這個中段是因為被駭客入侵或攻擊所導致的中斷(Break in),還是因為服務效能或設備故障所導致的中斷(Break)。正因如此,愈來愈多企業紛紛開始建立效能監控管理機制,期望能輕鬆偵測網路架構上大大小小的疑難雜症,並且以最快速度排除這些障礙因子,確保所有應用服務持續穩健運行。

企業服務效能保障(Service Assurance)有「視」無恐

毫無疑問,企業想要確保數位化和智能化的旅程一帆風順,首要關鍵就是服務保障(SA);否則如果老是有人抱怨你的服務很慢,感到你的系統怪怪的,那麼任憑你提供的服務富含創意,顧客使用經驗不佳,終究會棄你而去,導致轉型大業功敗垂成。但令人不解的是,企業普遍都已部署NMS 監控工具,然而服務中斷或效能不彰情況發生時,相關IT卻疲於奔命使盡全力,仍舊曠日廢時、圖法煉鋼的找問題,連帶讓一些企業主和 CIO 開始反躬省思,自問靠著這些看似精良的 NMS,是否仍然不足以確保服務品質?

NetScout Systems台灣區總經理 金大剛表示,NMS主要是以設備元件「死活」為觀測要點,無法以用戶的服務為導向進行全程觀測。如果以醫學來形容,NMS 就像是西醫,只能用聽筒觀察當下心臟器官跳動是否正常,等到人暈倒休克、需要急救了,才會發出警訊。NPM網路效能管理(Network Performance Management)比較像是中醫,透過枕脈全程錄影持續性的掌握你的血液循環狀態;假設哪天感覺出現些微的腳麻、手抖或頭痛等癥狀,就能立即回溯倒帶查看病因,迅速對症下藥解除痛點。以 Netscout NPM 為例,用來收集健康數據的「感測貼片」,便是 ISNG(實體探針)或 vStream(虛擬探針)等「Probe」,透過集中化儀表板nGeniusOne,幫助管理者綜觀網路全局,統一分析、診斷、監控及管理所有效能問題,不單單知道網路是死是活,還能知道網路的「元氣」究竟處在旺盛、一般或衰弱之狀態。

數位轉型最大挑戰,天時地利人通通不合

總的來說,現階段企業推動數位轉型所面臨的重大挑戰,便是「天」、「時」、「地」、「利」、「人」通通不合的問題: 「天」即是「雲」,現在企業發展數位轉型的基礎,不只涵蓋傳統的實體網路系統,也搭配運用了大量的虛擬化技術及公有雲、私有雲環境;如果出現問題,企業如何在如此複雜的混合式架構裡,快速簡單地找到病因?「時」間也是查找問題重要的關鍵,IT常接到其他使用單位同仁反應: “我最近常常使用某種系統服務時覺得怪怪的”,遇到這種問題,IT只能告訴使用者:煩請下次遇到時立即告訴我,我只能在問題發生當下幫你查”。 這是另所有人都頭痛的問題,無法精準鎖定過往特地時間去回朔查找病因。「地」點也是重要的環節,今時今日,散佈於各地的 IoT 感測器、行動使用者,乃至因為疫情影響而在家工作(WFH)的同仁,都會透過企業的VPN連線,抵達企業的資料中心或雲端服務平台,以滿足資料傳輸或應用存取等日常作業需求。綜觀這些資料傳輸或應用存取的端到端路徑,其間所涵蓋的地理面積相當大,中繼節點的數量相當多;萬一哪天這條路突然變窄了、甚至不通了,罪魁禍首到底是資料中心、分支據點、家中Internet、廣域網路、雲端服務當中的哪一個地方環節?「利」益是企業追求的最重要的是,意味這跟利益有關的、資訊相關服務是不能卡卡的,如同觀測人的膽固醇、三酸甘油酯等健康指數,適時調整作息、運動、飲食,以有效避免心肌梗塞!所以我們應該要不斷偵測其服務效能指標,適時改善架構、系統、網路、資安、雲端虛擬化、平衡負載等相關配置,以達整體服務最佳化的目的。上述問題秀瘀仰賴「人」解決,但服務出狀況,CIO 當然會挺身而出召開緊急會議,找來資安、網路、DB、AP 及系統等不同部門的負責人共聚一堂,期望加快腳步還原事件真相,藉此排除障礙。只見每個團隊都各自憑藉不同工具證明不是自己的問題,導致查找問題已非專業技術問題而變成政治事件彼此互踢皮球。

上述「天」、「時」、「地」、「利」、「人」等問題如何從不合轉變為合?值此關鍵時刻,企業所能做的最佳抉擇,無疑正是部署網路效能管理(NPM)。

網路效能管理的價值定位: 解決後知後覺、不知不覺、先知先覺的問題

「以 NETSCOUT NPM 而言,可以為企業客戶帶來三個重大的價值,」金大剛說: 「後知後覺」,便是等到有人”反應”系統服務出現異常或障礙,企業主或 CIO 才”驚覺”有問題。NPM 當是一個能夠快速診斷問題、快速解決問題的輔助工具,足以有效針對從前「後知後覺」的問題,進而大幅縮短釐清該問題及排除障礙問題的時間。

其次,NPM 能夠主動發現潛在問題,確保企業不再繼續身陷「不知不覺」的窘境。過去當企業的系統服務已經出現問題了,已經不健康了,卻往往渾然不覺,因為從 NMS 的視角來看,只會看到網路是死是活,假使系統服務還可運轉,代表網路還活著、基本上沒有大礙。但如此僅會迫使企業等到系統服務驟然停擺、已然造成慘重損失之際,才在萬般痛苦下急忙尋求解決之道,與其如此,倒不如利用 NPM 提前挖掘潛在問題,早一步防範未然,才是正解。

第三,NPM 可在數位轉型過程(包含前、中、後)全程監控,協助企業成為「先知先覺」。以開刀為例,通常醫生會要求病患提前一天入院接受檢查,比方說問病患有沒有喝酒、做為隔天施打麻藥劑量的依據;直到即將執行手術前夕,護士還會詢問病患上過廁所沒,並且量測其脈搏和血壓狀態,如同建立基準線(Baseline)。此例意謂著,醫生為了避免釀成手術失敗風險,手術前中後都應該全程觀測各項重要的生命指標。同樣的道理,企業要做數位轉型,更應該建立各項服務指標的基準線並全程觀測轉換前、中、後的變化,確保數位轉型成功。

單一鏡片(Single Pane of Glass),透析 End-to-End / Hop-to-Hop 服務效能

綜觀 NETSCOUT NPM 的啟用過程,基本上就是一套井然有序的工作流程,意在引領用戶進行循序漸進、由淺入深的觀測與分析,進而縮短系統服務的平均復原時間(MTTR)。第一步,先讓 NPM 設備在企業網路學習 1~2 週時間,再根據每一個系統服務合理的運行效能,自動訂定出不同基準線(Baseline)。然後用戶可依照自身實際需求,定義需要被監控服務的效能指標(KPI),這些 KPI 可以是一個地理位置,也可以是服務主機伺服器;奇妙的是,在用戶設定好 KPI 的當下,NPM 便會自動依據這些 Service 畫出網路關聯拓樸圖,清楚呈現使用者連線的行經的End-to-End連線路徑,看到整條路徑當中的哪一段出問題、以及出了什麼問題;另外,這套網路關聯圖也是很好用的稽核工具,讓企業隨時掌握有無員工擅自在網路環境中做出違規舉動(例如在企業網路內私自架設Web或FTP Server)。爾後網管人員便可透過 nGeniusOne 儀表板頁面,輕易掌握諸如 Latency、Requests、Failures、Response Time 等數字的變化,連帶藉由曲線圖、以時間軸的方式理解這些變化趨勢。

如果網管人員探測到某些數值出現異常,亟欲深入剖析其形成原因,即可切換到 IP/Session 視角,還原 Session 的狀態,一併觀察過程中是否曾經出現任何錯誤代碼。此外若干深具高階技能的網管專家,亦可將封包 sniffer 下來,直接透過 nGeniusOne 儀表板察看原始封包的內容。總之,藉由「KPI > 關聯圖 > 統計表格曲線 > Session 連線狀態 > 封包內容」五階的逐層檢視,深入探索異常事件的 Root Cause。

效能管理也須站在用戶使用者角度(Hop-to-Hop)

所謂的 End-to-End,是以企業資料中心為出發點進行觀測與分析,至於 Hop-to-Hop 正好相反,是以遠端的使用者為出發點連線到企業資料中心,觀測整段連線歷程。企業可先針對想要監測的每一項服務、系統或地理位置,透過 Python 編程,分門別類撰寫出不同的模擬機器人,接著把這些機器人安裝到遠端分支據點的交換器上或遠端電腦。

機器人就可以自動展開模擬行動 (避免干擾同仁的日常工作),針對某項系統或服務的存取歷程,執行 Step-by-Step 完整越洋連線測試,中間哪個 Hop 出問題因而導致服務存取效率變差,管理者都能一目瞭然。

建立服務效能管理平台,確保數位轉換成功

在當今日益複雜的混合雲架構下,未來許多企業將面臨更大的數位轉換壓力: 如IT與OT網路的整合、建置Local 5G網路與暨有網路的數據匯流,如果沒有一個共同觀測監控服務的可視性平台,將嚴重造成服務上線及日後維運的困難度。透過Gartner連續幾年評定NPM世界領導品牌NETSCOUT的效能管理相關解決方案,同步導入並建立無邊界的可視化的服務效能監控平台將成為必要的課題。


NETSCOUT 產品資訊