Skip to main content

國泰世華上周五網銀服務延遲近5小時,起因是負載平衡器逼近極限未切換備援

Posted in 業界新聞
新聞

從架構面來看,此次事件發生在銀行對外服務的「入口層」。根據金管會公布的資料,負責分配流量的F5負載平衡器,在正常情況下CPU使用率維持在70%至90%的高檔區間,顯示系統長期處於高負載運行狀態。事發當天CPU瞬間衝至99%,接近設備處理極限,使得新進交易請求無法被有效轉送至後端系統,形成請求堆積與延遲擴散。由於負載平衡器位於系統前端,一旦失效,將影響所有下游服務,包括轉帳、匯款、換匯及證券交割等核心交易。

值得注意的是,這起突發事件並未導致系統全面中斷,而是部分可用但效能劣化,使得交易成功率從接近100%下滑至70%至90%,反映系統仍具備基本處理能力,但已進入壅塞狀態。

外界關注為何未能即時啟動備援切換,對此,金管會指出,銀行端的考量是,當主設備尚未完全失效時,若直接切換至備援系統,可能將同樣面臨轉移過來的高負載壓力,導致備援節點同步過載。此外,若採取全面重啟策略,將造成約2小時完全中斷,相較之下,銀行選擇維持部分服務運作並逐步調整流量。

從高可用設計角度檢視,此次事件暴露三項關鍵問題。首先,入口層設備可能長期的高負載使用,顯示容量規劃方面未預留足夠餘裕。其次,備援機制雖存在,但未能在性能劣化初期自動介入,可能存在health check與切換門檻設計上的不足。第三,系統缺乏即時流量調節限流機制,無法在異常初期有效降低壓力,避免問題擴大。

在影響層面,此次事件已引發逾400件客訴,部分用戶因交易延遲面臨匯率或交割損失。金管會已要求銀行依公平待客原則處理補償,並限期在4月21日前提出完整事故報告,以釐清是否涉及人為疏失或SOP未落實,後續不排除開罰。

F5則回應,近期個別事件顯示,當系統長期處於高壓運行環境下,若流量成長、服務複雜度與架構調整節奏之間出現失衡,整體平台所承受的壓力將大幅上升,進而影響服務穩定性。這類問題已不僅是單一企業的挑戰,而是在數位轉型與AI應用快速深化的背景下,整體產業都必須正視的共通風險。

對此,F5建議企業應從「因應現狀」轉向「預見性規劃」,在系統設計初期即預留充足運算餘裕,以因應高峰負載;同時強化跨部門協作與流量可視化能力,從即時監控進一步走向長期趨勢預測與主動治理。透過建立具彈性且可擴展的基礎架構,企業才能在推動創新的同時,確保未來5至10年的系統穩定與韌性。

這起事件可供企業在數位轉型過程中借鏡,除了追求核心交易引擎的性能提升之外,「基礎設施」的流量控制也不容忽視。特別是當服務全面線上化、交易即時性要求提高後,負載平衡、流量調節分流與自動化故障切換能力,已是影響服務穩定性的關鍵。

View original 0 Likes 0 Boosts

Comments (0)

No comments yet.