以 Splunk 雲端平台的穩定性和回復力面對意外狀況

發布日期:2022/05/13

雲端服務的穩定性和回復力是當今組織選擇時的首要考慮因素。無論是應對因疫情而激增的需求挑戰,還是處理意外運作中斷的情形,您還是必須為客戶提供支援。利用 Splunk Cloud Platform 服務,您將擁有一個專注於穩定性和回復力的可靠合作夥伴,可以協助快速調查、排除故障,並解決全公司運作中斷、內部安全漏洞或使用者操作錯誤造成的影響。 




新冠疫情未歇加速了原本就已經步調很快的雲端移轉趨勢,而安全環境中日益複雜的複雜性,使得穩定性、回復力和復原能力持續成為企業的主要考量。在 Splunk,我們專注於幫助客戶降低未來事件的風險。我們的使命就是優先考慮服務的穩定性和可靠性,幫助客戶快速調查和解決問題。

Splunk 雲端平台可靠、可用且可擴展 
Splunk Cloud Platform 提供「始終上線」的高可用性承諾。Splunk Cloud Platform 可根據資料分析需求進行擴展,涵蓋從基礎架構管理到資料合規性等,支援從 GB 到 PB 甚至更大範圍的資料規模。Splunk Cloud Platform 專為支援資料量暴增所設計,除了讓您能夠逐步升級容量,並可隨時保持安全性。我們為每個客戶提供可使用於 AWS 和 GCP 的專用雲端環境,以及傳輸中加密和 (選擇性) 靜止加密。我們不斷評估和增加新的國際標準。


如何運作?
Splunk 雲端平台提供令人印象深刻的回復力、高可用性和災難復原能力。Splunk Cloud Platform 的設計就是為問題出現做好準備──並幫助盡快修復它們。Splunk 的產品團隊具備創新的精神,可為我們的客戶提供業務持續性。 

為客戶提供穩定性和回復力
客戶期望可靠、高度可用的服務——這正是 Splunk 提供的。Splunk 雲端平台專為以下用途而設計: 

1.透過使用多種隊列 (queue) 策略實現可靠的傳輸中資料,包括:

  • 透過在 Victoria Experience 中使用重新設計的 Splunk 架構,區分開 Splunk 雲端平台邊界中的解取和索引 (持久隊列)
  • 轉寄器會排隊以防止資料遺失,方法是在來源處持續排隊資料,並在索引器關閉或發生網路問題時重試。


2.使用幾個關鍵策略來提供可靠的靜止資料和追蹤可用性:

  • 跨可用區 (AZ) 的複寫有助於透過減少擷取資料時發生單點故障的可能性,以防止資料遺失 
  • 負載平衡器的索引器隨機化有助於防止在多個索引器之一出現故障時,產生影響嚴重的資料遺失情況。作為 Victoria Experience 中重新設計的 Splunk 架構的一部分,負載平衡器還有助於減少索引器超載、回復力隨機化並提升擷取的可擴展性
  • 三重資料複寫以實現索引器層中的備援。

 
3.透過以下方式實現高搜尋可用性:

  • 自動複製索引器並在發生故障時進行更換,可以減少單點故障的機會
  • 透過搜尋頭叢集 (Search Head Cluster) 對搜尋層進行負載平衡存取
  • 每晚建立備份。


4.透過以下方式優先滿足任務和業務關鍵需求的可用性:

  • 作為 Victoria Experience 中重新設計的 Splunk 架構的一部分,可擴展、彈性的索引功能為擷取和搜尋模式的尖峰時間提供了高回復力,有助於確保高優先性、關鍵業務搜尋不會被跳過和失敗 
  • 索引時的複寫因子提供了高度資料可用性並防止搜尋被跳過
  • 在平台層進行搜尋頭叢集,以在搜尋頭出現故障時優先安排搜尋可用性。

 
使用 Splunk 主動找出停機情形

在狀況發生之前就即時找出問題
借助 Splunk 雲端平台,可以即時串流、分析、監控和搜尋任何類型的資料,防患於未然。此外,使用 Splunk 的行動 App 和擴增實境功能隨時隨地進行回應。 

快速找到問題的根源
透過統一存取 Splunk 雲端平台中的所有資料來源,您可以調查所有資料問題的根本原因,並獲得以前無法取得的業務見解。 

快速排除問題
Splunk 雲端平台能讓過從有限資源獲得最大價值,大幅提高團隊的效率。其只需短短兩天即可上線,可大幅縮短升級時變更管理流程的延遲。準備就緒後,即可快速擴展您的 Splunk 部署──通常在兩天內即可擴展數 TB 的容量。讓 Splunk 來負責基礎架構管理即可。 


在 Splunk──我們使用 Splunk
我們相信 Splunk 的卓越營運能力,並使用它在狀況發生之前即時找出問題。我們目前使用 Splunk Cloud Platform、IT Service Intelligence Cloud、Splunk On-Call 以及與公司內部溝通的整合功能,確保有適當的團隊可以應對事件回應和管理。我們透過反覆運算快速學習、檢視資料,以確保業務可以順利運作。

「在 Splunk 網路營運中心,我們使用 Splunk on Splunk App 來追蹤、維護 Splunk SaaS 登入、排程和臨時搜尋、資料擷取和索引,以及 API 功能和可用性,並對其進行故障排除──這一些都是為我們的 Splunk 客戶提供最佳體驗。」
——Brenden Reeves,Splunk 網路營運中心

以下是我們目前使用 Splunk Cloud Platform 的一些方式:

  • 追蹤完整、有效的 Splunk SaaS 登入。我們使用 Splunk 監控 Splunk Cloud Platform 登入和驗證成功率,並在出現問題時進行調查。例如,我們會針對任何不尋常的地理位置或多次登入失敗的狀況發出警報。
  • 監控排程或臨時搜尋。我們使用 Splunk 監控搜尋成功率,並在失敗超出設定閾值時進行深入調查。我們會主動監控各種服務等級指標 (SLI) 是否低於閾值。
  • 監控資料擷取和索引。我們會監控索引器,追蹤它們是否處於所需的客戶狀態,使用機器學習主動識別異常峰值並避免不必要的警報淹沒客戶,通常只會在異常情況下才向客戶發出警報。如果客戶請求支援,我們已準備好深入研究效能問題並快速加以解決。
  • 追蹤 API 的可用性和功能。我們會監控 API 服務,幫助確保它們仍然可供客戶使用並正常運作。我們監控索引層的可用性以擷取資料 (例如:HTTP Event Collector 的來源擷取,以及內部 Splunk 到 Splunk 9997 連接埠),以及搜尋層的可用性 (例如:登入頁面的可用性、混合搜尋 API 搜尋雲端索引器的能力,或透過可忽略運算的測試搜尋確認搜尋服務的可用性)。

Splunk NOC 會監控這四個區域是否發生可疑或意外活動,以便 Splunk 可以在出現潛在問題時主動聯繫客戶。Splunk Dashboard Studio 為我們的 NOC 團隊提供了一個將所有資訊整合在一起的視覺化介面,可讓多個團隊成員識別並快速溝通潛在的問題。

「Splunk NOC 中的堆疊概觀儀表板讓我們能夠快速了解每個客戶的伺服器叢集和服務狀態,以便快速識別並努力解決任何客戶問題。」
——Brenden Reeves,Splunk 網路營運中心
 

展望未來
營運會中斷,安全事件也會出現。Splunk 的功能可以幫助您在不確定性中茁壯成長。Splunk Cloud Platform 對於幫助我們的客戶從安全、基礎架構和應用程式的角度提高整個生態系統的穩定性非常重要。在 Splunk,我們將 Splunk Cloud Platform 的可用性和復原力作為自身 NOC 的基礎。Splunk 致力於幫助客戶提供業務復原力並降低未來風險。我們的 Splunk DNA 推動我們進行創新,使我們的服務成為一種穩定、可靠的服務,使客戶能夠快速調查和解決問題。 
 

作者


Garth Fort
Garth Fort 是 Splunk 資深副總裁兼產品總監。Garth 擁有超過 25 年的產品管理經驗,負責發展 Splunk 市場領先的軟體和雲端服務產品組合。他非常熱衷於推動既定類別和新興類別的產品路線,同時成功地指導軟體團隊實現快速成長並擁抱雲端。在加入 Splunk 之前,Garth 曾擔任 Amazon Web Services (AWS) 總經理,領導客戶、獨立軟體廠商和通路合作夥伴推動創新。他並歷任過 Microsoft 20 多年的多個領導職務,並主管 Microsoft 雲端和企業部門的全球生態系統戰略和執行,包括 Microsoft Azure、Windows Server、SQL Server 以及適用於開發人員和 IT 專業人員的多種產品組合。他擁有北卡羅來納大學教堂山分校的文學學士學位。


 

返回上一頁