發布日期:2023/12/04
若要在雲端原生環境中找出問題的根本原因,工程師就必須在龐大且複雜的分散式系統中穿梭。往往,您並沒有撰寫程式碼的經驗,也缺乏相關背景和內容,無法快速了解問題發生時發生了什麼事。當問題被回報後,風險甚至更大——這意味著問題已經開始影響業務,高層管理人員和客戶會開始感到不滿。
在先前的文章中,我們介紹了如何視覺化您的服務並新增全域標籤以加速故障排除。在這篇文章中,我們會把所有的要點整合在一起,指導您如何使用 Splunk Observability Cloud 主動偵測並優先處理對業務產生影響的事件,以加快初步分析並縮短修復時間。
從警示啟動故障排除作業
假設您是電子商務平台的網站可靠性工程師 (SRE)。您的業務是季節性的,由於年底快到了,您知道即將會湧入為了過節而購物的大量流量。雖然您已經為暴增的流量預作準備,但不巧的是,您收到通知說結帳服務回應速度很慢。這對業務是不利的。這種情況可能導致顧客轉向到競爭對手、損失營收,也可能損害您的信譽。

(如需更高解析度的圖片,請瀏覽此連結)
利用 Splunk Observability Cloud 的即時警示功能,您將能在幾秒內收到有關此一問題的警示,以便立即開始修復問題。您會在警示視窗中看到有關問題如何發生的大量內容,讓調查工作變得更加容易。接著,請選擇「故障排除」以切換至 Splunk Application Performance Monitoring 的動態服務地圖檢視。
(如需更高解析度的圖片,請瀏覽此連結)
即使您將您的龐大產品目錄服務轉移到微服務架構中,這個檢視也可以幫助您輕鬆地找出線上商店向舊的目錄服務發出的呼叫。這個服務地圖能非常容易地共用跨團隊的資料,因為它是以色彩編碼的共同資料檢視,並不是個別的指標儀表板。此外,由於 Splunk APM 的服務地圖會完整保留所有資料和細節的追蹤,因此您可以按比例精確地找出整個交易中的問題。您可以輕鬆地與開發人員分享結帳時有問題的下游服務的詳細資訊,以聚焦並縮短花費在戰情室中的時間。
業務背景可幫助優先排序
該服務地圖還融入了業務工作流程,因此您可以更仔細地查看您收到警示的「API 結帳」業務工作流程,以獲得更多深入資訊。您可以設定業務工作流程 (Business Workflow) 規則,將邏輯相關的追蹤按服務或全域標籤進行分組。從服務地圖中,您可以選擇「Overview」以切換至 APM 頁面。藉此,您能夠觀看已經根據活動警示篩選的業務工作流程。此時,您會看到購物車服務在這個檢視中也被標記為關鍵服務。

(如需更高解析度的圖片,請瀏覽此連結)
從畫面點擊這個關鍵警示,可以切換到服務地圖,以便繼續進行調查。
紅色標示的位置

(如需更高解析度的圖片,請瀏覽此連結)
您可以立即注意到服務地圖中支付服務上有鮮明的紅點,因為 Splunk APM 會進行根本原因的顏色編碼。這就是您想要調查的地方!為了進一步分析這個問題,請點擊支付服務。當您點擊支付服務時,可以看到該服務的所有紅色指標,您可以透過選擇「Tag Spotlight」進一步探索。對於每個服務而言,標記重點會提供在導覽功能表的指定時間範圍內,每個索引範圍標籤中每個值的請求、錯誤和持續時間 (RED) 指標的時間序列圖。在此處,我們將重點放在支付服務。您會看到請求和錯誤的數量都很高,明確表明存在需要立即解決的問題。
Splunk Observability Cloud 的另一個強大功能是它能標記出根本原因的錯誤。若要找到根本原因,您可以選擇「Traces」,以便進一步探索支付服務的追蹤。此時,您能看到與工作流程相關的所有追蹤。幸運的是,使用 Splunk 之後,您可以輕鬆地隔離應用程式問題,而無需在另一個環境中重現它。而且由於不進行採樣處理,所有追蹤都會被保留下來。

(如需更高解析度的圖片,請瀏覽此連結)
藉由選擇持續時間最長的追蹤,您會注意到有 12 個錯誤與 6 個根本原因錯誤有關。這將進一步幫助您隔離根本原因,在排除微服務的故障時尤其重要。Splunk 在服務地圖中使用的直覺色彩編碼也沿用在 Tag Spotlight 中。此時,請求和錯誤圖會用較深的紅色來區分根本原因錯誤和總錯誤,以進一步直接分類。

(如需更高解析度的圖片,請瀏覽此連結)
找到了!您在大海中找到針了!有了這些細節之後,您確定問題的根本原因是一個無效的請求。您可以和開發人員分享追蹤的詳細資訊,讓他們在相關內容中查看該服務的日誌,以進一步進行根本原因分析。您的任務完成了!
克服複雜環境中的故障排除
感謝您一直陪伴我們了解 Splunk Observability Cloud 如何讓您在複雜的雲端原生環境中迅速找到故障點。您已經了解如何視覺化您的服務、新增全域標籤以加快故障排除,以及調查報告的問題以找出根本原因。
Splunk 將團隊和資料整合在一起,可幫助您在任何環境中隔離問題,在業務擴展的同時減少您在戰情室中的時間。請探索我們的產品文件以更深入地了解我們介紹過的一些功能,並立即開始試用吧!
________________________________________
作者
Deepti Bhutani
Deepti Bhutani 是一位經驗豐富的全方位數位專業人士,她遵循自己的熱情,與企業 (執行長和高階主管) 和技術 (技術長、專案經理、架構師等) 等對象合作,展示了可觀測性的真正威力。她充分利用自己豐富的業界經驗,與客戶合作踏上可觀測性的旅程。她擅於進行技術證明和設計符合客戶要求的複雜軟體解決方案。