無懼網站故障,十分鐘恢復備份作業

發布日期:2023/08/24

常在河邊走,哪有不濕鞋?身為系統管理員,最不願意看到但也最無法避免的可能就是四個字——網站故障。
從網站故障中恢復通常需要大量手動且繁瑣的操作,當然,還有代價高昂的停機成本。時間就是金錢,潛在網站故障就像緊箍咒一般,為 IT 帶來無形的壓力......

NetBackup Flex Scale 包含自動化功能,可以快速輕鬆地恢復系統,確保資料保護作業正常運行,RTO 通常不到10分鐘。管理員只需進入並按一下一下,即可啟動網站容錯移轉(更改複製角色)。所有必需的任務都是自動化的,包括:
♚ 在輔助網站上啟動管理(主)服務
♚ 自動更新網路,無需手動執行網路基礎設施更改
♚ 反轉中繼資料(目錄)的複製
♚ 有選擇地更改備份策略以寫入線上網站
♚ 啟動備份和恢復作業

當一個網站發生故障時,Flex Scale 會維護一份需要複製的資料目錄。當發生故障的網站重新上線時,系統將自動啟動複製以使兩個網站恢復同步。
接下來,讓我們更詳細地瞭解其工作原理。

初始配置

首先,使用兩個 NetBackup Flex Scale 集群,然後使用 Web UI 或 API 調用,只需提供配置詳細資訊即可。

然後,自動化流程接管配置操作,包括:
♚ 在網站之間建立信任關係
♚ 擴展主網站的域以包含災難恢復網站的集群
♚ 添加網站間心跳監控
♚ 在主服務線上的系統和災難恢復網站之間添加中繼資料(目錄)的非同步複製。視網站之間的網路頻寬而定,RPO 可能接近於零。
♚ 添加預設儲存生命週期策略(SLP),以使用 NetBackup 優化複製技術在網站之間複本備份資料
♚ 可以選擇將兩個管理服務配置為使用共用虛擬 IP(一次只有一個服務處於活動狀態)

建議在災難恢復設置完成後在一個網站或兩個網站上啟用 WORM 儲存。

現在,你已擁有一個完整的 Active-Active 雙網站單 NetBackup 域配置。

配置節省空間的策略

接下來,備份管理員可以添加策略來保護資料,並可選擇存儲備份的位置、是否在網站之間複本備份,以及在每個網站存儲備份的時間。配置為在網站之間複製的任何資料都將使用 NetBackup 優化複製來實現。此過程使用重復資料刪除技術,僅將唯一的塊發送到第二網站,有效節省了成本,確保快速資料複製以及災難恢復網站上網路和存儲的高效使用。

故障檢測和恢復

集群持續監控網站之間的心跳,如果丟失則發送警報。然後,管理員驗證該事件,如果他們確定這是意外中斷,則只需在 Web UI 中按一下或 API 調用,即可從 DR 網站發起接管操作。

此操作會自動將域配置為使用剩餘網站上的管理(主)服務,使其管理服務容器連線並反轉中繼資料(目錄)非同步複製的方向。

注意:還可以選擇在計畫的遷移操作中顛倒主網站和輔助網站的角色。

為了加快恢復速度並減少手動操作,此過程還包括兩個選項:
♚ 首先,如果在沒有虛擬 IP 的情況下設置 DR,自動化過程還可以更新主要服務的 DNS 記錄。
♚ 其次,管理員可以選中該核取方塊以自動臨時更改備份策略和服務生命週期策略(SLP),以將備份資料的第一個副本從兩個網站寫入其餘網站的存儲。如果發生故障的

網站將長時間關閉,並且希望保留兩個網站的 RTO,則建議這樣做。該方法支援兩個網站上的應用程式繼續進行備份和恢復作業。

一旦發生故障的網站重新連線,NetBackup Flex Scale 將自動:
♚ 檢測並重新連接集群,使其主要服務保持離線狀態
♚ 恢復目錄複寫和備份資料複製
♚ 將策略和 SLP 轉換回其之前的配置
♚ 網站重新上線時已啟動的任何作業都將使用臨時備份位置完成,任何新作業將自動使用原始備份存儲。

管理員可以使用 UI 查看複製狀態以及複製佇列中的資料量。

簡化升級

除了防範網站範圍的災難之外,當用戶啟動升級時,NetBackup Flex Scale 還會自動並行地對兩個網站進行升級,從而確保災難恢復環境保持同步。

小結:

NetBackup Flex Scale 支持跨兩個網站的單一 Active-Active 災難恢復解決方案。 如果故障發生在網站覆蓋範圍之內,其內置的自動化功能可以讓 IT 輕鬆地重新運行備份和恢復作業,這一過程通常只需不到10分鐘。

 

 

資料來源:VERITAS 華睿泰合作夥伴生態

返回上一頁