Skip to main content

AWS公布跨雲端資料遷移架構,以rclone worker叢集將PB級資料搬移至Amazon S3

Posted in 業界新聞
新聞

AWS指出,當企業需要在不同雲端服務供應商之間搬移PB等級資料時,傳統單機或集中式資料傳輸方式,往往會遇到進度難以掌握、失敗後重啟流程繁瑣,以及需要頻繁人工介入等問題。若還需在遷移過程中加入自訂標籤或其他商業邏輯,也會拉長遷移時間,並增加資料漂移風險與成本。

這套跨雲端資料遷移架構主要分為探索層(Discovery Layer)、佇列層(Queueing Layer)與執行層(Execution Layer)。探索層以Amazon ECS搭配AWS Fargate執行,自動列舉來源儲存系統中的物件,並將檔案以每20個為一組而建立批次作業,再交由Amazon SQS佇列分派給後續worker處理。

在執行層,SQS會將每個批次作為獨立工作,分配給EC2上的rclone worker。AWS在這套架構中使用r5n.xlarge執行個體建立Auto Scaling群組,並根據SQS佇列中的待處理工作量,自動擴展或縮減worker規模。每臺執行個體可同時執行6個rclone處理程序,以提高網路頻寬利用率。

AWS表示,這套設計可透過SQS的可見性逾時(visibility timeout)與死信佇列(dead-letter queue)機制,讓暫時失敗的工作自動重新排入佇列處理;若工作兩次嘗試後仍失敗,則會送入死信佇列,方便後續追查,藉此減少人工介入與維運負擔。同時,透過CloudWatch Logs與自訂指標,也能追蹤檔案傳輸進度、失敗批次與傳輸時間等遷移情況。

在實際測試中,AWS以容量為2.7 PB的媒體歸檔資料集,從IBM Cloud Object Storage遷移至S3,整體worker叢集達到15~120 Gbps聚合吞吐量,Auto Scaling群組約在10分鐘內擴展至5臺EC2執行個體,整體遷移約兩週完成,運算成本約2,000美元。

AWS指出,由於架構採用相容S3 API的設計,因此除了IBM Cloud Object Storage,也可套用到Google Cloud Storage與Azure Blob Storage等服務。使用者只需調整端點設定,以及AWS Secrets Manager中的來源端憑證,不必重新部署整體架構。

此外,AWS也解釋,之所以選擇rclone,而非直接使用AWS SDK,主要原因在於rclone可提供跨S3相容儲存服務的統一命令列介面,避免為不同雲端供應商各自撰寫專屬SDK程式碼,降低多雲遷移時的程式開發與維護複雜度。

View original 0 Likes 0 Boosts

Comments (0)

No comments yet.