AWS公布跨雲端資料遷移架構，以rclone worker叢集將PB級資料搬移至Amazon S3

新聞

AWS指出，當企業需要在不同雲端服務供應商之間搬移PB等級資料時，傳統單機或集中式資料傳輸方式，往往會遇到進度難以掌握、失敗後重啟流程繁瑣，以及需要頻繁人工介入等問題。若還需在遷移過程中加入自訂標籤或其他商業邏輯，也會拉長遷移時間，並增加資料漂移風險與成本。

這套跨雲端資料遷移架構主要分為探索層（Discovery Layer）、佇列層（Queueing Layer）與執行層（Execution Layer）。探索層以Amazon ECS搭配AWS Fargate執行，自動列舉來源儲存系統中的物件，並將檔案以每20個為一組而建立批次作業，再交由Amazon SQS佇列分派給後續worker處理。

在執行層，SQS會將每個批次作為獨立工作，分配給EC2上的rclone worker。AWS在這套架構中使用r5n.xlarge執行個體建立Auto Scaling群組，並根據SQS佇列中的待處理工作量，自動擴展或縮減worker規模。每臺執行個體可同時執行6個rclone處理程序，以提高網路頻寬利用率。

AWS表示，這套設計可透過SQS的可見性逾時（visibility timeout）與死信佇列（dead-letter queue）機制，讓暫時失敗的工作自動重新排入佇列處理；若工作兩次嘗試後仍失敗，則會送入死信佇列，方便後續追查，藉此減少人工介入與維運負擔。同時，透過CloudWatch Logs與自訂指標，也能追蹤檔案傳輸進度、失敗批次與傳輸時間等遷移情況。

在實際測試中，AWS以容量為2.7 PB的媒體歸檔資料集，從IBM Cloud Object Storage遷移至S3，整體worker叢集達到15～120 Gbps聚合吞吐量，Auto Scaling群組約在10分鐘內擴展至5臺EC2執行個體，整體遷移約兩週完成，運算成本約2,000美元。

AWS指出，由於架構採用相容S3 API的設計，因此除了IBM Cloud Object Storage，也可套用到Google Cloud Storage與Azure Blob Storage等服務。使用者只需調整端點設定，以及AWS Secrets Manager中的來源端憑證，不必重新部署整體架構。

此外，AWS也解釋，之所以選擇rclone，而非直接使用AWS SDK，主要原因在於rclone可提供跨S3相容儲存服務的統一命令列介面，避免為不同雲端供應商各自撰寫專屬SDK程式碼，降低多雲遷移時的程式開發與維護複雜度。

AWS公布跨雲端資料遷移架構，以rclone worker叢集將PB級資料搬移至Amazon S3

Comments (0)