Snowflake推資料互通架構，鎖定AI應用資料孤島與語意不一致問題

新聞

Snowflake表示，過去資料湖倉（Data Lakehouse）架構雖試圖提供單一且可治理的資料副本，並支援多種運算引擎存取，但實務上仍受限於專有技術綁定。即使開源資料表格式Apache Iceberg（由Netflix發起、現為Apache基金會專案），具備版本控管與ACID交易一致性（ACID Transactions，確保資料寫入維持完整與一致）等能力，並支援多引擎共享資料，已逐步成為資料互通基礎，但僅靠格式開放，仍難滿足企業在導入AI應用時，對資料、治理與語意一致性的需求。

因此，Snowflake將重點放在跨層互通架構，目標是在不改變既有治理機制與語意脈絡的前提下，讓使用者可針對單一邏輯資料副本，在不同平臺與運算引擎上操作，建立資料主導權（agency over data）。

在資料層面強化Iceberg v3支援，提升跨引擎存取能力

在資料層面，Snowflake持續以Apache Iceberg為核心，並規畫支援Apache Iceberg v3。該版本擴展資料互通能力，支援半結構化資料與變更資料擷取（Change Data Capture，CDC）等應用。

Iceberg v3新增多項功能，使資料可被更多運算引擎直接存取。例如VARIANT型別可儲存半結構化資料並維持處理效能；列級資料血緣（Row-level Data Lineage）可追蹤資料在不同引擎間的變更歷程；刪除向量（deletion vectors）則提供列級刪除機制，並減少因刪除資料而產生的額外管理負擔。此外，也支援奈秒級時間戳記與地理空間資料型別，以因應高頻資料處理需求。

發展pg_lake專案，將交易型資料庫PostgreSQL整合至資料湖倉架構

除分析型資料外，企業關鍵資料仍大量存在於交易型資料庫。為此，Snowflake開發並開源pg_lake，讓PostgreSQL可直接整合至資料湖倉架構。

pg_lake可就地查詢資料湖中的欄式儲存格式Parquet（Apache Parquet）與CSV檔案。Parquet透過欄式壓縮與編碼設計，可降低儲存空間並提升查詢效能，是資料湖環境常見格式。此外，pg_lake亦支援以PostgreSQL原生管理Apache Iceberg資料表，使交易型與分析型資料能在同一架構中運作，降低資料搬移需求。

以Apache Polaris與OSI強化資料治理與語意一致性

在資料治理層面，Snowflake推動開源專案Apache Polaris，透過政策交換（Policy Exchange）、治理聯邦（Governance Federation）與讀取限制API，讓資料存取控制可隨資料移動並跨引擎執行。

Snowflake表示，此設計可讓細粒度存取控制（Fine-Grained Access Control，FGAC）在不同平臺維持一致，同時降低資料實體化帶來的額外運算負擔。

在語意層面，Snowflake提出開放語意交換標準（Open Semantic Interchange，OSI），用於描述指標、維度與資料關聯，讓語意資訊可跨平臺共享。

Snowflake指出，當商業邏輯存在於封閉系統中時，AI代理在處理資料時，往往需要重新推測資料語意。OSI提供一套廠商中立標準，使語意資訊可在不同平臺間流通，目前已在Apache 2授權下釋出，並由包括Salesforce、Databricks與dbt Labs等超過35家業者參與。

Snowflake推資料互通架構，鎖定AI應用資料孤島與語意不一致問題

Comments (0)