Snowflake推資料互通架構,鎖定AI應用資料孤島與語意不一致問題
Snowflake表示,過去資料湖倉(Data Lakehouse)架構雖試圖提供單一且可治理的資料副本,並支援多種運算引擎存取,但實務上仍受限於專有技術綁定。即使開源資料表格式Apache Iceberg(由Netflix發起、現為Apache基金會專案),具備版本控管與ACID交易一致性(ACID Transactions,確保資料寫入維持完整與一致)等能力,並支援多引擎共享資料,已逐步成為資料互通基礎,但僅靠格式開放,仍難滿足企業在導入AI應用時,對資料、治理與語意一致性的需求。
因此,Snowflake將重點放在跨層互通架構,目標是在不改變既有治理機制與語意脈絡的前提下,讓使用者可針對單一邏輯資料副本,在不同平臺與運算引擎上操作,建立資料主導權(agency over data)。
在資料層面強化Iceberg v3支援,提升跨引擎存取能力

在資料層面,Snowflake持續以Apache Iceberg為核心,並規畫支援Apache Iceberg v3。該版本擴展資料互通能力,支援半結構化資料與變更資料擷取(Change Data Capture,CDC)等應用。
Iceberg v3新增多項功能,使資料可被更多運算引擎直接存取。例如VARIANT型別可儲存半結構化資料並維持處理效能;列級資料血緣(Row-level Data Lineage)可追蹤資料在不同引擎間的變更歷程;刪除向量(deletion vectors)則提供列級刪除機制,並減少因刪除資料而產生的額外管理負擔。此外,也支援奈秒級時間戳記與地理空間資料型別,以因應高頻資料處理需求。
發展pg_lake專案,將交易型資料庫PostgreSQL整合至資料湖倉架構
除分析型資料外,企業關鍵資料仍大量存在於交易型資料庫。為此,Snowflake開發並開源pg_lake,讓PostgreSQL可直接整合至資料湖倉架構。

pg_lake可就地查詢資料湖中的欄式儲存格式Parquet(Apache Parquet)與CSV檔案。Parquet透過欄式壓縮與編碼設計,可降低儲存空間並提升查詢效能,是資料湖環境常見格式。此外,pg_lake亦支援以PostgreSQL原生管理Apache Iceberg資料表,使交易型與分析型資料能在同一架構中運作,降低資料搬移需求。
以Apache Polaris與OSI強化資料治理與語意一致性
在資料治理層面,Snowflake推動開源專案Apache Polaris,透過政策交換(Policy Exchange)、治理聯邦(Governance Federation)與讀取限制API,讓資料存取控制可隨資料移動並跨引擎執行。
Snowflake表示,此設計可讓細粒度存取控制(Fine-Grained Access Control,FGAC)在不同平臺維持一致,同時降低資料實體化帶來的額外運算負擔。
在語意層面,Snowflake提出開放語意交換標準(Open Semantic Interchange,OSI),用於描述指標、維度與資料關聯,讓語意資訊可跨平臺共享。

Snowflake指出,當商業邏輯存在於封閉系統中時,AI代理在處理資料時,往往需要重新推測資料語意。OSI提供一套廠商中立標準,使語意資訊可在不同平臺間流通,目前已在Apache 2授權下釋出,並由包括Salesforce、Databricks與dbt Labs等超過35家業者參與。
Comments (0)