Skip to main content

紅帽OpenShift AI 3.4強化模型即服務,納入AI推論閘道與token配額控管

Posted in 業界新聞
新聞

企業開源解決方案供應商紅帽(Red Hat)近日說明企業AI平臺OpenShift AI 3.4的模型即服務(Models-as-a-Service,MaaS)能力,能夠將AI模型作為內部可共用資源,透過API端點提供給不同團隊使用,減少各團隊自行架設與管理模型所形成的分散治理問題。

在OpenShift AI 3.4中,MaaS已列為可用於正式環境的企業功能,並內建AI推論閘道(AI inference gateway),企業不需要額外導入閘道工具,也不必另外管理一套生命週期,可減少模型服務上線後的部署與維運複雜度。這項能力由用於連接、控管與管理應用流量的Red Hat Connectivity Link核心技術堆疊支援,涵蓋政策管理、token配額、速率限制與API金鑰自助服務,並建立在代理伺服器Envoy、API政策管理專案Kuadrant,以及開源服務網格Istio等開放原始碼技術之上。

紅帽表示,管理者可透過Kubernetes原生的自定資源定義(Custom Resource Definition,CRD),設定各團隊的速率限制與token用量,降低預算超支的風險。開發者則可自行產生API金鑰,並限定在特定subscription(訂閱)資源範圍內使用。OpenShift AI會透過subscription綁定存取權限與用量規則,API金鑰可在建立時完成綁定,也能即時撤銷。

部分功能目前仍處於技術預覽階段,包括整合於OpenShift AI儀表板中的showback功能,可呈現內部成本與用量歸屬,並依模型與subscription群組追蹤token消耗量;企業身分驗證方面,OpenShift AI可透過開源授權服務Authorino控管使用者存取模型服務的權限,並支援採用OpenID Connect身分驗證標準的登入機制,可串接微軟企業身分服務Microsoft Azure AD、身分管理服務Okta,以及開源身分管理系統Keycloak。

此外,OpenShift AI 3.4也提供技術預覽階段的外部模型路由能力,可透過相容OpenAI Chat Completions API的/v1/chat/completions端點,將請求導向不同模型來源,包括透過大型語言模型推論框架vLLM執行的本機代管模型,或AWS代管式基礎模型服務Amazon Bedrock、Microsoft Azure OpenAI,以及AI模型業者Anthropic等外部模型服務。

對於已在企業內部使用API閘道或第三方代理工具管理AI流量的組織,紅帽表示,企業不必替換既有API閘道或代理工具,仍可將這些工具作為前端流量入口,把模型請求導向OpenShift AI代管的模型端點。該公司也發布第三方AI代理工具LiteLLM與AI閘道服務Portkey AI Gateway兩項參考整合案例,說明第三方代理工具如何連接OpenShift AI代管模型端點,並搭配LlamaStack等框架處理代理式工作流程,以及依團隊管理成本歸屬。

https://www.redhat.com/en/blog/scaling-enterprise-ai-delivering-models-service-openshift-ai-34 www.redhat.com
View original 0 Likes 0 Boosts

Comments (0)

No comments yet.