AWS Bedrock, Google Vertex AI, Gemini, 그리고 Anthropic용 하나의 AI 게이트웨이

Bifrost은 AWS Bedrock과 Google Vertex AI를 함께 Gemini와 Anthropic을 통해 OpenAI 호환 API를 통해 공유 인증, 장애 조치 및 통제를 통해 라우팅합니다.

기업 AI 팀이 한 제공업체에서 단일 모델만 운영하는 것은 드물다. 대부분의 회사의 생산 스택은 다음과 같은 모습을 띠는 경향이 있다: Claude는 AWS Bedrock에서 특정 작업 유형에 사용되고, Gemini는 Google Vertex AI에서 다른 작업 유형에 사용되며, 프롬프트 캐싱과 같은 기능에는 원생 Anthropic API를 사용하고, 저 지연 시간 소비자 경로를 직접적으로 Google Gemini API가 제공한다. 각 제공업체는 자신만의 프로토콜을 사용하고, 자신만의 인증 방식을 요구하며, 자신만의 SDK를 배포한다. Bifrost는 이 모든 것을 OpenAI 호환성 엔드포인트로 축소하여 AWS Bedrock와 Google Vertex AI, Google Gemini와 Anthropic을 프런트 엔드로 내부화하며, 이중화, 부하 분산, 통제 기능이 게이트웨이 자체에 구축되어 있다.

Bifrost는 Maxim AI에서 구축한 오픈 소스 AI 게이트웨이로, 5,000개의 요청당 11마이크로초의 추가 오버헤드만으로도 초당 5,000개의 요청을 처리하며, 하나의 API를 통해 20개 이상의 LLM 공급자와 연결됩니다. 이 가이드는 팀들이 Bedrock, Vertex, Gemini, 그리고 Anthropic을 Bifrost 뒤에 두는 이유를 설명하며, 각 공급자의 구성을 안내하고, Bifrost의 라우팅 레이어가 다중 공급자 작업 부하를 신뢰성 있게 유지하는 방법을 보여줍니다. 전체 오버헤드 프로파일은 Bifrost의에서 의 성능 테스트를 게시했습니다

왜 Claude와 Gemini는 여러 클라우드를 사용하게 될까요

Anthropic는 Claude를 AWS Bedrock을 통해, Google Vertex AI을 통해, 그리고 자신의 네이티브 API를 통해 배포합니다. Google은 Vertex AI와 직접 Gemini API에서 Gemini를 제공합니다 기업들이 여러 이용 가능한 표면 중에서 종종 세 가지 이유로 끝을 맺는다. 이는 구매, 지연 시간, 능력과 관련이 있으며,

AWS Bedrock은 이미 AWS 계약을 가진 팀, AWS Organizations를 통해 접근을 통제하고, AWS 지역과 연결된 데이터 거주 지도를 가진 팀에 매우 잘 맞습니다.
Google Vertex AI는 이미 Google Cloud에서 작동 중인 조직이나 Gemini, Claude, 그리고 제3자 모델을 함께 포함하는 하나의 제어 평면을 원하는 팀에서 자주 우세합니다.
자연스러운 Anthropic API는 프롬프트 캐싱과 최신 베타 헤더와 같은 기능을 제공하며, 이는 출시 후 몇 주 또는 몇 달이 지나도 Bedrock과 Vertex에 도달하지 않을 수 있습니다.
젬니니 API는 젬니니 모델로 가장 짧은 직접적인 경로를 제공하며, 프로토타이핑 중 유용한 넉넉한 무료 계층이 함께 제공됩니다.

작업이 프로토타입에서 생산량으로 졸업한 후, 팀은 거의 항상 이러한 표면의 하나 이상에 의존합니다. 각각이 자신의 네이티브 SDK를 통해 운영될 때 정말 고통이 나타납니다.

단독으로 네 개의 공급자를 관리하는 비용은 어떤지

중간 게이트웨이가 없으면 각 공급자는 자신만의 종속성과 코드 경로를 끌어들입니다:

정렬되지 않는 SDK:boto3Bedrock용 Google Cloud SDK for Vertex를 위한google-genaiGemini용으로, 그리고 직접 API 접근을 위한 Anthropic SDK.
다른 인증 모델IAM 자격 증명 및 SigV4 서명을 위한 Bedrock, OAuth2 서비스 계정을 위한 Vertex, Gemini용 API 키, 그리고 Anthropic용 bearer 토큰.
다른 요청 형태Bedrock의 Converse API는 Anthropic의 Messages API와 일치하지 않으며, 두 가지도 Vertex의 generateContent 엔드포인트와 일치하지 않습니다.
공통의 장애 조치 이야기가 없습니다 : Bedrock의 Claude 엔드포인트가 제한을 초과하면, 당신의 코드는 백업으로 Anthropic의 직접 API로 전환하는 방법을 알아야 합니다.
분산된 사용 데이터 : 각 제공업체는 비용과 소비를 별도로 보고하므로, 팀 간이나 최종 고객 간 비용 배분이 복잡해집니다.

OpenAI, Anthropic, Google Vertex AI, 그리고 AWS Bedrock에 걸쳐 퍼져나간 신뢰할 수 있는 생산 AI 시스템은 직접 API 호출과 수동으로 만든 재시도 논리에 의해 유지될 수 없습니다. 정확히 이 문제를 해결하는 것이 Bifrost가 만들어지기 위한 목적입니다.

Bifrost의 Bedrock, Vertex, Gemini, 그리고 Anthropic를 통합하는 접근 방식

Bifrost은 애플리케이션 레이어와 이 네 가지 제공자 사이에 위치하며, OpenAI 호환 가능한 엔드포인트 하나를 노출시킵니다. 애플리케이션 코드는 Bifrost을 호출하고, Bifrost은 프로토콜 변환, 인증, 그리고 상류 제공자로의 라우팅을 처리합니다. 이것은 테이플 인스턴스 교체 모델입니다: 기존의 OpenAI, Anthropic, Bedrock, 또는 Google SDK의 기본 URL을 변경하고 나머지 코드는 계속 작동합니다.

스왑을 통해 얻는 것:

네 개의 공급자와 16개 이상의 추가 공급자를 모두 포함하는 단일 엔드포인트.
키, 지역, 프로젝트 및 IAM 역할에 대한 단일 구성 표면.
호출을 처리한 공급자에 관계없이 하나의 OpenAI 서버 전송 이벤트 스트림 형식.
모델 이름, 가상 키 또는 무게에 따라 요청을 대상으로 하는 내장 라우팅 규칙.
모든 상류 공급자 간에 관찰 가능성, 통치 및 제약 조건을 공유합니다.

공급자 대상 설정은 provider/model 구문을 사용합니다.bedrock/anthropic.claude-3-5-sonnet-20241022-v2:0는 Bedrock에서 Claude에 도달합니다.vertex/gemini-2.5-flash는 Vertex에서 Gemini에 도달합니다.gemini/gemini-2.5-pro는 직접 Gemini API를 호출합니다.anthropic/claude-sonnet-4-20250514는 원시 Anthropic API를 터치합니다.

Bifrost 내에서 각 공급자를 설정합니다

제공자는 Bifrost 웹 UI, API, config.json 파일, 또는 Go SDK를 통해 구성할 수 있습니다. 아래의 코드 조각들은 구성 형태를 보여줍니다; 전체 내용은 문서에 기재되어 있습니다.

AWS Bedrock

Bifrost 내부의 AWS Bedrock 제공자는 정적 IAM 자격 증명, EKS의 IRSA, EC2 인스턴스 프로파일을 수용합니다.AWS_ACCESS_KEY_ID 환경 변수 스타일을 지원합니다. 또한 외부 ID와 세션 이름을 가진 가정된 IAM 역할을 포함하며, 이는 계정 간 Bedrock 액세스에 사용되는 표준 패턴과 일치합니다.

{
  "providers": {
    "bedrock": {
      "keys": [{
        "models": ["*"],
        "weight": 1.0,
        "aliases": {
          "claude-3-5-sonnet": "us.anthropic.claude-3-5-sonnet-20241022-v2:0"
        },
        "bedrock_key_config": {
          "region": "us-east-1",
          "role_arn": "env.AWS_ROLE_ARN",
          "external_id": "env.AWS_EXTERNAL_ID"
        }
      }]
    }
  }
}

접근 키와 비밀 키를 비우면 Bifrost가 AWS 기본 자격 증명 체인으로 되돌아가도록 합니다. 이는 IRSA, ECS 작업 역할, EC2 인스턴스 프로파일, 환경 변수, 공유 자격 증명 파일 순서대로 진행됩니다.

Google Vertex AI

Bifrost의 Google Vertex AI 공급자는 Google Cloud를 통해 Gemini, Claude, 그리고 제3자 모델에 도달합니다. 모델 가족 (Gemini 대비 Anthropic)은 자동으로 감지되고 올바른 요청 변환이 적용됩니다. Vertex에서는 세 가지 인증 경로를 지원합니다: 서비스 계정 JSON, Application Default Credentials (GKE Workload Identity에 대한 권장 경로), 그리고 Gemini만 사용되는 경우에 대한 API 키.

{
  "providers": {
    "vertex": {
      "keys": [{
        "models": ["*"],
        "weight": 1.0,
        "vertex_key_config": {
          "project_id": "env.VERTEX_PROJECT_ID",
          "region": "us-central1",
          "auth_credentials": "env.VERTEX_CREDENTIALS"
        }
      }]
    }
  }
}

OAuth2 토큰 캐싱과 리프레시는 Bifrost 내에서 자동으로 이루어집니다. Vertex의 Claude에 대해서는 anthropic_version 헤더가 vertex-2023-10-16로 설정되고, 요청이 전달되기 전에 지원되지 않는 베타 헤더는 제거됩니다.

Google Gemini

The Gemini provider는 Google AI Studio에서 간단한 API 키로 인증합니다. 프로젝트, 지역, Vertex의 IAM 기계가 작업에 필요한 것보다 많을 때 이 경로를 사용하세요.

{
  "providers": {
    "gemini": {
      "keys": [{
        "value": "env.GEMINI_API_KEY",
        "models": ["gemini-2.5-flash", "gemini-2.5-pro"],
        "weight": 1.0
      }]
    }
  }
}

Gemini의 네이티브 스트리밍 형식은 Bifrost에 의해 클라이언트가 이미 기대하는 표준 OpenAI 서버 전송 이벤트 모양으로 변환됩니다. 따라서 동일한 요청 본문이 실행됩니다bedrock/...도 gemini/...에 대해서도 실행되며, 클라이언트 변경이 없습니다.

Anthropic

Anthropic 제공자는 Anthropic의 네이티브 API를 직접 호출합니다. 작업이 프롬프트 캐싱, 베타 헤더, 또는 Bedrock이나 Vertex로 아직 확산되지 않은 Claude 기능이 필요할 때 이 인터페이스를 사용하세요.

{
  "providers": {
    "anthropic": {
      "keys": [{
        "value": "env.ANTHROPIC_API_KEY",
        "models": ["claude-sonnet-4-20250514", "claude-opus-4-20250514"],
        "weight": 1.0
      }]
    }
  }
}

모든 네 가지 공급자가 설정되면, OpenAI 호환 요청은 모델 필드를 변경하여 그중 어느 것을 대상으로 할 수 있습니다. 애플리케이션 코드는 변경되지 않습니다.

교차 공급자 라우팅, 장애 조치, 부하 분산

Bedrock, Vertex, Gemini, 그리고 Anthropic 모두 Bifrost 뒤에 있을 때, 그들을 신뢰성과 비용 전략으로 연결할 수 있습니다. 그렇지 않다면 맞춤 코드가 필요한 전략을 만들 수 있습니다:

자동 장애 전환: Bifrost의 재시도와 대체는 주요 및 대체 체인을 선언할 수 있게 해줍니다. Bedrock의 Claude 엔드포인트가 429 또는 5xx 오류를 던지기 시작하면, Bifrost는 Vertex에서 실행 중인 Claude로 호출을 전달하고, 그런 다음 Anthropic 자체 API로 전달할 수 있습니다. 모든 애플리케이션 측 개입 없이 이 모든 작업이 수행됩니다.
가중 로드 밸런싱 : Bifrost의 키와 로드 밸런싱 제공자 간 무게에 따라 교통량을 분할합니다. 예를 들어, 단계별 이전 중 Claude 교통량의 70%는 Bedrock에 도달할 수 있으며 남은 30%는 Vertex로 갑니다.
비용 관련 라우팅 : 저렴한 비용이나 지연 시간에 민감한 요청은 Gemini로 전송할 수 있으며, 높은 위험을 감수하는 추론 호출은 Claude에 남아 있습니다.
지역 관련 라우팅 : 유럽 교통량은 Vertex에 고정될 수 있습니다eu-west1는, 미국에서의 트래픽이 us-east-1에서 Bedrock으로 라우팅되는 동안 애플리케이션 코드에 변화는 없습니다.

라우팅 결정은 게이트웨이에서 이루어지기 때문에, 애플리케이션 팀은 자체적으로 공급자의 가용성이나 실패 모드를 고려할 필요가 없습니다.

다공체 작업 부하: 통치 및 관찰 가능성

Bedrock, Vertex, Gemini, 그리고 Anthropic를 하나의 게이트웨이 뒤에 두면 운영 표면도 단일 제어 평면으로 접어들게 됩니다. Bifrost은:

가상 키, 예산, 그리고 요청 제한을 제공합니다: 팀별 또는 고객별 가상 키를 전용 지출 한도와 요청 제한과 함께 발급할 수 있으며, 어떤 업스트림 공급자가 요청을 처리하든 관계없습니다. Bifrost의 지배 능력는 가상 키, RBAC, 감사 로그, 그리고 세분화된 빈도 제한을 커버합니다.
통합 관찰 가능성: 네이티브 Prometheus와 OpenTelemetry 에ксп로터는 요청 수준 메트릭, 분산 추적, 비용 데이터를 모든 제공자에 게시합니다.
가드레일는 AWS Bedrock Guardrails, Azure Content Safety 또는 Patronus AI를 통해 적용되는 콘텐츠 안전 정책이 모든 상류 제공자에 대해 일관되게 적용됩니다.
감사 로그는 제공자, 모델, 지연 시간, 토큰 및 비용을 포함한 모든 요청의 불변적인 흔적이며, SOC 2, GDPR, HIPAA 및 ISO 27001 준수 보고를 지원합니다.

Bifrost for AWS Bedrock을 실행하는 팀을 위해 자신의 VPC 내부에 있으므로 이 트래픽은 결코 고객의 AWS 계정을 벗어나지 않습니다.

Bifrost에서 Bedrock, Vertex, Gemini, 그리고 Anthropic로 시작하세요

Bedrock, Vertex, Gemini, 및 Anthropic를 Bifrost으로 통합하면 네 개의 SDK, 네 개의 인증 방식, 네 개의 독립적인 오류 처리 레이어가 하나의 OpenAI 호환 엔드포인트로 통합됩니다. 프로토콜 변환, OAuth2 및 IAM 자격 증명 처리, 스트림 정규화 및 라우팅은 모두 게이트웨이 내에서 이루어지므로 애플리케이션 팀은 하나의 API에 대해 배포할 수 있으며 플랫폼 팀은 비용과 통제에 대해 전체적인 통제를 유지할 수 있습니다.

Bifrost가 여러 제공자 AI 스택에 대해 무엇을 할 수 있는지 보시려면, 팀과 데모를 예약해 주세요

추천 피드

DEV Community