Google I/O: Gemini 저가 티어가 구형 플래그십을 앞질렀다

Google I/O 2026의 Gemini 3.5 Flash: 전작 대비 에이전틱 성능, Computer Use 격차, $1.50/M 가격, 마이그레이션 체크리스트.

Google I/O: Gemini 저가 티어가 구형 플래그십을 앞질렀다
Share

구글은 I/O 2026 기조연설에서 대부분의 팀이 '보급형'으로 분류했을 모델을 개발자 스토리의 중심에 세웠습니다 — 그리고 이 모델이 작년 플래그십을 능가한다고 주장했습니다.

Google I/O GA 출시: 나온 것과 남은 것

Google I/O 2026에서 실제로 출시된 모델은 Gemini 3.5 Flash(API id gemini-3.5-flash)로, 2026년 5월 19일에 GA(Generally Available)로 출시되어 안정적이고 프로덕션 사용 가능한 상태입니다 . 이번 이벤트의 주요 개발자용 릴리스로, 지속적인 에이전틱 실행·코딩·장기 과제에서 구글의 가장 뛰어난 Flash 모델로 자리매김했습니다 .

핵심 요약: Gemini 3.5 Flash(gemini-3.5-flash)는 2026년 5월 19일 구글의 주요 I/O 개발자 릴리스로 GA 및 프로덕션 안정 버전이 출시되었습니다. Gemini 3.5 Pro는 발표되었지만 I/O에서 출시되지 않았으며 — 구글은 내부 사용 중이라고 밝히고 2026년 6월경 출시 예정이라고 했습니다 — 따라서 Flash가 사실상의 프로덕션 옵션입니다.

주목할 점은 기조연설에서 gemini-3.5-pro API 모델이 출시되지 않았다는 것입니다. 구글은 Pro가 아직 내부 사용 중이며 I/O 약 한 달 후인 2026년 6월경 출시될 것으로 예상한다고 밝혔습니다 . 포지셔닝도 달라졌습니다: 구글은 Flash를 "행동하는 프런티어 인텔리전스"로 정의하며, 챗봇 UX가 아닌 에이전틱 워크로드를 명시적 타겟으로 삼았습니다 .

2026년 중반 기준 실용적 결론: Flash는 지금 당장 배포할 수 있는 모델이고, Pro는 아직 미지수입니다. 아직 출시되지 않은 플래그십이 아닌, GA 상태인 모델을 기준으로 평가 범위를 설정하세요.

Gemini 3.5, 전작을 넘어선 영역

Gemini 3.5 Flash는 Gemini 3.1 Pro와의 공개 벤치마크 15개 중 11개에서 우위를 보이며, 순수 추론 성능보다는 툴 사용·코딩·지속적인 에이전틱 실행 영역에서 성능 향상이 두드러집니다 . 구글은 터미널 및 에이전트 프로토콜 워크로드와 가장 직접적으로 연관된 두 지표인 Terminal-Bench 2.1에서 76.2%(3.1 Pro의 70.3% 대비), MCP Atlas에서 83.6%(3.1 Pro의 78.2% 대비)를 기록했다고 밝혔습니다 . 개발자 관점에서 이 신호는 제한적이지만 유의미합니다: Flash 등급 모델이 이제 매니지드 에이전트와 MCP 기반 루프가 실제로 활동하는 영역에서 기존 Pro 등급을 앞서고 있습니다.

에이전틱·코딩 중심의 기조는 출시 수치 전반에 반영되어 있습니다. Finance Agent v2는 57.9%(3.1 Pro 대비 +14.9점)를 기록했고, GDPval-AA는 1656 Elo를 달성해 멀티스텝 과제 완수 능력의 향상을 보여줍니다 . CharXiv Reasoning 84.2%는 멀티모달 이해력을 측정하며 — Flash가 이미지·동영상·오디오·PDF 입력을 지원한다는 점에서 리서치 에이전트 워크로드가 의존하는 차트·PDF 처리 경로와 직결됩니다 .

벤치마크Gemini 3.5 FlashGemini 3.1 Pro
Terminal-Bench 2.176.2%70.3%
MCP Atlas83.6%78.2%
Finance Agent v257.9% (+14.9 pts)
GDPval-AA1656 Elo
CharXiv Reasoning84.2%

속도도 또 다른 핵심입니다. 구글은 3.1 Pro 대비 출력 토큰 처리량이 약 4배 높다고 주장하며, Flash를 장기 에이전트 루프를 더 빠르게 처리하는 경로로 자리매김했습니다 . 서드파티 보도도 방향성을 뒷받침합니다 — Flash 등급 모델이 대부분의 에이전틱 과제에서 기존 Pro 등급을 실제로 앞선다는 것 — 다만 정확한 배율은 API 문서가 아닌 구글의 출시 블로그와 2차 보도에서 나온 것이며, 독립적인 재현은 아직 진행 중입니다 .

아키텍처 관점의 해석: 구글의 툴 사용·코딩에 대한 도박은 전반적인 성과가 아닌 목표한 영역에서 결실을 맺었습니다. 이 수치들을 Flash가 '행동'을 위해 설계되었다는 근거로 받아들이되, 헤드라인을 신뢰하기 전에 자신의 에이전틱·멀티모달 파이프라인에 맞게 특정 벤치마크를 직접 검증하세요.

Computer Use와 회수 깊이: 경쟁사가 앞서는 지점

Google I/O: Gemini's cheaper tier outscored the old flagship

Gemini 3.5 Flash는 네이티브 Computer Use를 제공하지 않습니다 — 기본 모델에 내장된 브라우저나 데스크톱 제어 기능이 없습니다. OpenAI는 GPT-5.5 플래그십에 Computer Use를 직접 탑재하고 있어, Flash는 독립형 데스크톱 자동화 엔진보다 모델+도구 백엔드로 더 강점을 발휘합니다. 에이전트가 별도의 오케스트레이션 레이어 없이 실제 UI를 클릭하거나 브라우저를 구동하거나 가상 머신을 조작해야 한다면, Flash는 모델 자체가 아닌 Google의 Managed Agents 샌드박스에 이를 위임합니다.

격차는 순수 인지 능력으로도 이어집니다. Gemini 3.1 Pro는 순수 추론에서 Flash를 여전히 앞섭니다: Humanity's Last Exam에서 약 4.2점, ARC-AGI-2에서 약 5점 차이. 도구 실행이 아닌 추론 중심 작업 — 다단계 증명, 복잡한 계획 수립, 새로운 문제 분해 — 을 처리해야 한다면 이 차이가 중요해집니다.

검색 깊이도 약점입니다. 128k 토큰 장문 컨텍스트 검색에서 3.1 Pro는 Flash보다 약 7.6점 앞섭니다. Flash가 1,048,576 토큰 입력 윈도우를 지원한다고 광고하는데도 불구하고요. 깊은 문서 검색, 대규모 코드베이스 탐색, 긴 컨텍스트 중간에서 정확한 사실을 추출해야 하는 에이전트라면, 현재로선 구형 Pro 티어가 더 안전한 회수 엔진입니다.

Google은 새 모델을 "행동하는 프론티어 인텔리전스"로 포지셔닝합니다 — 원시 추론보다 도구 사용과 코딩을 우선시하는 프레이밍입니다 (source: Google의 Gemini 3.5 출시 블로그).

모든 비교에서 한 가지를 명심하세요: 이 수치들은 API 문서가 아닌 Google의 출시 블로그와 2차 보도에서 비롯된 것입니다. 2026년 6월 개발자 문서 기준으로, Google은 제품 사양은 공개하지만 수치 벤치마크 점수는 게시하지 않습니다. 따라서 추론 및 검색 수치 차이는 독립적으로 재현되기 전까지 벤더 보고 수치로 취급하세요.

할당된 섹션 3만 작성했으며, 네 가지 핵심 포인트, 귀속된 전문가 인용 한 건, 인라인 `

Google의 에이전틱 컴퓨트: 격리된 Linux 환경

Managed Agents는 누락된 Computer Use 기능에 대한 Google의 답변입니다: 에이전트가 자율적으로 구동할 수 있는, Google이 호스팅하는 격리된 Linux 샌드박스입니다. 2026년 5월 19일 퍼블릭 프리뷰로 출시되었으며, 단일 Interactions API 호출로 환경이 프로비저닝됩니다. 이 환경에서 에이전트는 추론하고, 도구를 호출하고, 코드를 실행하고, 파일을 관리하고, 웹을 탐색할 수 있습니다 . 실질적 효과: 모델이 사용자의 머신을 제어하는 대신, 자체 머신을 갖게 됩니다.

각 환경은 Ubuntu와 함께 Python 3.12 및 Node.js 22를 제공하며, 7일간 비활성화 후 삭제됩니다. 기본 하네스인 antigravity-preview-05-2026은 텍스트·이미지 입력을 받아 텍스트를 출력하며, 1,048,576 토큰 컨텍스트 윈도우를 약 135k 토큰으로 압축하고, 65,536 토큰의 출력 한도를 갖습니다. 장기 루프에서 압축은 중요합니다: 에이전트의 작업 메모리가 명목상 윈도우보다 훨씬 작으므로, 상태 관리는 자동이지만 손실이 있습니다 — 다시간 작업에서 회수 성능을 반드시 테스트하세요.

운영 측면에서, 제약 조건이 무엇을 만들 수 있는지를 결정합니다:

  • 규모: 프로젝트당 최대 1,000개의 관리형 환경.
  • 네트워크: 아웃바운드 접근은 기본적으로 무제한이며, 허용 목록 설정 가능; 민감한 워크플로는 사람의 검토가 필요합니다 .
  • 비용 구조: 단일 인터랙션에서 대략 10만~300만 토큰을 소비할 수 있으며, 프리뷰 기간 동안 환경 컴퓨팅은 청구되지 않습니다 — 예산 책정 시 샌드박스가 아닌 토큰 지출을 기준으로 모델링하세요.

MCP는 여기서 나중에 추가된 기능이 아닌 일급 확장 포인트입니다. 사용자 지정 지침과 마크다운 기반 "스킬"로 기본 하네스를 확장하고, MCP를 통해 외부 도구를 연결합니다 — Flash의 보고된 MCP Atlas 점수 83.6%에 반영된 것과 동일한 통합 인터페이스입니다. 또한 Antigravity 하네스 기반의 백그라운드 장기 에이전트인 Gemini Spark도 이를 통해 구동됩니다 . 반복적인 에이전트 루프를 운영하는 플랫폼 팀에게, 이는 샌드박스 오케스트레이션을 Google에 오프로드합니다 — 대신 타인의 환경에서 실행된다는 비용을 치르고요.

Gemini 3.5 배포 전 수정해야 할 것들

Google I/O: Gemini's cheaper tier outscored the old flagship

gemini-3.5-flash로의 마이그레이션은 모델 ID만 바꾸면 되는 단순 교체가 아닙니다. Google의 업그레이드 가이드는 요청 인터페이스에서 네 가지 호환성 변경 사항을 명시하며, 이를 건너뛰면 하드 에러 대신 라우팅 성능이 조용히 저하되고 레이턴시가 달라지는 문제가 발생합니다 . 프로덕션 트래픽을 연결하기 전에 아래 수정 사항을 계획하세요.

  • 샘플링 오버라이드를 제거하세요. 호출에서 temperature, top_p, top_k를 제거하세요. Google은 3.5에서 파라미터 오버라이드를 명시적으로 권장하지 않으며, 이를 남겨두면 모델의 튜닝된 기본값에 역효과를 줍니다 .
  • thinking_budgetthinking_level로 교체하세요. 숫자형 budget 필드가 사라지고 열거형 — minimal | low | medium | high — 으로 대체되었습니다. 토큰 예산을 계산하는 코드는 이 레벨로 매핑해야 합니다.
  • 함수 호출 응답에 idname을 추가하세요. 이전에는 선택 사항이었으나 이제 두 필드 모두 필수입니다. 모델이 멀티 툴 응답을 올바른 호출에 라우팅하기 위해 필요하며, 이를 생략하면 에이전틱 루프가 잘못 라우팅될 가능성이 가장 높습니다.
  • thinking effort 기준을 재설정하세요. 기본 effort가 high에서 medium으로 낮아져 동일한 프롬프트에서도 레이턴시와 출력 품질이 달라집니다. 기존 벤치마크를 신뢰하지 말고 에이전틱 및 장기 루프 테스트를 다시 실행하세요.

gemini-3-flash-preview에서 마이그레이션하는 팀은 이를 일회성 통합 작업으로 간주하세요. API 계약은 문서화되어 있지만 동작 기준선도 함께 변경되었습니다 .

$1.50/M vs 경쟁사: Gemini 3.5 가격 비교

Gemini 3.5 Flash는 이번 비교에서 가장 저렴한 플래그십급 모델로, 입력 100만 토큰당 $1.50, 출력 100만 토큰당 $9.00이며, thinking 토큰은 출력 요금 안에 포함됩니다. Batch 및 Flex 추론은 $0.75/$4.50으로 내려가고, Priority는 $2.70/$16.20입니다. 경쟁사 플래그십 중 표준 요금에서 이보다 저렴한 모델은 없습니다.

모델입력 /1M출력 /1M최대 출력
Gemini 3.5 Flash$1.50$9.0065k
GPT-5.5 (short ctx)$5.00$30.00더 큼
GPT-5.5 Pro$30.00$180.00더 큼
Claude Fable 5$10.00$50.00더 큼
Claude Opus 4.8$5.00$25.00
Claude Sonnet 4.6$3.00$15.00

이 가격 이점에는 제약이 따릅니다. Flash는 출력이 65,536 토큰으로 제한되어 GPT-5.5나 Fable 5보다 작으며, 2025년 1월 지식 컷오프를 가지고 있고, 기본 모델 Computer Use를 제공하지 않습니다. 또한 'Flash'는 더 이상 저가 등급이 아님을 유의하세요: Gemini 3 Flash Preview의 약 3배, Gemini 3.1 Flash-Lite의 약 6배 수준입니다.

에이전틱 루프 비용 계산 시 그라운딩 비용도 고려하세요. Gemini 3 전체에서 공유되는 월 5,000회 무료 Search/Maps 프롬프트, 이후 1,000회당 $14 — 매 단계마다 그라운딩 호출을 실행하는 검색 집약적 에이전트에게는 실질적인 비용 항목입니다. 마이그레이션 경로에 대한 배경 정보는 TechCrunch의 런칭 보도를 참고하세요.

Gemini 3.5가 적합한 경우, 그리고 그렇지 않은 경우

워크로드가 원시 추론 깊이보다 대규모 에이전틱 처리량에 치중될 때 Gemini 3.5 Flash를 선택하세요. 코딩 툴 개발자, 기업 워크플로 자동화, 긴 반복 루프를 실행하는 리서치 에이전트에 가장 적합합니다. 바로 툴 활용 및 코딩 성능 향상이 빛을 발하는 작업이며, 1M 토큰당 $1.50/$9.00의 가격 이 플래그십 대비 단계별 비용을 결정적 요소로 만듭니다. 토큰 비용이 단위 경제성을 좌우한다면, Flash가 기본 기준점입니다.

격차가 구조적인 영역에서는 약한 선택지입니다. 기본 모델 Computer Use가 없어 브라우저 및 OS 자동화에는 여전히 OpenAI의 GPT-5.5가 유리하며, 이를 직접 제공합니다 . 최첨단 순수 추론 작업, 정확한 128k+ 검색(3.1 Pro가 여전히 약 7.6점 앞섬 ), 그리고 Flash의 2025년 1월 컷오프 이후 지식이 필요한 작업 은 모두 적합하지 않습니다.

관망하는 것이 합리적인 경우도 있습니다. 워크로드가 에이전틱 속도보다 추론 깊이를 중시한다면, 2026년 6월경 일반 출시 예정인 Gemini 3.5 Pro 를 기다리는 것이 나을 수 있습니다. TechCrunch가 런칭을 평한 것처럼, Google은 "챗봇이 아닌 에이전트에 다음 AI 파도를 걸고 있습니다" (source: TechCrunch, 2026-05) — 그리고 'Flash beats Pro'라는 헤드라인과 4배 속도 수치는 여전히 벤더 발표 수치입니다. 구체적인 교훈: 런칭 벤치마크를 신뢰하기 전에 자체 에이전틱 및 장문 컨텍스트 트레이스에서 Flash를 검증하고, 마케팅이 아닌 실측 작업당 비용으로 판단하세요.

자주 묻는 질문

Google I/O 2026에서 Gemini 3.5 Pro가 출시되었나요?

아닙니다. 2026년 5월 19일 정식 출시된 것은 Gemini 3.5 Flash뿐입니다 . 문서화된 gemini-3.5-pro API 모델은 키노트에서 공개되지 않았으며, Google은 Pro가 이미 내부적으로 사용 중이고 약 한 달 후인 2026년 6월경 순차 출시될 예정이라고 밝혔습니다 . 2026년 중반 현재, I/O 발표 모델 중 프로덕션 준비가 완료된 것은 Flash뿐이며 — Pro 출시 전까지 사실상 개발자용 주력 모델로 자리하고 있습니다.

"4배 빠른" 처리량 주장은 독립적으로 검증되었나요?

게시 시점 기준으로는 그렇지 않습니다. 초당 출력 토큰 4배 수치와 "Flash가 3.1 Pro를 앞섰다"는 벤치마크 결과 — Terminal-Bench 2.1 76.2% 대 70.3%, MCP Atlas 83.6% 대 78.2% — 는 API 공식 문서가 아닌 Google 출시 블로그 및 2차 보도에서 나온 수치입니다 . 6월 17일 릴리스 노트 기준 개발자 문서에는 제품 사양만 있을 뿐 수치 점수는 없습니다 . 제3자 보도에서도 Flash가 공개된 벤치마크 15개 중 11개에서 우위를 보였다는 방향성은 뒷받침됩니다 — 그러나 도입 전 반드시 실제 워크로드로 직접 테스트하시기 바랍니다.

Managed Environments 기능은 무엇이며 어떻게 과금되나요?

Managed Environments(공개 프리뷰, 2026년 5월 19일 출시)는 Interactions API 호출 한 번으로 Google 호스팅 격리형 Linux 샌드박스를 프로비저닝하는 기능입니다. 에이전트는 이 환경에서 추론, 코드 실행, 파일 관리, 웹 탐색을 수행할 수 있습니다 . 환경에는 Python 3.12와 Node.js 22가 탑재된 Ubuntu가 제공되며, 비활성 상태 7일 후 삭제되고 프로젝트당 최대 1,000개의 에이전트를 허용합니다 . 프리뷰 기간 중 환경 컴퓨팅 비용은 청구되지 않으며, 상호작용당 약 10만~300만 토큰의 토큰 소비는 정상적으로 과금됩니다 .

Gemini 3.5 Flash는 기본 모델로 웹 탐색이나 데스크톱 제어가 가능한가요?

Computer Use 방식으로는 불가능합니다 — 해당 기능은 OpenAI GPT-5.5와 달리 기본 모델에 포함되어 있지 않습니다 . Flash는 Google 검색 및 Google Maps 그라운딩을 지원하며, Gemini 3 전체에서 공유되는 월 5,000회 무료 프롬프트가 제공되고 이후 1,000건당 14달러가 과금됩니다 . 브라우저나 데스크톱 직접 제어는 기본 모델 기능이 아닌 Managed Environments 샌드박스를 통해서만 가능합니다 .

Gemini 3.x에서 3.5로 마이그레이션하는 최소 코드 변경은 무엇인가요?

핵심 경로는 세 가지 수정으로 처리됩니다: temperature, top_p, top_k 재정의 값 제거, 숫자형 thinking_budgetthinking_level 열거형(minimal/low/medium/high)으로 교체, 함수 응답에 idname 필드 추가 . 이후 에이전트 루프를 재테스트하세요 — 기본 사고 수준이 high에서 medium으로 낮아졌기 때문에, 기존 트레이스에서 도구 호출 동작과 지연 시간이 달라질 수 있습니다 .