Z.ai가 2026-06-16에 GLM-5.2를 출시했습니다. 개발자라면 귀에 익을 두 가지 핵심 특징을 내세웁니다: 실사용 가능한 백만 토큰 컨텍스트 창과 모델의 추론 깊이를 조절하는 단일 다이얼입니다. 벤치마크 수치는 인상적이지만, 벤더가 직접 보고한 수치인 만큼 직접 검증하기 전까지는 참고 자료 정도로 보시기 바랍니다.
GLM-5.2 한눈에: 100만 토큰 컨텍스트와 추론 깊이 조절
GLM-5.2는 Z.ai의 코딩 특화 플래그십 모델로, 2026-06-16에 MIT 라이선스로 출시된 753B 파라미터 Mixture-of-Experts 모델입니다 . 실무에서 중요한 두 가지 변화는 100만 토큰 컨텍스트 창(GLM-5.1의 약 20만 토큰 대비 약 5배)과, 응답 전 모델의 추론 깊이를 제어하는 새로운 reasoning_effort 파라미터입니다 .
출력은 최대 128K 토큰(131,072)으로 제한되며, glm-5.2 모델 ID의 기본 max_tokens 값은 65,536입니다 . reasoning_effort 다이얼은 max, xhigh, high, medium, low, minimal, none의 7가지 값을 받지만, 실질적으로는 High와 Max 두 단계로 압축됩니다. none/minimal은 추론을 건너뛰고, low/medium은 High에, xhigh/max는 Max에 대응합니다 . 기본값은 max이며, Z.ai에 따르면 높은 effort 설정은 지연 시간과 토큰 사용량을 실질적으로 높이므로 이 다이얼은 형식적인 옵션이 아닌 실질적인 비용 조절 수단입니다 . 오픈 웨이트는 HuggingFace에 BF16/F32(zai-org/GLM-5.2)와 FP8 변형(zai-org/GLM-5.2-FP8) 형태로 공개되어 있습니다 .
성능 지표를 보면, Z.ai 자체 발표 기준으로 SWE-bench Pro 62.1, FrontierSWE 74.4, Terminal Bench 2.1(Terminus-2) 81.0을 기록했습니다 . 주목할 점: 이 수치는 모두 자체 보고입니다. the-decoder의 보도에서는 FrontierSWE 74.4가 Claude Opus 4.8의 75.4에 근소하게 뒤처지는 것으로 소개했지만, 이 역시 동일한 벤더 자료를 인용한 것으로 독립적인 재현 결과가 아닙니다 . 현시점에서 솔직하게 평가하자면, GLM-5.2는 오픈 웨이트를 유지하면서도 코딩 분야에서 클로즈드 소스 선두 모델과의 격차를 좁히는 위치에 있으며, 74.4라는 수치는 Z.ai 자체 테스트 환경 기준임을 감안해야 합니다.
가입 후 선택: 종량제 또는 코딩 플랜

Z.ai는 두 가지 결제 방식을 제공하며, 선택 기준은 원시 API로 직접 스크립팅하는지, 아니면 GLM-5.2를 IDE 에이전트에 연결하는지에 따라 달라집니다. 일반 API의 종량제(PAYG)는 입력 토큰 100만 개당 $1.40, 출력 토큰 100만 개당 $4.40로 GLM-5.1과 동일한 요금이며, 한시적 혜택으로 캐시된 입력 토큰은 현재 무료입니다 . 일반 엔드포인트는 https://api.z.ai/api/paas/v4/입니다.
GLM 코딩 플랜은 또 다른 선택지입니다. 월 $18부터 시작하며 GLM-5.2, GLM-5-Turbo, GLM-4.7을 포함합니다 . 특히 OpenAI 호환 엔드포인트(https://api.z.ai/api/coding/paas/v4/)와 Anthropic 호환 엔드포인트(https://api.z.ai/api/anthropic)를 모두 제공하므로, 기존 Claude Code 워크플로에 GLM-5.2를 바로 연결할 수 있습니다 .
SDK 설정 방법: 공식 Python 클라이언트는 pip install zai-sdk==0.2.3으로 설치하거나, base_url='https://api.z.ai/api/paas/v4/'를 설정해 OpenAI Python SDK를 재사용할 수 있습니다. Java 개발자는 ai.z.openapi:zai-sdk:0.3.5를 사용합니다 .
경험칙: IDE 에이전트를 GLM-5.2에 연결할 때는 코딩 플랜을 선택하세요. 플랜 혜택은 공식 지원 통합 환경에서만 적용되며, 미지원 SDK나 서드파티 시나리오에서는 적용되지 않을 수 있습니다 . 직접 요청을 제어하는 원시 스크립팅이나 일회성 평가에는 종량제(PAYG)를 선택하세요.
GLM-5.2 드롭인: 설정에서 정확히 교체하는 방법

기존 에이전트에 GLM-5.2를 적용하는 건 코드 재작성이 아니라 설정 파일 수정으로 끝납니다. Z.ai는 https://api.z.ai/api/anthropic에서 Anthropic 호환 엔드포인트를, https://api.z.ai/api/coding/paas/v4에서 OpenAI 호환 엔드포인트를 제공하므로, Claude Code·Cline 같은 클라이언트는 모델 ID와 베이스 URL만 바꾸면 GLM-5.2를 가리킬 수 있습니다 .
Claude Code라면 ~/.claude/settings.json을 열어 ANTHROPIC_DEFAULT_SONNET_MODEL과 ANTHROPIC_DEFAULT_OPUS_MODEL을 모두 glm-5.2[1m]으로 설정하고, CLAUDE_CODE_AUTO_COMPACT_WINDOW=1000000을 추가해 에이전트가 1M 한도에 도달하기 전에 컴팩팅을 멈추도록 합니다 .
{
"env": {
"ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5.2[1m]",
"ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.2[1m]",
"CLAUDE_CODE_AUTO_COMPACT_WINDOW": "1000000"
}
}/status를 실행해 모델이 활성화됐는지 확인하세요. 노력 수준 라우팅은 GLM의 두 가지 사고 단계에 매핑됩니다: /effort low|medium|high는 GLM High로, /effort xhigh|max|ultracode는 GLM Max로 연결됩니다 . Z.ai는 이 트레이드오프를 명확히 밝힙니다:
"복잡하고 단계가 많은 코딩 작업에는 Max 노력 수준을 권장하지만, 높은 노력 수준은 지연 시간과 토큰 사용량을 증가시킵니다." — Z.ai, GLM-5.2 릴리스 노트 (source: DataCamp).
Cline 등 OpenAI 호환 클라이언트를 사용하는 경우, 베이스 URL을 https://api.z.ai/api/coding/paas/v4/로, 모델을 glm-5.2로 설정한 프로바이더를 추가하고, 이미지 지원은 체크 해제한 채 컨텍스트 윈도우 필드를 1000000으로 입력합니다 .
API를 직접 호출한다면, thinking을 활성화한 상태로 /chat/completions에 POST 요청을 보내고 응답을 스트리밍합니다:
{
"model": "glm-5.2",
"thinking": {"type": "enabled"},
"reasoning_effort": "max",
"temperature": 1.0,
"stream": true,
"messages": [{"role": "user", "content": "Refactor this module."}]
}delta.reasoning_content와 delta.content는 별도의 스트림으로 파싱하세요 — 추론 토큰이 답변보다 먼저 도착합니다. 함수 호출 스트리밍 시에는 tool_stream=true도 설정하고, 호출이 완료될 때까지 delta.tool_calls[*].function.arguments를 이어붙입니다 .
GLM-5.2의 주의점: 쿼터 계산과 미지원 경로

Coding Plan에서 GLM-5.2를 사용할 때의 함정은 단가가 아니라 쿼터 소모입니다. Z.ai는 피크 타임 배율을 적용합니다: UTC+8 기준 14:00–18:00에는 쿼터를 3배 소모하고, 비피크 시간대는 2배이며, 2026년 9월까지 한시적으로 비피크 1배 프로모션이 진행 중입니다 . 오후 피크 시간대를 피해 장기 에이전트 작업을 스케줄하면 사실상 처리량을 세 배로 늘릴 수 있습니다.
워크플로를 시작하기 전에 계산을 먼저 해보세요. Pro 티어는 5시간 창 내에 약 400개 프롬프트를 허용하지만, 에이전틱 루프에서는 프롬프트 하나가 모델을 15~20회 호출할 수 있고, 3배 피크 배율을 적용하면 실제로 쓸 수 있는 프롬프트는 창당 약 135개로 줄어듭니다 . 매번 최대 컨텍스트를 쓴다면 이 한도는 금방 바닥납니다.
따라서 glm-5.2[1m]은 기본값이 아닌 의식적인 선택으로 다루세요. Z.ai는 이 모델을 선택하면 비용과 지연이 추가로 발생하며, 실제로 1M 컨텍스트가 필요한 작업에만 권장한다고 명시합니다. 일상적인 단일 파일 편집에는 표준 glm-5.2가 더 저렴하고 빠릅니다 .
"Coding Plan 혜택은 공식 지원 도구에 한정되며, 미지원 SDK나 서드파티 시나리오에서는 제한될 수 있습니다." — Z.ai 문서 (source: MarkTechPost).
현실적인 위험: GLM-5.2를 미지원 클라이언트로 라우팅하면 요청이 플랜 쿼터 대신 종량제 요금 — 입력 1M 토큰당 $1.40, 출력 1M 토큰당 $4.40 — 으로 조용히 전환될 수 있습니다 . 청구를 예측 가능하게 유지하려면 공식 지원 통합만 사용하세요.
확장 컨텍스트로 시도할 작업들
100만 토큰 윈도우는 단일 프롬프트에 담을 수 있는 범위를 바꿉니다. GLM-5.1의 약 20만 토큰 한계에서 GLM-5.2가 약 5배 확장되면서 , 이전에는 반복적으로 청크를 나눠야 했던 전체 프로젝트 단위 읽기가 가능해졌습니다. 직접 실행해볼 만한 구체적인 작업 네 가지:
- 크로스-레포 분석: 대용량 코드베이스 여러 개를 하나의 프롬프트에 넣고, GLM-5.2에게 그 전반에 걸친 호출 경로나 공유 계약을 추적하도록 요청합니다 — 수동 분할 없이.
- 대규모 리팩토링: 모노레포 전체를 전달하고 구조적인 마이그레이션을 요청합니다. 전체 패스에 걸쳐 멀티 파일 의존성 추적을 위해
reasoning_effort를 Max로 설정하세요 . - MCP 오케스트레이션: Z.ai가 MCP-Atlas 공개 셋 점수 76.8을 보고했습니다 . 프로덕션 플로우에 연결하기 전에 자체 MCP 태스크 스위트를 직접 실행해 검증하세요.
단, 모든 사항에 공통으로 적용되는 주의사항이 하나 있습니다. 코딩 벤치마크는 벤더가 자체 보고한 수치입니다. SWE-bench Pro 62.1과 FrontierSWE 74.4 는 출시 시점에 독립적인 제3자 검증이 이루어지지 않았습니다. 핵심은 이렇습니다. 추가 컨텍스트는 믿을 결과가 아닌, 검증해야 할 역량으로 취급하세요 — 출시 전에 자체 태스크의 대표 샘플을 직접 실행하는 것이 적합성을 판단하는 진짜 척도입니다.
자주 묻는 질문
GLM-5.2의 FrontierSWE 74.4는 독립적으로 검증된 수치인가요?
아닙니다. 2026-06-16 출시 기준으로, FrontierSWE 74.4 수치는 벤더 보고 전용입니다. GLM-5.2를 Claude Opus 4.8(75.4) 바로 뒤에 배치한 The-decoder의 보도 도 별도 재현 결과가 아닌 동일한 소스 테이블을 인용한 것입니다. 독립적인 리더보드 등재는 출시 이후 예정되어 있습니다. 그때까지는 프로덕션 플로우를 확정하기 전에 자체 코드베이스에서 태스크 대표 하네스를 직접 실행해 검증하세요.
표준 API와 Coding Plan 엔드포인트의 차이는 무엇인가요?
요금 청구와 라우팅이 별도입니다. 표준 종량제 API는 https://api.z.ai/api/paas/v4/를 사용하며, 입력 100만 토큰당 $1.40, 출력 100만 토큰당 $4.40 요금이 적용됩니다. GLM Coding Plan은 월 $18부터 시작하며, OpenAI 호환 /api/coding/paas/v4 엔드포인트와 Claude Code 워크플로우를 위한 Anthropic 호환 /api/anthropic 경로를 추가로 제공합니다 . 플랜 혜택(할당량 및 요금)은 공식 지원 통합을 통해서만 적용되며, 임의의 서드파티 SDK 호출에는 적용되지 않습니다.
glm-5.2 대신 glm-5.2[1m]을 언제 사용해야 하나요?
약 20만 토큰을 넘는 컨텍스트가 실제로 필요한 경우에만 glm-5.2[1m]을 사용하세요 — 크로스-레포 읽기, 전체 모노레포 패스, 또는 대용량 문서 분석이 해당됩니다. [1m] 접미사는 100만 토큰 변형을 활성화하며 추가 비용과 지연이 발생합니다. 일상적인 편집 작업 대부분에는 일반 glm-5.2가 더 저렴하고 빠른 선택입니다.
GLM-5.2를 로컬에서 실행할 수 있나요?
네, HuggingFace의 MIT 라이선스 가중치로 가능합니다: zai-org/GLM-5.2(BF16/F32, 753B 파라미터)와 FP8 변형 zai-org/GLM-5.2-FP8이 있습니다. 지원 서빙 프레임워크로는 Transformers, vLLM(v0.23.0+), SGLang(v0.5.13.post1+), Docker Model Runner, xLLM, ktransformers가 있습니다. 753B 파라미터 모델을 서빙하려면 상당한 GPU 인프라가 필요합니다.
reasoning_effort는 비용과 속도에 어떤 영향을 미치나요?
선언된 7가지 값은 실질적으로 두 가지 사고 티어로 수렴됩니다: High(low/medium)와 Max(xhigh/max), 그리고 none/minimal은 사고 자체를 건너뜁니다 . 기본값은 max입니다. Z.ai는 복잡한 멀티 스텝 코딩 작업에는 Max 노력 수준을, 빠른 단일 파일 편집에는 낮은 설정을 권장합니다. 노력 수준이 높을수록 지연 시간과 출력 토큰 수가 의미 있게 증가하기 때문입니다 .