MiniMax는 2026-06-01에 M3를 출시했습니다. 헤드라인은 벤치마크가 아니라 — 100만 토큰 컨텍스트 창을 경제적으로 실현 가능하게 만드는 어텐션 메커니즘입니다. 한 가지 주의할 점: 거의 모든 수치가 MiniMax 자체에서 나왔다는 것입니다.
스파스 어텐션과 100만 시퀀스 지원: M3의 핵심 개선 사항
M3의 핵심 변경 사항은 MSA(MiniMax Sparse Attention)로, 완전한 이차 어텐션을 KV 블록 선택 방식으로 대체합니다 — KV 블록을 외부 루프로 사용해 쿼리를 집계하는 "KV outer gather Q" 방식입니다 . MiniMax는 100만 컨텍스트에서 MSA가 토큰당 연산량을 이전 세대 대비 약 1/20로 줄여, 오픈소스 Flash-Sparse-Attention 대비 프리필 9배 이상, 디코딩 15배 이상, 처리량 4배 이상 빠른 속도를 달성한다고 주장합니다 . 이를 통해 M2.7 시대의 204,800토큰 한계 대신 100만 토큰 창을 제공할 수 있게 되었습니다.
벤치마크 수치는 인상적이지만, MiniMax가 자체 인프라에서 비공개 채점 방식으로 측정한 것으로 2026-06-09 현재 독립적으로 재현이 불가능합니다.
| 벤치마크 | M3 (제조사 발표) | 비교 |
|---|---|---|
| SWE-Bench Pro | 59.0% | GPT-5.5, Gemini 3.1 Pro 상회, Opus 4.7 하회 |
| BrowseComp | 83.5 | Opus 4.7의 79.3 대비 |
| Terminal-Bench 2.1 | 66.0% | — |
위의 모든 수치는 MiniMax 출시 게시물을 출처로 합니다 . 기술 전문 언론은 "프런티어" 주장을 미검증 상태로 지적했습니다 . TechTimes가 지적했듯이, 이 방법론은 "내부 MiniMax 인프라에 의존"하므로 제3자가 재현할 때까지는 리더보드 우위를 마케팅으로 간주하세요.
M3 활용 방식을 결정짓는 두 가지 사항이 더 있습니다. M3는 기본적으로 멀티모달입니다 — 텍스트 백본에 비전 어댑터를 붙인 것이 아니라, 약 100조 개의 혼합 토큰으로 텍스트·이미지·비디오·컴퓨터 사용을 함께 학습했습니다 . 파라미터 수와 MoE 구조는 출시 시 공개되지 않았습니다. 그리고 "오픈 웨이트" 표현에도 불구하고, 기술 보고서와 가중치는 출시 약 10일 후 공개 예정이었으나 발표 시점에는 게재되지 않았고 라이선스도 미정입니다 . 현재로서는 M3를 API 전용으로 취급하세요. 실용적 제한 사항이 하나 있습니다: API는 요청당 512K 토큰 최솟값을 보장하지만, 전체 100만 토큰 대역은 Standard 종량제의 경우 초기 접근이 제한됩니다 — 실질적 상한선은 512K로 계획하세요.
요청 작성 전 결정해야 할 사항

첫 번째 호출 전에 세 가지를 결정하세요: 보유한 자격증명 시스템, 해당하는 가격 구간, 오픈 웨이트 없이도 괜찮은지 여부입니다. M3는 혼용 불가한 두 가지 별도 키 시스템을 운영합니다 — platform.minimax.io에서 생성하는 종량제용 Standard API 키와 Token Plan에 연결된 Subscription Key입니다. 잘못된 키 유형으로 요청을 보내면 할당량 오류가 반환됩니다 . 이후 모든 헤더를 결정짓는 사항이므로 먼저 결정하세요.
가격 면에서 Standard는 영구적인 50% 출시 할인이 적용됩니다: 512K 이하 입력 기준, 입력 $0.30/M, 출력 $1.20/M, 프롬프트 캐시 읽기 $0.06/M (정가 $0.60/$2.40/$0.12) . service_tier를 통한 우선 서비스는 약 50% 더 높습니다 — $0.45/$1.80/$0.09 — 스케줄링 우선순위와 안정적인 지연 시간을 제공합니다 .
Token Plan은 개인 및 소규모 팀에 적합합니다: Plus 월 $20, Max 월 $50, Ultra 월 $120이며, 5시간 롤링 및 주간 윈도우 기준 월 M3 할당량은 각각 약 17억, 51억, 98억 토큰입니다 .
오픈 웨이트가 필수 요건이라면, 2026-06-09 현재 아직 공개되지 않았고 라이선스도 미정입니다 — 공개 릴리스가 이루어질 때까지 API 전용 접근으로 계획하세요.
Anthropic 호환 클라이언트로 MiniMax M3 연결하기

가장 빠른 통합 경로는 Anthropic 호환 엔드포인트입니다. SDK를 교체할 필요 없이 URL 수준에서 바로 대체됩니다. ANTHROPIC_BASE_URL=https://api.minimax.io/anthropic으로 설정하고, ANTHROPIC_API_KEY에 키를 입력하세요(앞서 확인한 키 시스템에 따라 종량제 Standard 키 또는 Token Plan Subscription 키 중 하나). 이후 설치된 Anthropic SDK에서 client.messages.create(model='MiniMax-M3', max_tokens=..., messages=[...])를 호출하면 됩니다 .
import anthropic
client = anthropic.Anthropic() # reads ANTHROPIC_API_KEY + ANTHROPIC_BASE_URL
resp = client.messages.create(
model="MiniMax-M3",
max_tokens=1024,
messages=[{"role": "user", "content": "Summarize this repo's build steps."}],
thinking={"type": "disabled"}, # faster direct answers
)
print(resp.content)이 엔드포인트는 스트리밍, 도구 정의, tool_choice, [0,2] 범위의 temperature, [0,1] 범위의 top_p를 지원합니다 . M3는 기본적으로 thinking이 활성화되어 있습니다. 끌 수 없었던 M2.x와 달리, thinking={'type':'disabled'}로 더 빠른 직접 답변을 얻거나 {'type':'adaptive'}로 명시적으로 유지할 수 있습니다 .
OpenAI 도구를 선호한다면 OPENAI_BASE_URL=https://api.minimax.io/v1로 설정하고 chat.completions.create(model='MiniMax-M3', messages=[...])를 호출하세요. 추론 내용을 content에 묻히지 않고 reasoning_content/reasoning_details로 분리하려면 extra_body={'reasoning_split': true}를 추가하면 됩니다 .
편집기 통합(Cursor, Cline, Roo Code, Kilo Code, Claude Code)의 경우, 사용자 지정 기본 URL을 MiniMax 엔드포인트로 지정하고 모델을 MiniMax-M3로 설정하세요. 일부 설정 페이지에 오래된 M2.7 문구가 남아 있을 수 있으니, 저장 후 모델 필드를 반드시 확인하세요 .
멀티모달 요청은 콘텐츠 파트를 직접 추가합니다. image_url은 detail을 low/default/high로 설정하여 최대 10MB의 JPEG/PNG/GIF/WEBP를 허용하며, video_url은 URL 또는 base64로 최대 50MB의 MP4/AVI/MOV/MKV(기본 fps 1, 범위 0.2~5)를 지원하거나, mm_file://file_id를 사용한 Files API를 통해 최대 512MB까지 업로드할 수 있습니다. 전체 요청 본문 한도는 64MB입니다 .
절대 건너뛸 수 없는 메시지 히스토리 규칙

멀티턴 도구 사용 세션에서는 매 턴이 끝난 후 모델의 전체 assistant 콘텐츠 목록(thinking, text, tool_use 블록)을 변경 없이 히스토리에 추가해야 합니다. M3의 추론 연속성은 자신의 이전 thinking 블록을 그대로 읽는 데 달려 있으므로, 저장하는 히스토리는 단순한 대화 기록이 아니라 모델 상태의 일부입니다 .
이것이 중요한 이유는 M3에서 thinking이 기본적으로 활성화되어 있기 때문입니다. 턴 사이에 thinking 블록을 제거하거나 요약하면, 겉보기에는 자연스럽지만 실제로는 조용히 손상된 응답이 생성됩니다—오류조차 발생하지 않습니다. 이는 2026-06-01 출시 이후 보고된 가장 흔한 통합 실수입니다 . 더 빠른 직접 답변이 필요하다면, 사후에 히스토리를 편집하는 대신 thinking {'type':'disabled'}으로 추론을 명시적으로 비활성화하세요.
OpenAI 호환 경로에서도 규칙은 동일합니다. 저장된 히스토리에 tool_calls와 reasoning_details를 포함한 전체 assistant 메시지를 보존해야 합니다. extra_body {'reasoning_split': true} 플래그는 단일 응답에서 thinking을 reasoning_content/reasoning_details로 분리할 뿐이며, 저장할 내용을 수정하라는 신호가 아닌 요청별 포맷 선택입니다 .
또 하나의 조용한 오류에도 주의하세요. 긴 입력을 전송하기 전에 POST /anthropic/v1/messages/count_tokens를 호출하세요. 512K 토큰 한도는 현재 Standard 접근 권한의 하드 제한이며, 세션 중간에 이 한도에 도달하면 우아하게 잘라내지 않고 조용히 실패합니다 .
Hello World에서 자율 장기 세션까지
단일 요청이 깔끔하게 왕복되면, 다음 진짜 질문은 M3가 초 단위가 아닌 시간 단위에서도 버텨내느냐입니다. MiniMax는 신뢰하기 전에 직접 재현해 볼 만한 두 가지 에이전트 실행 사례를 공개했습니다. 하나는 ICLR 2025 수상 논문을 약 12시간 동안 자율적으로 재현한 사례(커밋 18개, 도표 23개)이고, 다른 하나는 24시간 동안 CUDA 커널을 최적화하며 벤치마크 제출 147회, 도구 호출 1,959회를 수행해 Hopper GPU 활용률을 7.6%에서 71.3%로 끌어올려 9.4배 속도 향상을 달성한 사례입니다 . 이를 증거가 아닌 테스트 설계로 받아들이고, 확정하기 전에 직접 장기 평가를 실행해 보세요.
로우코드 하네스로는 MiniMax Code(agent.minimaxi.com에서 다운로드)가 M3용으로 업데이트되었으며, 동시 다단계 워크플로를 위한 "Agent Team" 기능이 추가되었습니다. 이 하네스는 출시 후 오픈소스화될 예정입니다 . 하네스 없이 평가하려면 OpenRouter에서 minimax/minimax-m3로, 또는 Ollama를 통해 로컬에서 실행할 수 있습니다 .
프로덕션 트래픽을 라우팅하기 전에 세 가지를 확인하세요. 실제 할당량 티어에서 지연 시간을 검증하고, 멀티턴 도구 호출 루프를 실행해 히스토리 보존이 제대로 작동하는지 확인하며, M2.7에서 실행했던 항목에 대해 회귀 테스트를 수행하세요—MSA가 프리필 동작을 변경해 엣지 케이스가 드러날 수 있습니다. 핵심 결론: M3는 $0.30/M에 레포 규모의 코딩과 멀티모달 에이전트로서 충분히 신뢰할 만하지만, 벤치마크는 공급업체 자체 보고이므로 자신의 워크로드에서 직접 검증하세요 .
자주 묻는 질문
MiniMax M3는 실제로 오픈소스인가요?
실질적으로는 아직입니다. MiniMax는 M3를 오픈웨이트로 내세우지만, 2026-06-01 출시 시점에 가중치도 기술 보고서도 공개되지 않았습니다 — 둘 다 출시 약 10일 후(6월 중순)에 공개될 예정이었으며, 공식 GitHub 저장소를 크롤링했을 때 릴리즈 없이 사전 출시 README만 표시되었습니다 . 발표 시점에는 정확한 라이선스도 명시되지 않았습니다 . 가중치와 구체적인 라이선스가 공식 공개될 때까지는 M3를 API 전용으로 취급하세요.
MiniMax의 Standard API 키와 Subscription 키는 어떻게 다른가요?
둘은 완전히 별개의 과금 체계이며, 혼용하면 할당량 오류가 발생합니다. Standard Open Platform API 키는 종량제로 청구되며 platform.minimax.io에서 생성합니다. Subscription 키는 Token Plan 할당량(Plus, Max, Ultra)에 연결되어 호출별 과금이 아닌 플랜 크레딧을 소진합니다 . MiniMax는 두 키 체계가 별개임을 명시하며, Token Plan 할당량은 5시간 및 주간 롤링 단위로 초기화됩니다 . 클라이언트 설정을 작성하기 전에 원하는 과금 방식에 맞는 키를 먼저 선택하세요.
멀티턴 도구 호출에서 M3의 추론 상태를 어떻게 유지하나요?
각 턴 이후 전체 어시스턴트 콘텐츠 목록(thinking, text, tool_use 블록)을 수정 없이 메시지 히스토리에 그대로 추가하세요. M3의 추론 연속성은 해당 블록들이 온전히 유지되는 데 달려 있으므로, 턴 사이에 thinking 블록을 제거하거나 요약하거나 삭제해서는 안 됩니다. 그렇게 하면 추론 체인이 조용히 손상됩니다 . OpenAI 호환 경로에서도 동일한 규칙이 적용됩니다. tool_calls와 reasoning_details를 포함한 전체 어시스턴트 메시지를 보존하고, 추론을 reasoning_content로 분리하고 싶다면 extra_body {'reasoning_split': true}를 사용하세요 .
M3는 동영상 입력을 지원하나요? 크기 제한은?
지원합니다. M3는 MP4, AVI, MOV, MKV 형식의 video_url 콘텐츠 파트를 통해 동영상을 받습니다. URL 또는 base64를 통할 경우 제한은 요청당 50 MB, 요청 본문 최대 64 MB이며, 512 MB까지의 대용량 파일은 mm_file://file_id를 사용하는 Files API를 통해 지원됩니다 . 프레임 샘플링 기본값은 1fps이며 0.2–5 범위를 지원합니다 . 긴 클립은 fps를 낮춰 토큰 비용을 절감하세요.
MiniMax M3 요금은 GPT-5.5나 Gemini 3.1 Pro와 어떻게 비교되나요?
MiniMax는 M3가 비슷한 수준의 독점 모델 대비 약 5–10% 비용으로 운영된다고 주장합니다 . ≤512K 입력 기준 표준 종량제 가격은 50% 출시 할인 적용 시 입력 $0.30/M, 출력 $1.20/M (정가 $0.60/$2.40) 입니다. 1M 시퀀스 전체 구간은 초기 접근 제한이 있으므로, 대규모에서의 실질적인 비용 비교에는 MiniMax 세일즈의 접근 승인이 필요합니다 — 또한 주요 벤치마크 수치는 벤더가 직접 보고한 것이므로, 비용 대비 품질은 반드시 자체 워크로드를 기준으로 판단하세요.