CC-BY-NC는 끝. Cohere의 ‘4비트 무손실’ 주장, 맞나?

Command A+: Apache 2.0, 218B/25B MoE, 2×H100, 48개 언어 — W4A4 ‘무손실’ 주장은 독립 검증 필요.

Jun 23, 2026

지난 2년 동안 Cohere의 오픈 가중치에는 네 글자짜리 조건이 걸림돌이었다. 바로 -NC였다. 2026년 5월 20일, 그 조건이 사라졌다. 그리고 기업 팀들이 Command 모델을 "평가만 하고 출시하지 않는" 목록에 계속 넣어 두던 핵심 이유도 함께 사라졌다.

Apache 2.0 적용 — CC-BY-NC와 실제로 달라진 점

Command A+ (모델 ID command-a-plus-05-2026)는 Cohere가 Apache 2.0으로 공개한 첫 오픈 가중치 릴리스다. Apache 2.0은 OSI가 승인한 허용적 라이선스로, 비용이나 비경쟁 조항 없이 상업적 이용, 파인튜닝, 재배포, 셀프 호스팅을 허용한다 . 이는 Cohere의 이전 오픈 릴리스와는 분명한 단절이다. Command R/Command A 계열과 Aya 모델은 CC-BY-NC로 배포됐고, 여기서 "NC"(비상업) 조건은 별도 라이선스를 협상하지 않는 한 상업적 이용, 수익 창출용 파인튜닝, 재배포를 막았다 .

구체적으로, 이전에는 막혀 있던 다음 세 가지가 이제 라이선스 협의 없이 허용된다.

가중치 기반 상용 제품 출시 — 사용자 수나 배포 단위별 요금이 없다.
수익 목적 파인튜닝 — 자체 데이터로 모델을 조정하고 그 결과물을 수익화할 수 있다.
재배포 — 가중치를 포크하거나 재패키징하거나 자체 스택에 포함할 수 있다.

비상업 조항은 Cohere 오픈 가중치에 대한 기업 평가를 지연시킨 단일 문서화된 마찰 지점이었다. 이를 제거하면서 그 관문도 사라졌다 . Cohere는 이 변화를 주권형 및 중요 인프라 배포라는 맥락에서 설명한다. 즉 미국 클라우드 API에 의존하지 않고 프런티어 모델을 온프레미스나 에어갭 환경에서 실행해야 하는 정부와 규제 산업 기업을 겨냥한 것이다 . 회사의 표현대로 이 릴리스는 "주권형 및 중요 인프라" 배포를 위해 만들어졌다 (source: Cohere via BusinessWire, 2026-05).

바뀌지 않는 점도 분명히 짚어둘 필요가 있다. Apache 2.0 허가는 모델 가중치에 적용되는 것이지, Cohere의 호스팅 API에 적용되는 것이 아니다. 호스팅 API의 상업 조건과 속도 제한 조건은 여전히 별도 계약이다. 또한 이 허가의 실제 가치는 가중치를 실제로 다운로드할 수 있는지에 달려 있다. 이 지점에서는 출처별 보도가 엇갈리며, 마지막 섹션에서 다시 다룬다.

Cohere의 전문가 라우팅 구조: 저장 218B, 매 추론 경로 25B

CC-BY-NC is out. Does Cohere's '4-bit lossless' claim hold?

Command A+는 희소 Mixture-of-Experts(MoE) 모델이다. 전체 파라미터는 218B를 저장하지만 토큰당 활성화되는 것은 25B뿐이며, 각 순전파에서 활용되는 비율은 약 11%다 . 이 라우팅이 이전 Command A와의 핵심 설계 차이다. 이전 Command A는 111B 조밀 모델로, 모든 토큰에서 모든 파라미터가 작동했다 . 실제 효과는 토큰당 연산량이 전체 용량과 분리된다는 점이다. 218B가 아니라 활성 파라미터 25B에 해당하는 비용을 치르는 구조다.

그래서 표면적인 파라미터 수만 보면 오해하기 쉽다. "218B"는 모델이 전문가 풀 전체에 저장할 수 있는 용량을 뜻하지, 매 단계에서 계산하는 양을 뜻하지 않는다. 이를 218B 조밀 모델과 정면 비교하면 비용을 과대평가하게 되고, 25B 조밀 모델과 비교하면 용량을 과소평가하게 된다. Cohere에게는 이번이 첫 MoE 릴리스이며, 희소 구조 덕분에 활성 경로는 작게 유지하면서도 가중치를 여러 전문화된 전문가에 분산할 수 있다 .

다만 마이그레이션에 불리한 절충점도 있다. Command A+는 128K 토큰 입력 창과 64K 토큰 최대 출력을 제공한다 . 이는 조밀 Command A가 제공했던 256K 입력보다 좁다 . Command A에서 긴 문서 RAG를 운영하던 팀은 전환 전에 컨텍스트 예산이 128K 안에 들어오는지 확인해야 한다. 이전에는 통째로 넣던 대형 계약서나 공시 문서 하나도 이제는 청킹이 필요할 수 있다.

언어 지원과 최신성 범위는 반대로 개선됐다. Command A+는 유럽연합의 모든 공식 언어를 포함해 48개 언어를 지원한다. 이는 이전 Command A 모델의 23개보다 두 배 이상 많다 . 지식 기준일은 2025년 4월 1일이다 .

사양	Command A (조밀)	Command A+ (MoE)
파라미터	111B, 전체 활성	전체 218B / 활성 25B
입력 컨텍스트	256K 토큰	128K 토큰
최대 출력	—	64K 토큰
언어	23개	48개(EU 공식 언어 전체)
지식 기준일	—	2025년 4월 1일

B200 또는 H100 2장: 4비트 압축 주장의 의미

Command A+는 세 가지 숫자 형식으로 제공되며, 그중 가장 작은 형식 덕분에 비교적 modest한 하드웨어에서도 구동할 수 있습니다. Cohere는 가중치를 BF16(전체 16비트 정밀도), FP8(8비트), 그리고 W4A4, 즉 4비트 가중치와 4비트 활성값 형식으로 배포합니다 . W4A4 빌드가 모델을 NVIDIA B200 한 장 또는 NVIDIA H100 GPU 두 장에서 실행할 수 있게 해줍니다 . 앞서 다룬 MoE 희소성, 즉 토큰당 활성 파라미터 25B와 결합하면, 양자화는 이 모델의 작은 실행 footprint를 설명하는 또 다른 축입니다.

이를 구체적으로 보여주는 비교가 있습니다. 대체로 비슷한 역량을 가진 dense 모델인 Llama 3.1 405B는 FP16에서 H100을 8장 이상 필요로 합니다 . Cohere가 클러스터 대신 GPU 두 장 배포에 도달한 방식은 희소 라우팅과 W4A4의 조합입니다. Cohere는 Command A Reasoning보다 처리량이 최대 110% 높고 지연 시간은 30% 낮다고도 주장합니다 .

논쟁이 되는 단어는 "lossless"입니다. Cohere는 W4A4가 사실상 perplexity 저하를 일으키지 않는다고 말합니다 . 이는 강한 주장입니다. 활성값을 4비트로 양자화하면 GPTQ나 AWQ 같은 가중치 전용 4비트 방식보다 일반적으로 품질 손실이 더 크기 때문입니다. 활성값은 동적이고 outlier가 많은 값을 담고 있어 공격적인 반올림에 잘 견디지 못합니다. 따라서 깔끔한 W4A4 결과가 사실이라면 이는 흔한 최적화가 아니라 실질적인 엔지니어링 성과에 가깝습니다.

다만 아직 직접 검증할 수는 없습니다. 커널 설계, 보정 데이터, 반올림 방식 등 recipe가 공개되지 않았기 때문입니다.

"W4A4 양자화 방식은 아직 완전히 공개되지 않았고, 이 때문에 재현 가능성이 제한된다. 따라서 'lossless' 주장은 독립적으로 재현된 결과라기보다 벤더가 입증할 수 있는 주장으로 남아 있다." — VentureBeat 분석

개발자 입장에서 실용적인 해석은 이렇습니다. W4A4 가중치를 내려받고, BF16 빌드와 비교해 직접 perplexity 및 작업 평가를 실행하세요. 그리고 lossless라는 표현은 확정된 결과가 아니라 자신의 workload에서 검증해야 할 가설로 다루는 편이 맞습니다.

τ²-Bench 85%, Terminal-Hard 25%: 독립 검증이 비어 있는 지점

Cohere가 Command A+에 대해 공개한 모든 벤치마크는 자체 보고 수치이며, 작성 시점 기준으로 독립 leaderboard 순위는 없었습니다. Cohere의 수치에 따르면 τ²-Bench Telecom은 85%로 Command A Reasoning의 37%보다 높고, Terminal-Bench Hard agentic coding은 25% 대 3%, MMMU Pro는 63%, MathVista는 80.6%입니다 . 이 수치들은 확정된 순위가 아니라 벤더의 attestations로 읽어야 합니다.

특히 따져볼 부분은 agentic coding의 상승폭입니다. Terminal-Bench Hard에서 3%에서 25%로 오른 것은 이 세트에서 상대적으로 가장 큰 개선이며, 현재 외부 교차 검증이 가장 적은 지표이기도 합니다 . 어려운 agentic benchmark에서 절대값 22포인트가 오른 것은 아키텍처 변화로 가능할 수 있지만, 바로 이런 결과일수록 held-out 작업 세트에서 제3자 재현이 가장 큰 의미를 갖습니다.

벤치마크	Command A+ (자체 보고)	Command A Reasoning	독립 검증
τ²-Bench Telecom	85%	37%	작성 시점 기준 없음
Terminal-Bench Hard (agentic coding)	25%	3%	작성 시점 기준 없음
MMMU Pro	63%	—	작성 시점 기준 없음
MathVista	80.6%	—	작성 시점 기준 없음
Artificial Analysis Intelligence Index	37	—	벤더 제출 수치로 보이며, 독립 수집은 아님

Artificial Analysis Intelligence Index 점수 37은 별도의 주석이 필요합니다. 이 값은 Cohere의 수치 목록에 포함되어 있지만, 독립적으로 수집된 제3자 평가라기보다 Cohere가 직접 제출한 값으로 보입니다 . 이 차이는 중요합니다. 벤더가 운영한 index entry는 외부 연구소가 자체 harness로 측정한 rating보다 무게가 덜합니다.

개발자가 이 수치를 신뢰할지 판단할 때 실용적인 대응은 외부 신호를 기다리는 것입니다. 앞으로 몇 주 동안 Artificial Analysis, LMSYS Chatbot Arena, livebench.ai를 지켜보세요. Command A+가 그곳에서도 주장한 수치에 가깝게 나타난다면 자체 보고 세트의 신뢰도는 올라갑니다. 그 전까지는 블로그 수치를 그대로 받아들이기보다 자신의 workload에 맞는 agentic 및 reasoning 평가를 직접 실행하는 편이 낫습니다.

우선 검토할 대상: 소버린 AI, 에어갭 환경, 다국어 스택

Command A+의 가장 분명한 수혜자는 미국 클라우드 API로 추론을 보낼 수 없는 조직입니다. 국가 정부, 국방 및 정보기관 스택, 그리고 온프레미스나 완전한 에어갭 환경에서 프런티어 모델을 실행해야 하는 규제 산업 기업이 여기에 해당합니다. Cohere는 이 모델을 "소버린" 및 핵심 인프라 용도로 명확히 포지셔닝하고 있으며, 이를 현실적으로 가능하게 만드는 것은 Apache 2.0 라이선스입니다. 셀프 호스팅, 파인튜닝, 가중치를 기반으로 한 상용 제품 출시가 모두 비경쟁 조항이나 좌석당 라이선스 협상 없이 합법적으로 가능해집니다 .

두 번째 강점은 감사 가능성입니다. Command A+는 검색과 생성을 함께 모델링하므로, 사실 주장들이 별도의 인용 처리 단계에서 사후에 덧붙여지는 것이 아니라 생성 시점에 원문 문서와 연결됩니다 . 법률, 의료, 금융 RAG처럼 출처 없는 단언이 단순한 품질 문제가 아니라 책임 리스크가 되는 영역에서는 네이티브 그라운딩이 평가 비용을 감수할 만한 핵심 기능이 됩니다.

Cohere의 출시 설명에 따르면 "네이티브 인용 그라운딩은 법률, 의료, 금융 워크플로의 감사 가능한 RAG를 목표로 하며, 검색과 생성을 함께 모델링해 사실 주장이 원문 문서에 매핑되도록 한다"고 합니다 (source: Cohere).

세 번째는 언어 범위입니다. Command A+는 모든 EU 공식 언어를 포함해 48개 언어를 지원합니다. 이는 이전 Command A 모델의 23개보다 두 배 이상 많은 수치입니다 . 따라서 영어와 일부 주요 언어만이 아니라 회원국 언어 전반에서 일관된 동작을 요구하는 EU 컴플라이언스 시나리오에서 진지하게 검토할 수 있을 만큼 다국어 균형을 갖춘 첫 Cohere 모델이라고 볼 수 있습니다.

마지막으로, 빌더에게는 패키징도 중요합니다. 단일 ID인 command-a-plus-05-2026가 이전에는 별도 Command A 변형으로 제공되던 비전, 추론, 다국어, 도구 사용, 인용 기능을 하나로 통합합니다 . 하나의 엔드포인트, 호스팅할 하나의 가중치 세트라는 뜻입니다. 에어갭 에이전트를 구축하는 팀 입장에서는 네 개의 특화 체크포인트를 조합하는 것보다 통합 표면이 의미 있게 줄어듭니다.

Azure를 쓰지 않는다면 배포 공백이 의미하는 것

실제로 Command A+를 호출할 수 있는 경로는 라이선스가 암시하는 것보다 좁습니다. 출시 시점에 확인된 관리형 경로는 두 가지뿐입니다. 모든 티어에서 제공되는 Cohere 자체 API와 Microsoft Azure AI Foundry입니다 . Cohere의 모델 개요에는 command-a-plus-05-2026가 Amazon Bedrock, Amazon SageMaker, Oracle OCI에서 N/A로 표시되어 있으며, 추가 일정도 공개되어 있지 않습니다 . AWS 중심 또는 OCI 중심 스택에서는 Apache 2.0이라는 헤드라인이 곧바로 한 줄짜리 엔드포인트 교체로 이어지지 않습니다.

호스팅 접근 조건을 보면 제약은 더 뚜렷해집니다. 트라이얼 키는 분당 20건, 월 1,000건의 API 호출로 제한되며, 프로덕션 가격도 토큰당 요율로 공개되어 있지 않습니다. 문서는 게시된 가격표 대신 Model Vault 또는 sales@cohere.com을 통한 프라이빗 배포로 프로덕션 사용을 안내합니다 . 따라서 관리형 경로를 택하더라도 의미 있는 규모로 쓰려면 먼저 영업 논의가 필요합니다.

Azure를 쓰지 않고 셀프 호스팅도 할 수 없다면 남는 선택지는 두 가지입니다. 하나는 Cohere가 아직 약속하지 않은 Bedrock, SageMaker, OCI 등록을 기다리는 것입니다. 다른 하나는 자체 클러스터를 준비하는 것입니다. 모델이 단일 B200 또는 H100 두 대에 들어가기 때문에 기술적으로는 가능합니다 . 다만 가중치를 공개적으로 다운로드할 수 있는지는 아직 확정되지 않았습니다. 이번 분기에 상용 배포가 필요한 팀은 아직 존재하지 않는 Bedrock 일정에 로드맵을 걸기보다 Cohere API 또는 Azure를 기본 경로로 보고, 프라이빗 클러스터 대안을 함께 범위에 넣어야 합니다.

W4A4의 불투명성 문제: Apache 2.0은 선언됐지만 독립 재현은 없다

Command A+에는 2026년 5월 20일 Apache 2.0이 선언됐지만, 라이선스 부여와 다운로드 가능한 아티팩트는 같은 것이 아니다. 작성 시점 기준으로 command-a-plus-05-2026 체크포인트의 Hugging Face Hub 목록은 독립적으로 확인되지 않았고, 두 릴리스 브리프 자체도 공개 가중치가 실제로 게시됐는지에 대해 서로 다르게 서술한다 . "API로 제공되는 모델에 붙은 Apache 2.0 라이선스"는 원칙적으로 상업적 이용을 허용한다. 하지만 "오늘 바로 내려받아 에어갭 환경에서 실행할 수 있는 가중치"야말로 주권 AI와 에어갭 구매자가 실제로 비용을 지불하는 대상이다. 둘은 서로 바꿔 쓸 수 없고, 오픈소스라는 주장이 가장 크게 다투어지는 지점도 바로 그 사이의 간극이다.

여기에 두 가지 미해결 공개 문제가 더해진다. 첫째, Cohere의 자체 문서가 일관되지 않다. Command A 페이지는 command-a-plus-05-2026 모델 ID를 렌더링하지만, 주변 설명은 여전히 모델 개요에서 command-a-03-2025로 별도 기재된 이전 111B 파라미터, 256K 컨텍스트 Command A를 설명한다 . 이 불일치는 작성 시점까지 해소되지 않았고, 특정 ID를 대상으로 스크립트를 작성하는 사람에게는 중요한 문제다. 둘째, W4A4 레시피, 즉 보정 세트, 활성화 양자화 방식, 추론 커널이 완전히 공개되지 않았다. 그래서 단일 B200 및 H100 두 장 배포의 근거가 되는 "무손실" 4비트 주장은 독립적으로 재현된 결과가 아니라 여전히 벤더가 증명하는 주장에 머문다 .

VentureBeat의 분석은 이를 두고 "the W4A4 quantization method has not been fully published, limiting reproducibility"라고 정리한다. 따라서 무손실이라는 프레이밍은 검증된 결과가 아니라 증명 주장으로 남아 있다 (source: VentureBeat, 2026-05).

실무적으로는 이렇게 봐야 한다. Command A+는 지금 상용 제품을 구축할 수 있는 강력한 관리형 API 및 Azure 선택지로 다루되, 셀프호스팅 가능한 오픈 가중치 이야기는 조건부로 봐야 한다. 온프레미스나 에어갭 배포를 전제로 로드맵을 확정하기 전에 세 가지를 확인해야 한다. 검증 가능한 Apache 2.0 라이선스 파일이 포함된 공개 체크포인트, Cohere 문서에서 정리된 모델 ID, 그리고 직접 또는 제3자가 재현할 수 있는 W4A4 방법이다. 이것들이 갖춰지기 전까지 라이선스는 실제이지만 재현은 부재하며, 그 차이가 일정 판단의 기준이 되어야 한다.

최종 업데이트: 2026-06-24. 작성 시점에 확인 가능한 Cohere의 2026년 5월 20일 릴리스 자료와 독립 업계 보도를 기준으로 검토했다.

자주 묻는 질문

이미 Cohere API를 쓰고 있다면 Apache 2.0 라이선스로 무엇이 달라지나?

API만 사용하는 팀이라면 지금 당장 달라지는 것은 없다. Apache 2.0은 모델 가중치에 적용되며, Cohere의 호스팅 API는 별도의 기존 서비스 약관에 따라 운영된다. 실질적인 변화는 향후 선택지가 생긴다는 점이다. 이전의 CC-BY-NC 비상업 제한이 사라졌기 때문에 , 나중에 Command A+를 셀프호스팅하고 그 위에 상용 제품을 출시하려 할 때 상업적 장벽은 더 이상 없다. 셀프호스팅을 하기 전까지는 현재의 API 사용 방식과 과금에는 영향이 없다.

Command A+를 NVIDIA H100 한 장에서 실행할 수 있나?

아니다. 문서화된 최소 구성은 NVIDIA H100 80GB GPU 두 장(W4A4 또는 FP8) 또는 NVIDIA B200 한 장이다 . H100 한 장은 배포 대상으로 기재되어 있지 않다. 이는 Llama 3.1 405B처럼 비슷한 성능대의 dense 모델에 보통 필요한 8장 이상의 H100보다는 여전히 훨씬 낮은 수준이지만 , 용량 계획은 단일 카드가 아니라 2×H100 하한선을 기준으로 잡아야 한다.

Command A+ 가중치를 Hugging Face에서 다운로드할 수 있나?

2026년 5월 기준으로 이는 확인되지 않았다. Cohere는 이 모델을 Apache 2.0으로 선언했지만, 예를 들어 Hugging Face 같은 곳에 공개 다운로드 가능한 체크포인트가 실제로 게시됐다는 독립 확인은 보도되지 않았다 . 허용적 라이선스 선언은 공개된 가중치와 같은 말이 아니다. 셀프호스팅 구성을 확정하기 전에 Cohere의 Hugging Face 조직 페이지를 직접 확인하고 Apache 2.0 라이선스 파일을 검증해야 한다.

Command A+의 컨텍스트 길이는 Command A와 어떻게 다른가?

더 짧다. Command A+는 128K 토큰 입력 컨텍스트와 최대 64K 토큰 출력을 제공한다 . 반면 2025년 3월 출시된 Command A는 256K 토큰 컨텍스트 창을 제공했다 . 현재 Command A에서 긴 문서 RAG를 운영하고 있다면 전환 전에 입력 창이 대략 절반으로 줄어든다는 점을 반영해야 한다. 매우 큰 문서를 한 번의 호출에 넣는 데 의존하는 워크플로는 청킹이나 검색 방식 변경이 필요할 수 있다.

W4A4 양자화란 무엇이며 Cohere의 '무손실' 주장은 왜 논쟁적인가?

W4A4는 가중치와 활성화를 모두 4비트로 양자화한다. 품질 저하가 비교적 잘 규명된 가중치 전용 4비트 방식보다 더 공격적인 접근이다. Cohere는 W4A4에서 perplexity나 품질 손실이 사실상 없다고 주장하며, 이 압축 덕분에 단일 B200 또는 2×H100 추론이 가능하다고 설명한다 . 이 주장이 논쟁적인 이유는 W4A4 레시피가 완전히 공개되지 않아 재현 가능성이 제한되기 때문이다. 따라서 '무손실'은 독립적으로 검증된 결과가 아니라 벤더가 증명하는 주장으로 남아 있다 .