증류가 주류가 됐다. 그다음엔 IP 분쟁이 터졌다.

R1의 MIT 라이선스로 오픈소스 증류가 합법 영역에 들어왔다. V4의 OPD가 현재 주류 방식이다. IP 분쟁은 그 한계를 짚는다.

Jun 15, 2026

"증류(Distillation)"는 연구 노트의 한 구석에서 출발해 소형 고성능 모델을 출시하는 기본 방법론이 되었고, 이제는 미·중 정책 분쟁의 한복판에 섰습니다. 그러나 논쟁을 들여다보기 전에, 실제로 문서화된 사실과 단순히 유포되는 이야기를 먼저 구분해야 합니다.

지식 증류란 무엇이며, 'open-deepthink' 주장은 어디서 무너지나

지식 증류는 더 작은 "학생(student)" 모델이 더 큰 "교사(teacher)" 모델의 출력 분포로부터 학습하는 훈련 기법으로, 프런티어급 사전 학습을 다시 수행하지 않고도 교사의 역량을 상당 부분 압축합니다. 원시 레이블만으로 학생을 훈련하는 대신, 교사의 확률 분포(또는 생성된 응답)를 모방하도록 훈련함으로써 훨씬 적은 연산 비용으로 추론 행동을 이전합니다. Red Hat의 2026년 1월 오픈소스 AI 리뷰에 따르면, 증류는 연구 단계의 호기심에서 벗어나 교사 출력으로 학생 모델을 파인튜닝하는 주류 효율화 수단으로 자리 잡았습니다 .

그러나 "open-deepthink이 완전한 지식 증류 모드를 출시했다"는 주장은 근거가 없습니다. 이를 뒷받침하는 GitHub 릴리스, 공식 변경 이력, 신뢰할 수 있는 기술 보도는 존재하지 않습니다. 해당 이름과 일치하는 실제 코드베이스인 Astrodevil/Open-DeepThink-Researcher는 DeepSeek-R1과 Exa API 기반의 MIT 라이선스 웹 리서치 에이전트로, main 브랜치에 커밋이 약 7개뿐이고, 버전 태그도 없으며, 게시된 릴리스도 없습니다 . README에는 증류 모드나 5개월 로드맵에 대한 언급이 전혀 없습니다. 이 헤드라인은 근거 없는 주장으로 봐야 합니다.

실제로 문서화된 것은 이 이야기가 편승한 이정표입니다. 2025년 1월 20일, DeepSeek는 DeepSeek-R1을 MIT 라이선스로 공개하며 증류 및 상업적 이용을 명시적으로 허용했고, 같은 날 6개의 소형 증류 변형 모델을 함께 출시했습니다 . 추론 모델의 API 가격은 입력 토큰 백만 개당 약 $0.14–$0.55, 출력 토큰 백만 개당 $2.19 수준이었습니다 . 이것이 실제 이야기이며, 이어지는 섹션에서 그 여파를 추적합니다.

R1의 MIT 조항: 실무자가 합법적으로 증류·상업화할 수 있는 범위

Distillation went mainstream. Then came the IP dispute.

MIT 라이선스 하에서 R1을 자신의 학생 모델로 증류하는 것은 법적으로 문제없습니다. 이 라이선스는 제한 없이 소프트웨어를 "사용, 복사, 수정, 병합, 게시, 배포, 서브라이선스 부여 및/또는 판매"할 권리를 부여합니다 . 경쟁 금지 조항도 없고, 파생 추론 모델을 라이선서에게 귀속시키는 조항도 없습니다. R1 출력으로 훈련한 모델, 즉 증류된 파생물은 이 허가 범위 안에 포함되므로 MIT 적용 저작물과 동일하게 상업화할 수 있습니다. DeepSeek는 2025년 1월 20일 R1과 함께 6개의 증류 변형 모델을 출시하며 이 의도를 명확히 했습니다 .

동일한 기술 행위가 법적으로 갈리는 지점은 폐쇄형 교사 모델과의 비교에서 드러납니다. OpenAI와 Anthropic의 서비스 약관은 API 출력을 자사 서비스를 복제하거나 경쟁하는 시스템 훈련에 사용하는 것을 명시적으로 금지합니다. 교사 토큰을 생성해 학생 모델에 적합시키는 엔지니어링은 양쪽 모두 동일하지만, R1으로부터의 증류는 허가된 권리인 반면 폐쇄형 API로부터의 증류는 공급업체가 소송을 제기할 수 있는 계약 위반입니다. OpenAI는 모델 출시를 앞두고 이미 DeepSeek의 증류 행위에 대해 부정행위를 주장했으며 , 이는 노출 위험을 결정하는 것이 방법이 아니라 출처임을 다시 한번 확인시켜 줍니다.

"이 소프트웨어의 사본을 취득하는 모든 사람에게 무상으로 제한 없이 소프트웨어를 다룰 수 있는 권한을 부여합니다" — DeepSeek가 R1에 첨부한 MIT 라이선스 허가 문구 (source: DeepSeek-R1, GitHub).

간단한 컴플라이언스 체크리스트를 갖추면 증류 릴리스를 방어 가능한 상태로 유지할 수 있습니다:

MIT 헤더를 유지하세요. 이 라이선스는 저작권 및 허가 고지가 저작물과 함께 제공되도록 요구합니다. 증류 아티팩트의 리포지터리와 모델 카드에 반드시 포함하세요.
교사-학생 관계를 문서화하세요. 릴리스 노트에 학생 모델이 R1으로부터 증류되었음을 날짜와 원본 리포지터리 정보와 함께 명시해, 다운스트림 사용자가 계보를 감사할 수 있도록 하세요.
출처를 허위로 표시하지 마세요. R1 출력을 사용했음에도 독자 개발 모델로 주장하거나, 그 반대의 경우 모두 피할 수 있었던 라이선스 및 지식재산권 분쟁을 초래합니다.

R1 증류 LLM 1.5B~70B: 크기별 정확도 한눈에

출시 당시 DeepSeek는 R1 본체와 함께 증류 모델 6종을 공개했습니다: 파라미터 수 기준 1.5B, 7B, 8B, 14B, 32B, 70B 변형으로, 모두 2025년 1월 20일에 릴리스되었고, 동일한 R1 교사 모델에서 파생되었으며, 전부 MIT 라이선스를 적용합니다 . 이 다양한 크기 구성이 증류 파이프라인의 실질적 이점입니다: 단일 추론 교사 모델을 크기별 학생 모델 사다리로 압축했기 때문에, 불필요한 여유분에 비용을 낭비하는 대신 정확도 기준을 충족하는 가장 작은 모델을 선택할 수 있습니다.

핵심 정확도 주장은 이 사다리의 최상단에 있습니다. DeepSeek에 따르면 32B 및 70B 증류 변형은 추론 벤치마크에서 OpenAI의 o1-mini와 동등한 성능을 보이며, R1 본체는 수학·코드·추론 과제에서 OpenAI o1에 견주는 위치에 놓입니다 . 비교에 인용된 벤치마크 묶음은 AIME 2024(경시 수학), MATH-500, LiveCodeBench(코드 생성)으로 구성된 표준 추론 3종입니다. "o1-mini와 동등"이라는 표현은 독립적 검증이 아닌 벤더 자체 발표 수치로 받아들이세요: o1-mini급 추론이 필요할 때 32B/70B 티어를 우선 테스트해야 한다는 의미이지, 모든 과제에서 리더보드를 그대로 재현한다는 뜻이 아닙니다.

증류 변형	라이선스	추론 벤치마크	실용 티어
R1-Distill-1.5B	MIT	기초 추론	온디바이스 / 엣지 프로토타이핑
R1-Distill-7B	MIT	중급 추론	단일 GPU 앱, 배치 작업
R1-Distill-8B	MIT	중급 추론	단일 GPU, Llama 기반 툴링
R1-Distill-14B	MIT	상위 중급 추론	비용/정확도 균형
R1-Distill-32B	MIT	o1-mini와 동등 보고	프로덕션 추론, 자체 호스팅
R1-Distill-70B	MIT	o1-mini와 동등 보고	최고 정확도, 멀티 GPU 서빙

자체 호스팅으로 전환하면 경제성이 달라집니다. DeepSeek의 호스팅 R1 추론기는 캐시 히트 시 입력 토큰 100만 개당 약 $0.14, 캐시 미스 시 $0.55, 출력은 100만 개당 약 $2.19로 책정되었습니다 . 이는 사용량에 따라 누적되는 토큰당 반복 비용입니다. MIT 라이선스 증류 가중치는 이 구조를 뒤집습니다: 한 번 다운로드하면 구동에 사용하는 GPU 비용만 지불하면 되고, 토큰당 추가 비용은 없습니다. 대용량 워크로드에서는 자체 호스팅 32B가 종량제 청구를 없애는 것만으로도 어떤 토큰당 API보다 저렴해질 수 있습니다 — 초기 인프라 비용과 서빙 복잡도를 무한정 API 지출과 맞바꾸는 구조입니다.

이 지도에서 도출되는 의사결정 기준: 정확도 기준을 충족하는 가장 작은 티어에서 시작하고, 공개된 벤치마크 대신 자체 평가 세트로 검증한 뒤, 더 작은 학생 모델이 미달할 때만 32B/70B로 올라가세요. 여섯 모델 모두 동일한 라이선스와 교사 모델을 공유하므로, 사다리를 오르내리는 것은 재설계가 아닌 교체에 불과합니다.

V4의 온폴리시 증류: 반복적 학생-교사 교정 vs. 정적 KD

온폴리시 증류(OPD)는 학생 모델이 먼저 자체 후보 응답을 생성한 뒤 여러 교사 모델에 교정을 구하는 학습 방식으로, 사전 기록된 교사 출력을 수동적으로 모방하는 방식과 다릅니다. DeepSeek는 이 방법으로 2026년 4월 24일 출시된 DeepSeek V4를 학습시켰습니다 . 이 전환이 중요한 이유는, 학생 모델이 실제로 수정할 수 있는 오류 유형 자체가 달라지기 때문입니다.

기존의 오프라인 지식 증류는 사전 생성된 교사 출력의 고정 코퍼스로 학생을 학습시킵니다. 단일 패스에 비용이 낮습니다: 교사를 한 번 샘플링한 뒤 학생을 그 고정 분포에 맞춥니다. 약점은 구조적입니다. 학습 신호가 정적이기 때문에, 학생은 스스로 저지르는 실수에 대한 교정을 전혀 받지 못합니다 — 교사의 커버리지가 희박한 영역에서는 학생 특유의 실패 유형이 관찰되지도, 패널티를 받지도 않습니다. R1 증류 체크포인트 6종이 모두 이 방식으로 학습된 이유가 여기 있으며, 학생이 커버된 분포에서는 교사와 대등하면서도 분포 외 프롬프트에서 이탈하는 원인이기도 합니다.

OPD는 데이터 흐름을 뒤집습니다. 학생이 먼저 생성하고, 그런 다음 여러 교사 LLM이 그 특정 응답을 평가하고 교정합니다 . 교정 신호는 학생의 실제 출력 분포, 즉 교사의 가상의 실수가 아닌 학생 자신의 실수에 맞춰집니다. 실질적으로 학생이 자체 학습 세트를 공동 작성하는 구조입니다: 각 라운드는 학생이 현재 가진 격차를 목표로 하며, 이것이 '온폴리시'가 의미하는 바입니다. 트레이드오프는 비용입니다. 오프라인 KD는 교사를 한 번만 샘플링하지만, OPD는 반복마다 학생 생성과 교사 평가가 필요하므로 단계당 더 많은 연산을 소모하는 대신, 학생이 취약한 부분에 훨씬 잘 맞춰진 신호를 얻습니다.

두 접근법은 익숙한 곡선의 서로 다른 지점에 위치합니다:

정적(오프라인) KD — 학생이 고정된 교사 출력에 맞춥니다. 단일 패스, 낮은 비용, 자기 교정 없음. 교사 커버리지가 충분하고 배포 분포가 예측 가능할 때 적합합니다.
온폴리시 증류 — 학생이 생성하고 교사가 반복적으로 교정합니다. 비용이 높고, 신호가 학생 고유의 오류 유형에 맞춰집니다. 교사의 샘플 분포를 벗어난 곳에 맹점이 집중되는 추론 집약적 과제에 더 적합합니다.

보고된 결과는 도약이 아닌 점진적 개선입니다. Asia Times는 V4를 추론에서 격차를 좁히고 있지만 GPT-5.4와 같은 프론티어 모델에 여전히 약 3~6개월 뒤처져 있는 것으로 설명합니다 . 솔직한 해석: OPD는 교사 역량에 대한 수렴을 가속하지만 프론티어와의 동등성을 보장하지는 않습니다. V4 데뷔를 다룬 Asia Times 보도에 따르면, 이 모델은 "추론에서 경쟁력 있는" 위치로 자리매김하면서도 선도 시스템에 수개월 뒤처져 있습니다 — 동등성 주장이 아닌 효율성의 향상입니다 (source: Asia Times, 2026-04).

개발자에게 실질적 시사점은, 교정 루프 패턴이 V4의 추론을 발전시킨 핵심이라는 것입니다 — 자체 학생 모델에서 이를 재현하려면 단일 샘플링 패스가 아닌 반복 생성과 교사 평가단 구성에 대한 예산이 필요합니다.

허용형 vs. 독점형 증류: MIT, Apache-2.0, 그리고 ToS로 차단된 교사 모델

증류 프로젝트의 법적 위험 범위는 사용하는 기법이 아니라 교사 모델의 라이선스에 의해 결정됩니다. DeepSeek-R1처럼 MIT 라이선스를 따르는 교사 모델은 가장 깔끔한 경우입니다. 증류·상업적 이용·재배포가 모두 명시적으로 허용되어 있으며, 이것이 바로 2025년 1월 20일 출시 이후 R1이 오픈 파생 제품의 기준 교사 모델로 자리 잡은 이유입니다 . Apache-2.0 교사 모델은 특허 허여를 추가하지만 여전히 허용적이며, ToS로 제한된 API 출력물(OpenAI, Anthropic)은 정반대 극단에 위치합니다. 이 경우 경쟁 모델 학습은 계약상 금지되어 있고 소송도 점점 늘고 있습니다 .

실무적 함정은 라이선스 배지와 모델 실제 약관 사이의 간극입니다. 예를 들어 Meta의 Llama 가중치에는 월 활성 사용자 7억 명 초과 제품에 적용되는 상한 조건 등 부가적인 이용 조건이 허용적 허가 위에 덧씌워져 있습니다. 교사 모델을 출시 제품에 적용하기 전에는 SPDX 태그만 볼 게 아니라 모델 카드와 이용 정책 전문을 반드시 읽어야 합니다.

교사 소스	증류 허용?	상업적 이용	재배포
MIT 가중치 (DeepSeek-R1, 대부분의 Mistral 변형)	예, 명시적 허용	예	예
Apache-2.0 가중치 (일부 Qwen, 일부 Llama 변형)	예, 특허 허여 포함	예	예
Meta Llama (커뮤니티 라이선스)	예, MAU 상한 미만	예, <700M MAU; 모델 카드 확인	조건부
폐쇄형 API (OpenAI, Anthropic)	아니오 — ToS가 경쟁 모델 학습 금지	출력물 재사용 논쟁 중	아니오

개발자를 위한 두 가지 시사점이 있습니다. 첫째, 폐쇄형 API의 ToS 제한은 상업적 출시에만 국한되지 않습니다. '출력물을 경쟁 모델 학습에 사용할 수 없다'는 표준 조항은 비상업적 파인튜닝에도 법적 위험을 초래합니다. 위반의 기준이 결과물을 판매하는지 여부가 아니라 데이터를 어떻게 수집했는지에 있기 때문입니다. 둘째, 오픈 경로는 이제 충분히 검증되었습니다. Red Hat의 2026년 1월 리뷰는 증류가 연구 호기심 수준을 넘어 교사 출력물로 학생 모델을 파인튜닝하는 주류 효율화 수단으로 자리 잡았음을 확인해 줍니다 . R1의 MIT 약관은 증류와 상업화를 명시적으로 허용하여, 허용적 라이선스를 가진 교사 모델이 파생 제품 측면에서 법적 위험이 가장 낮습니다 . 교사 모델 라이선스가 허용적이라면 실질적인 엔지니어링 과제는 품질뿐이지만, 폐쇄형 API라면 라이선스 문제가 첫 학습 실행 전에 프로젝트를 끝낼 수 있습니다.

증류를 둘러싼 미·중 IP 분쟁: OSTP, MATCH Act, 그 이후

R1 라이선스 하에서는 기술적으로 허용되는 증류도, 교사 모델이 폐쇄형 미국 모델일 때는 지정학적 갈등의 불씨가 되었습니다. 2026년 4월 23일, 백악관 과학기술정책실(OSTP)은 중국의 증류 행위를 조직적 대규모 추출이라고 공개 규정했습니다 . 이 규정은 개발자에게 중요한 의미를 갖습니다. 증류를 라이선스 문제에서 수출 통제와 국가 안보 문제로 전환시키기 때문이며, 이는 어떤 서비스 약관과도 무관하게 사용 가능한 교사 모델의 범위를 재편할 수 있습니다.

'수만 개의 프록시 계정'을 동원한 '산업적 규모의 캠페인'으로 미국 모델의 출력물을 추출하고 안전 가드레일을 제거 — 백악관 과학기술정책실(OSTP), 중국의 증류 행위 규정 (source: Asia Times, 2026-04).

정책 조치들은 연달아 쏟아졌습니다. 2026년 4월 16일 미 하원 중국특별위원회 청문회에서 이 문제가 다뤄졌으며, 중국의 ASML 리소그래피 접근을 겨냥한 MATCH Act 법안은 증류와 함께 이중 용도 역량 추출의 두 번째 경로로 규정되었습니다 . 양자를 연결하는 논리는 하드웨어 제조 능력과 모델 출력물 모두 적대 세력이 간접 취득을 노리는 제한 역량으로 취급된다는 것입니다. 전자는 칩 제조 장비를 통해, 후자는 API 쿼리를 통해 시도됩니다. OSTP 성명은 DeepSeek가 V4를 출시한 2026년 4월 24일 하루 전에 나왔으며, 이 타이밍은 우연이 아닙니다 .

정책 층위 아래에는 민간 부문의 분쟁이 자리합니다. OpenAI는 여러 V4 시대 출시를 앞두고 DeepSeek가 서비스 약관을 위반해 자사 출력물을 교사 신호로 사용했다고 주장하며 공식적으로 증류 부정행위를 제기했습니다 . 이것이 중요한 이유는 두 요소의 결합 때문입니다. 계약상 ToS 집행 주장이 이제 지정학적 무게를 띠게 되었고, 양측이 서로를 강화합니다. 단순한 상업 중재로 끝날 수 있었던 ToS 위반이 국가 안보 서사의 증거가 되고, 국가 안보 서사는 규제 당국에게 과거 민간 계약 조항이었던 것을 공식 규정으로 만들 이유를 제공합니다.

실무자 관점에서 핵심 시사점은 위험의 비대칭성입니다. MIT 라이선스 오픈 가중치에서 증류하면 품질 위험만 감수하면 됩니다. 반면 폐쇄형 미국 API에서 증류하면 이제 계약적·평판적·잠재적 규제 위험을 지게 되며, 이는 공식 수출 통제로 굳어질 수 있습니다. ToS 기반 증류의 법적 지위는 아직 확립되지 않고 논쟁 중인 상태입니다 . 따라서 현재 가장 안전한 엔지니어링 결정과 가장 안전한 법적 결정이 동일한 결론을 가리킵니다. 바로 허용적 라이선스를 가진 교사 모델입니다.

R1 증류 시점 결정하기: 허용형·제한형 교사 모델 실전 가이드

대부분의 개발자에게는 허용형 경로가 정답이다: MIT 또는 Apache-2.0 라이선스 교사 모델에서 증류하고, 파생 모델에 원본 라이선스 헤더를 그대로 유지하며, 모델 카드에 교사-학생 관계를 문서화한다. DeepSeek-R1은 2025년 1월 20일 MIT 라이선스로 출시되었으며 , 증류와 상업화를 명시적으로 허용하는 조건을 담고 있다 . 이로써 워크플로는 법적으로 명확하고, 상업적으로 실행 가능하며, 재현 가능해진다 — 파이프라인을 감사하는 누구라도 출처를 추적하고 라이선스 조건을 직접 확인할 수 있다.

제한형 경로는 클로즈드 API의 출력을 학습 신호로 활용하는 방식이다. 기술적으로는 가능하고 매력적이기도 하지만, OpenAI 같은 제공업체의 서비스 약관은 이를 금지하며, ToS 기반 증류의 법적 지위는 아직 정립되지 않은 채 논쟁 중이다 . 지정학적 요인이 계약 리스크를 더욱 복잡하게 만들고 있다: 2026년 4월 백악관 과학기술정책실(OSTP)은 국경을 초월한 증류를 미국 모델의 출력을 추출하는 '산업 규모의 캠페인'으로 규정했다 . 제한형 교사 모델을 사용하는 파이프라인, 특히 국경을 넘는 경우에는 이러한 위험이 실재하며 점점 더 심화되고 있다.

기술 선택에 있어서는 작업에 맞는 방법을 택해야 한다. 온-폴리시 증류(On-Policy Distillation) — 학생 모델이 먼저 응답을 생성한 뒤 교사 모델의 교정을 받는 방식으로, 2026년 4월 24일 출시된 DeepSeek V4의 핵심 접근법이다 — 은 추론 집약적 작업에서 빛을 발한다. 일반적인 사실 기반 파인튜닝에는 정적 오프라인 지식 증류로도 충분하며 운영 비용이 낮다. Red Hat의 2026년 1월 리뷰는 이 방식이 이제 연구 호기심의 대상이 아닌 주류 효율화 수단으로 자리잡았음을 확인해 준다 .

실질적인 결론: 기본적으로 R1이나 다른 허용형 라이선스 교사 모델을 택하고, 온-폴리시 교정은 비용이 정당화되는 추론 작업에만 활용하며, 법적 상황이 정리될 때까지 클로즈드 API 출력은 학습 데이터에서 배제하라. 현재로서는 가장 저렴한 엔지니어링 선택과 가장 안전한 법적 선택이 일치한다 — 그에 맞게 구축하라.

자주 묻는 질문

DeepSeek R1 파생 모델 증류, 합법인가?

온-폴리시 증류란? 표준 KD와의 차이

표준 지식 증류는 미리 생성된 고정된 교사 출력으로 학생을 훈련한다 — 교사가 데이터셋에 한 번 레이블을 붙이면 학생은 이에 맞게 학습한다. 온-폴리시 증류(OPD)는 순서를 뒤집는다: 학생이 먼저 후보 응답을 생성하면, 하나 이상의 교사 모델이 이를 평가하고 교정한다. 이는 학생의 실제 오류 분포에서 학습을 가속화한다. DeepSeek는 2026년 4월 24일 출시된 DeepSeek V4 훈련 시 OPD를 도입했다 .

OpenAI나 Anthropic API 출력으로 소형 LLM을 증류할 수 있나?

법적 위험 없이는 불가능하다. 두 제공업체의 서비스 약관은 API 출력을 자사 서비스와 경쟁하거나 복제하는 시스템 훈련에 사용하는 것을 명시적으로 금지하며, OpenAI는 바로 이러한 종류의 증류를 두고 DeepSeek의 부정행위를 공개적으로 제기했다 . R1과 같은 MIT 라이선스 오픈 웨이트에는 이에 상응하는 제한이 없으며, 이것이 허용형 라이선스 교사 모델이 여전히 안전한 선택인 이유다.

미국 정부가 중국 AI 증류에 우려를 표명하는 이유

2026년 4월 23일, 백악관 과학기술정책실(OSTP)은 중국의 증류 행위를 수만 개의 프록시 계정을 동원해 미국 모델의 출력을 추출하고 안전 가드레일을 제거하는 '산업 규모의 캠페인'으로 규정했다 . 2026년 4월 16일 미국 하원 중국 특별위원회 청문회와 중국의 ASML 리소그래피 장비 접근을 겨냥한 MATCH법 제안이 이에 따른 정책 대응이다 .

2026년 상업적으로 활용 가능한 오픈 웨이트 교사 모델

MIT 라이선스 교사 모델이 가장 깔끔한 선택이다: DeepSeek R1과 그 증류 변형 모델, 그리고 Mistral 7B와 8x7B는 상업적 증류를 전면 허용한다 . Apache-2.0 웨이트의 경우 모델별 부칙을 확인해야 한다 — 예를 들어 Meta의 Llama 라이선스에는 월간 활성 사용자 제한이 추가된다. 상업적으로 사용 불가: OpenAI 또는 Anthropic API 호출에서 파생된 출력은 약관상 경쟁적 훈련이 금지된다 .