커널 스케줄러 제거로 MI300X에서 초당 3,000 토큰 달성

Kog AI 모노커널: 커널 실행을 없애 AMD MI300X에서 초당 약 3,000 토큰 달성. 주의사항 포함 기술 분석.

Jun 03, 2026

주류 LLM 추론 스택은 처리량을 위해 설계됩니다 — 많은 요청을 배치에 묶어 GPU를 쉬지 않고 돌리는 방식입니다. 그런데 단일 코딩 에이전트가 수만 개의 직렬 토큰을 생성해야 할 때, 이 설계는 대부분의 엔지니어가 측정조차 하지 않는 벽에 부딪힙니다: 커널 기동 비용입니다.

커널 기동 세금: 실측 토큰당 약 1,125 µs

커널 기동 세금이란 GPU에 연산 실행을 지시할 때마다 발생하는 고정 CPU 측 오버헤드로, Kog AI의 측정값은 이것이 배치 크기 1 디코드가 느린 핵심 원인임을 보여 줍니다. 8× AMD Instinct MI300X 단일 노드에서 Kog가 측정한 기동·정리 오버헤드는 커널당 약 4.5 µs입니다 . Transformer 레이어당 약 10개의 커널, 약 25개 레이어 — 생성 토큰당 약 250번의 기동 — 를 감안하면, 어떤 산술 연산도 시작되기 전에 순수 오버헤드만 약 1,125 µs가 발생합니다 .

핵심 요약: Kog AI는 토큰 디코드 전체 경로를 하나의 상주 GPU "모노커널"로 통합해, 개당 ~4.5 µs씩 소모되던 연산별 커널 기동을 제거했습니다 — 토큰당 약 1,125 µs의 오버헤드입니다. 2026년 5월 28일 발표된 결과: 8× AMD MI300X, 배치 크기 1, FP16, 투기적 디코딩 없는 조건에서 요청당 약 3,000 출력 토큰/초.

이 오버헤드는 절대적인 상한선을 만들어 냅니다. 3,000 토큰/초를 목표로 하면 토큰당 예산은 약 333 µs에 불과한데, 디스패치에만 1,125 µs를 쓰는 것은 목표 자체와 양립할 수 없습니다. Kog의 간단한 계산에 따르면, 커널 기동 세금만으로 배치=1 디코드는 약 890 토큰/초 수준에서 막힌다고 합니다 — MI300X가 제공하는 5.3 TB/s의 메모리 대역폭이나 실제 하드웨어 연산 성능과 무관하게 말입니다 . 병목은 실리콘이 아니라 구조의 문제입니다.

이는 vLLM, SGLang, TensorRT-LLM의 결함이 아니라, 그것들이 설계된 트레이드오프입니다. 이 프레임워크들은 연산별 커널 디스패치를 토대로 아키텍처가 구성되어 있는데, 그 유연성 덕분에 스케줄러가 많은 요청을 인터리브하고 배치 서빙에서 높은 사용률을 유지할 수 있습니다 . 집계 처리량과 백만 토큰당 비용이 지배적인 고동시성 채팅에서는 이 방식이 올바른 선택입니다. 그러나 단일 에이전트가 하나의 긴 직렬 스트림을 생성하는 경우, 모든 커널 경계는 임계 경로의 낭비 시간이 됩니다.

Kog의 해법은 디스패치 루프 자체를 없애는 것입니다 — 모델 실행·통신·동기화·프리페치·토큰 샘플링을 하나의 상주 GPU 프로그램으로 통합합니다 . 대신 이식성이 희생됩니다: 창업자도 이 작업이 손으로 작성되어 "지루하며" 모델과 GPU 세대마다 재작성해야 한다고 인정합니다 . 이어지는 섹션에서는 이 단일 커널이 기동 세금이 남긴 여유를 어떻게 되찾는지 정확히 살펴봅니다.

모노커널 내부: 제어권을 절대 반환하지 않는 단일 상주 GPU 프로그램

3,000 tok/s on MI300X by deleting the kernel scheduler

모노커널은 호스트로 제어권을 돌려주지 않고 토큰 디코드 루프 전체를 실행하는 단일 GPU 상주 프로그램입니다. 토큰 사이에 커널을 재기동하는 대신, Kog는 하나의 영구 그리드 — gridDim=(256,), blockDim=(64,8) — 를 디스패치하고 전체 디코드 루프 동안 디바이스에 상주시키며, 각 활성 컴퓨트 유닛에 논리 블록 하나를 매핑합니다 . 이로써 MI300X의 304개 CU 중 256개가 점유되며 , 나머지는 유휴 상태가 되지만 앞서 설명한 토큰별 기동·정리 세금은 완전히 사라집니다. 토큰 사이에 커널 재기동도, 디코드 스텝 사이에 CPU 웨이크업도 없습니다.

런타임에 필요한 모든 것이 이 상주 프로그램 안에 있습니다. 모델 실행·토큰 샘플링·텐서 병렬 all-reduce·웨이트 프리페치·CU 간 동기화가 모두 GPU 자체에서 실행되며, 루프 안에 호스트 측 스케줄러도 CPU 측 샘플링도 없습니다 . 동기화 프리미티브는 디바이스에 맞게 손으로 튜닝됩니다: Kog는 토폴로지 인식 배리어가 약 600 ns라고 보고하며 , 256-CU·2048바이트 게시 버퍼 테스트에서 자사 동기화 방식이 0.80–0.93 µs, 단순 접근법이 7.59–7.88 µs임을 심층 분석에서 측정했습니다 .

수학 커널은 배치 크기 1 환경에 맞게 재작성됩니다. 배치=1에서는 모든 행렬 곱이 사실상 GEMV이며, MI300X의 행렬 코어는 설계된 타일이 채워지지 않아 충분히 활용되지 못합니다 — 그래서 Kog는 행렬 코어를 버리고 스칼라/벡터 ALU 내적 명령(VDOT/SDOT)을 직접 사용합니다 . 웨이트는 캐시 대신 LDS와 레지스터로 비시간적으로 스트리밍되어, 단일 요청 디코드의 메모리 바운드 특성에 맞춥니다.

그 위에는 토큰당 수행 작업을 줄이는 융합 및 오프라인 사전 계산 세트가 올라갑니다:

RMSNorm 폴딩 — 정규화가 독립 패스로 실행되지 않고 인접 연산에 통합됩니다.
오프라인 QKV 리패킹 — 쿼리·키·밸류 프로젝션을 사전에 리패킹해 런타임이 깔끔하게 스트리밍할 수 있는 레이아웃으로 읽도록 합니다.
RoPE 사전 계산 — 로터리 위치 임베딩을 매 스텝 재계산하는 대신 오프라인에서 미리 계산합니다.
어텐션 재계산 — 어텐션을 캐시해 I/O 다이 간에 교환하는 대신 로컬에서 재계산하여, 약간의 산술을 대신 치르고 다이 간 트래픽을 줄입니다 .

이 모든 것의 합산 효과는, 피할 수 있는 DRAM 왕복을 거의 거치지 않고 토큰 중간에 PCIe 경계를 절대 넘지 않는 디코드 경로입니다. 다시 한번, 트레이드오프는 범용성입니다: 창업자가 지루하다고 표현한 HIP 및 어셈블리 수준 작업으로, 모델과 GPU 세대마다 재작성해야 합니다 . 다음 섹션에서는 물리적 다이 레이아웃이 그 손 튜닝을 왜 필수로 만드는지 살펴봅니다.

MI300X 다이 토폴로지와 Kog의 256 CU → I/O 다이 매핑 방식

수동 튜닝이 필요한 이유는 MI300X가 단일 모놀리식 다이가 아니라 칩렛 패키지이기 때문입니다. 데이터가 물리적으로 어디에 존재하느냐가 커널의 접근 속도를 결정합니다. AMD 스펙에 따르면 이 가속기는 CDNA3 설계로, 피크 대역폭 5.3 TB/s의 HBM3 192 GB, 304개의 컴퓨트 유닛, 256 MB의 라스트 레벨 캐시, 750 W 피크 보드 전력을 갖추고 있습니다 . MI300 시리즈는 최대 8개의 XCD 컴퓨트 칩렛, 8개의 HBM3 스택, 4개의 I/O 다이를 적층하고, 노드당 8개의 OAM 모듈이 Infinity Fabric으로 연결됩니다 . I/O 다이 간 경계를 넘으면 대역폭 비용이 발생하므로, 레이아웃을 무시한 커널은 토큰마다 그 대가를 치르게 됩니다.

Kog의 모노커널은 이 물리적 구조에 직접 매핑됩니다. gridDim=(256,)과 blockDim=(64,8)로 실행하여 304개 CU 중 256개를 사용하고, 활성 CU당 하나의 논리 블록을 고정한 뒤 I/O 다이 로컬리티를 기준으로 작업을 묶고 I/O 다이별로 버퍼를 복제해 다이 간 트래픽을 줄입니다 . 버퍼를 올바르게 배치하기 위해 Kog는 문서화되지 않은 물리 주소-IOD 매핑을 역공학으로 파악했다고 밝힙니다. 덕분에 특정 CU가 접근하는 데이터는 토큰 처리 중 패브릭을 건너지 않고 자체 다이에 머뭅니다 .

그 효과는 동기화에서 가장 두드러집니다. 퍼시스턴트 커널 내부에서 256개의 블록은 매 스텝마다 배리어에 합의해야 하는데, 단순한 크로스-다이 배리어는 비용이 큽니다. 2048바이트 버퍼를 게시하는 256-CU 테스트에서 Kog는 토폴로지-인식 방식의 배리어 레이턴시를 0.80–0.93 µs로, 단순 방식은 7.59–7.88 µs로 보고합니다 — 약 9배 빠른 왕복입니다 . 공개 포스트에서는 프로덕션 배리어를 약 600 ns로 제시합니다 .

배리어 방식 (256 CU, 2048 B 버퍼)	레이턴시
단순 크로스-다이 배리어	7.59–7.88 µs
Kog 토폴로지-인식 (테스트)	0.80–0.93 µs
Kog 토폴로지-인식 (프로덕션, 보고)	~600 ns

토큰당 예산이 ~333 µs인 상황에서 매 배리어마다 ~7 µs를 절약하고 다이 간 버퍼 읽기를 완전히 제거하는 것은 3,000 tok/s 달성과 그 훨씬 못 미치는 성능 사이의 차이를 만듭니다. 이것이 이 작업이 쉽게 일반화되지 않는 이유이기도 합니다. 주소-다이 매핑은 이 패키지에 특화되어 있어, 다음 GPU 세대를 위해서는 동일한 작업을 처음부터 다시 해야 합니다 .

지연 TP: Kog가 batch=1에서 all-reduce 오버헤드를 숨기는 방법

지연 텐서 병렬화(DTP)는 텐서 병렬 all-reduce를 디코드 임계 경로에서 제거하는 Kog의 기법으로, 이를 뒤로 미뤄 이후의 가중치 스트리밍이나 다운스트림 연산과 겹치도록 합니다. 배치 크기 1에서는 배치 서빙보다 훨씬 중요합니다. 동시 요청이 많을 때는 GPU 간 부분 결과 동기화 비용이 배치 전체에 분산되지만, 단일 요청은 숨길 것이 없어 모든 all-reduce가 8개 GPU 전체가 합의할 때까지 처리 중인 토큰 하나를 멈추게 만듭니다 (source: Kog, 2026-05).

8× MI300X 노드는 각 레이어의 가중치를 8개의 가속기에 분산하고, AMD의 Infinity Fabric으로 통신합니다. 2025년 7월 MI300X 벤치마크에서 Kog는 TP=8 기준 크로스-GPU 레이턴시를 약 4 µs로 측정했습니다. 단독으로는 작은 수치지만, 어텐션과 FFN 블록 이후마다 발생하는 all-reduce가 약 25개 레이어에 걸쳐 레이어당 10회 이상 반복되면, 토큰당 예산 333 µs 대비 직렬 집합 연산이 임계 경로에서 상당한 비중을 차지하게 됩니다.

DTP는 의존성 그래프를 재구성하여 all-reduce가 더 이상 다음 연산을 막지 않도록 합니다. 각 블록이 집합 연산이 끝날 때까지 기다리는 대신, Kog는 리덕션을 지연시켜 다음 블록의 가중치 프리페치나 리덕션 결과에 아직 의존하지 않는 연산과 동시에 실행되도록 합니다. 리덕션 자체는 여전히 일어나지만, GPU가 유휴 상태로 대기하는 동안 회선을 점유하지 않습니다. 앞서 설명한 토폴로지-인식 배리어, 어텐션 처리 중 FFN 가중치 프리페치와 결합하면, 그렇지 않으면 통신 지연이 발생했을 구간에서도 장치를 바쁘게 유지합니다.

그 대가는 범용성입니다. DTP는 기존 프레임워크에 바로 적용할 수 있는 이식 가능한 추상화가 아니며, 모델 아키텍처마다 재구현하고 GPU 세대마다 재튜닝해야 합니다. 창업자는 이를 batch-1 레이턴시를 위해 팀이 의도적으로 수용하는 기술 부채라고 설명합니다 (source: Hacker News discussion, 2026-05). 모델별, 칩별 수동 오버랩 스케줄링이라는 이 트레이드오프는 Kog 스택 전반을 관통하는 동일한 제약입니다.

2B 데모와 프론티어 규모: Kog가 확인한 것과 아직 남은 것

초당 3,000 토큰이라는 헤드라인은 의도적으로 단순화된 소규모 워크로드에 기반합니다. HumanEval에서 50%를 기록하는 20억 파라미터 Laneformer 코딩 모델을 배치 크기 1, 시퀀스 길이 4,096 토큰으로 실행했으며, 양자화·추측 디코딩·프루닝·조기 종료·KV 캐시 압축은 일절 적용되지 않았습니다 . 커널 오버헤드 절감 효과만을 순수하게 측정하는 데는 올바른 방법이지만, 어디까지나 2B 모델이지 프론티어 모델이 아니며, 그 간극이 바로 Kog 스스로 단서를 달아두는 지점입니다.

상한부터 살펴보겠습니다. Kog의 대역폭 분석에 따르면 8× MI300X 노드의 실효 집계 메모리 대역폭은 약 33.6 TB/s이며, ~4 GB FP16 활성 가중치의 2B 모델 기준 이론적 상한은 약 8,400 tok/s입니다 . ~3,000 tok/s에서 모노커널은 이 이론치의 약 36%를 사용하고 있습니다 — 런치 바운드 디코드 루프치고는 빠른 수치지만 하드웨어를 포화시키기엔 거리가 멀고, 추가 튜닝 여지와 대형 모델의 여유 공간 회수 가능성이 모두 남아 있습니다.

항목	2B 프리뷰 (실측)	~49B급 (Kog 추정)
요청당 디코드	8× MI300X에서 ~3,000 tok/s	차세대 GPU에서 ~1,000 tok/s
상태	벤치마크 완료, batch=1	추정치 / 상한값, 미실행
사용된 대역폭 한도	~8,400 tok/s 한도의 ~36%	KV 캐시 트래픽·라우팅·집합 통신에 따라 상이

추정치 자체가 핵심을 드러냅니다. Kog는 차세대 GPU에서 ~49B급 모델의 경우 ~1,000 tok/s에 불과할 것으로 추정하며, 이 수치가 KV 캐시 트래픽·전문가 라우팅·동기화·집합 통신·양자화·배칭에 따라 달라지는 대략적인 추정임을 명시하고 있습니다 . 이러한 비용들은 2B 단일 스트림 디코드가 결코 겪지 않는 방식으로 규모에 따라 급증합니다 — KV 캐시가 클수록 토큰당 메모리 트래픽이 늘어나고, MoE 라우팅은 CU별 깔끔한 매핑을 깨트리며, 크로스 다이 교환은 모델 폭에 비례해 커집니다.

"대형 모델은 아직 벤치마크하지 않았습니다 — 큰 수치들은 상한값이며, 실제로 얼마나 유지될지는 KV 캐시 트래픽·라우팅·동기화에 달려 있습니다." — Kog 창업자 발언 의역, Hacker News 토론 (source: Hacker News, 2026-05).

2026년 6월 초 현재, Kog는 대형 모델 벤치마크를 공개하지 않았으며, 인용 가능한 주요 결과는 2B 데모에 고정되어 있습니다 . 널리 공유된 "3,300 tok/s" 수치는 커뮤니티와 애그리게이터가 상한값 사례(batch 1, 추측 디코딩 없음, 양자화 없음)로 프레이밍한 헤드라인이며, Kog 자체 포스트의 표현과는 다릅니다 . 3,000은 문서화된 수치로, 3,300은 낙관적 상단으로 다루고 — 프론티어 규모의 모든 수치는 Kog가 프로덕션 규모 모델 벤치마크를 공개하기 전까지 미검증으로 취급해야 합니다.

Groq·Taalas·Cerebras: Kog가 비교하지 않은 경쟁자들

Kog의 3,000 tok/s는 고속 디코드 주장들이 난무하는 치열한 경쟁 속에 위치하며, 명백한 비교 대상인 경쟁자들은 Kog의 벤치마크에서 빠져 있었습니다. Hacker News 비평가들은 특히 Taalas·Cerebras·Groq 세 곳을 지목했는데, 각각 서로 다른 트레이드오프를 통해 비슷하거나 더 높은 수치를 달성합니다. 따라서 MI300X에서 FP16·batch-1·비양자화 조건으로 측정된 Kog의 결과와 단순 비교하기는 어렵습니다 . 2B 모델에서 3,000 tok/s가 실제로 무엇을 의미하는지 판단하려면 나란히 놓고 읽는 수밖에 없습니다.

Taalas는 배치 크기 1에서 약 15,000 tok/s에 달한다고 알려졌지만, 디코드 루프가 스트리밍해야 하는 메모리 풋프린트를 대략 절반으로 줄이는 3비트 양자화를 활용합니다 . 이는 Kog가 명시적으로 선택하지 않은 정밀도-속도 교환이므로, Kog의 FP16 수치와 비교하는 것은 서로 다른 문제를 비교하는 셈입니다.

Cerebras는 가장 극명한 대조를 이룹니다. 헤드라인 수치가 동일하기 때문입니다. Cerebras는 자사 웨이퍼 스케일 하드웨어에서 gpt-oss-120B 모델을 3,000 tok/s로 공식 광고하고 있습니다 . 120B에서 동일한 처리량을 달성하는 것은 Kog의 2B보다 한 자릿수 더 어려운 문제입니다 — 토큰당 스트리밍해야 할 활성 가중치가 훨씬 많기 때문이며, 이것이 앞 섹션에서 열어둔 바로 그 스케일링 간극입니다.

Groq는 별도 범주에 속합니다. Groq의 LPU는 범용 GPU 위에 얹힌 소프트웨어 최적화가 아니라, 직렬 디코드를 위해 목적 설계된 결정론적 실리콘입니다 . Kog는 Groq를 능가한다고 주장하지 않으며, 소프트웨어 대 커스텀 하드웨어 비교는 공정한 대결이 될 수 없습니다.

시스템	보고된 tok/s (batch=1)	정밀도	모델 크기	방식
Kog (MI300X)	~3,000	FP16	2B	GPU 모노커널
Cerebras	~3,000	—	120B (gpt-oss)	웨이퍼 스케일 하드웨어
Taalas	~15,000	3비트	—	양자화 커스텀 스택
Groq	높음 (직렬)	—	—	커스텀 LPU 실리콘

Kog의 이전 증거에도 자체적인 단서가 있습니다. 2025년 7월 AMD가 게재한 포스트에서 Kog는 1B~32B 활성 파라미터 모델에 대해 배치 크기 1·TP=8 조건으로 MI300X에서 vLLM 및 TensorRT-LLM 대비 최대 3.5배 빠른 토큰 생성을 주장했습니다 . 그러나 방법론을 보면 웜업 10회 후 단 1회의 벤치마크 반복이었으며, AMD는 해당 내용이 Kog의 의견이며 AMD의 공식 견해가 아닐 수 있다는 면책 조항을 달았습니다 — 이 배수를 확정된 수치로 받아들이기 전에 반드시 고려해야 할 사항입니다.

도입 전 확인: Kog가 아직 대규모로 증명하지 못한 것들

데이터센터 MI300X 또는 H200 노드에서 단일 요청·장문 생성 워크로드를 운영 중이라면 Kog Inference Engine의 레이턴시 테스트를 지금 당장 해볼 만하다. 그 외의 경우, 2026년 6월 현재 검증된 사례가 없다. 이 엔진은 독점 소프트웨어로 HIP/어셈블리 수준에서 직접 작성되었으며, 설립자는 Hacker News 댓글에서 최적화 작업이 번거롭고 모델 및 GPU 세대마다 처음부터 다시 해야 하며 범용적인 지름길이 없다고 인정했다 . 기술 미리보기에 소스 공개가 없어, 8× MI300X에서 ~3,000 tok/s라는 수치는 Kog가 문서화한 것일 뿐 코드로 독립 재현이 불가능하다 .

"드롭인, vLLM 호환 대체제"라는 표현은 Kog의 자체 마케팅 문구로, 서드파티 보고서가 아닌 자사 사이트에서 나온 것임을 감안해야 한다 . 독립적인 호환성 검증이나 재현 결과는 발표된 바 없다. 2025년 7월 AMD 주관 블로그 포스트의 배율 수치에도 동일한 주의가 필요하다. AMD는 해당 콘텐츠가 Kog의 의견이며 반드시 AMD의 입장을 대변하지 않는다는 면책 조항을 붙였다 .

적합성 판단은 원시 속도가 아니라 워크로드 유형에 달려 있다. 이 엔진은 배치 크기 1의 직렬 디코드, 즉 요청 하나가 수만 토큰을 순차 출력하고 실제 소요 시간이 병목인 환경을 겨냥한다. AI 코딩 작업이나 장시간 추론 실행이 가장 잘 맞는 사례다. 반면 고동시성 채팅 서빙은 배칭·큐잉·첫 토큰까지의 시간·백만 토큰당 비용이 지배하는 전혀 다른 문제이며, 이미 배치 처리에 최적화된 프레임워크들이 충분히 담당하고 있다.

의사결정 기준:

도입 검토: 데이터센터에 MI300X 또는 H200 용량을 보유하고 있고, 단일 요청·장문 생성 작업이 상당 비중을 차지한다면. batch=1 디코드에서 남은 헤드룸은 실재하며, playground.kog.ai의 라이브 플레이그라운드에서 도입 전 레이턴시를 직접 측정할 수 있다 .
지금은 보류: SLA에서 첫 토큰까지의 시간이나 백만 토큰당 비용이 우선순위이거나, 고동시성을 서빙하거나, 최전선 규모의 모델이 필요하다면. Kog는 차세대 GPU에서 ~49B급 모델의 속도를 ~1,000 tok/s 수준으로 전망했으며 실제 벤치마크는 진행하지 않았다 .

한 Hacker News 댓글러의 표현을 빌리면, 2B 모델 데모에서 대형 모델로 외삽하는 것은 "4코어 측정치로 256코어가 256배 빠르다고 가정하는 것"과 다름없다 . 커널 실행 인사이트 자체는 타당하고 잘 문서화되어 있지만, 프로덕션 규모의 약속은 아직 검증되지 않았다. 자신의 워크로드를 직접 벤치마크하고, 폐쇄적·모델별 튜닝 스택의 종속 위험을 따져본 뒤, 3,000이라는 숫자가 아닌 측정된 레이턴시로 판단하길 권한다.

자주 묻는 질문

GPU LLM 디코딩에서 모노커널(또는 메가커널)이란?

모노커널은 토큰 사이에 종료되지 않고 전체 토큰 디코딩 경로를 실행하는 단일 상주형 GPU 프로그램입니다. 기존 스택은 GEMV, all-reduce, 정규화, 샘플링 등 각 연산마다 별도의 커널을 실행하며 매 경계마다 고정 비용을 지불합니다. Kog는 MI300X의 커널 실행·정리 오버헤드를 커널당 약 4.5 µs로 측정했으며, 레이어당 약 10개의 커널과 약 25개의 레이어를 기준으로 토큰당 순수 오버헤드가 약 1,125 µs에 달하는 것으로 나타났습니다. 모노커널은 모델 실행, 통신, 동기화, 프리페치, 샘플링을 하나의 상주 프로그램 안에 유지함으로써 CPU 측 스케줄링과 단계별 실행 비용을 제거합니다.

Kog의 초당 3,000 토큰 결과가 70B·405B 같은 대형 LLM에도 적용되나요?

아직 입증된 바 없습니다. 공개된 주요 수치인 8× MI300X에서 요청당 출력 3,000 토큰/s는 배치 크기 1, FP16 기준 20억 파라미터 코딩 모델에 대한 결과로, 양자화나 추측적 디코딩은 적용되지 않았습니다. 약 490억 클래스 모델에 대한 Kog 자체 추정치는 차세대 GPU에서 약 1,000 tok/s에 불과하며, 대형 모델에 대한 벤치마크는 수행하지 않았습니다. KV 캐시 트래픽, 동기화 오버헤드, 집합 통신 비용은 모델 크기에 따라 증가하는데, 이는 2B 데모에서 반영되지 않는 부분이므로 최전선 규모의 성능은 상한 추정치에 머물러 있습니다.

모노커널 방식은 추측적 디코딩과 어떻게 다른가요?

두 방식은 서로 다른 병목을 공략합니다. 추측적 디코딩은 초안 모델로 스텝당 여러 토큰을 제안한 뒤 검증하는 방식으로 전체 디코딩 반복 횟수를 줄입니다. 반면 모노커널은 각 반복 내에서 스텝별 커널 실행 및 CPU 스케줄링 오버헤드를 제거합니다. 두 방식은 경쟁 관계라기보다 잠재적으로 상호 보완적이지만, Kog의 벤치마크는 추측적 디코딩이나 멀티 토큰 방식을 전혀 사용하지 않고 시퀀스 길이 4096에서 순수 자기회귀 디코딩을 실행했습니다. 추측적·멀티 토큰 방식은 모노커널이 겨냥하는 메모리 바운드 배치=1 구간에서 병목을 다른 곳으로 이동시키기도 합니다.

Kog의 추론 엔진은 오픈소스이거나 공개적으로 접근 가능한가요?

독점 소프트웨어입니다. 지연 시간 테스트를 위한 라이브 플레이그라운드가 playground.kog.ai에서 제공되며, Kog는 이 엔진을 vLLM 호환 드롭인 대체품으로 마케팅하고 있으나, 이는 독립적으로 검증된 것이 아닌 벤더 주장입니다. 구현체는 수작업으로 최적화된 HIP/어셈블리 수준의 코드로, 창업자에 따르면 모델마다, GPU 세대마다 다시 작성해야 합니다. 소스코드는 공개되지 않아 현재 코드 기반의 독립적인 재현은 불가능합니다. 기술 미리보기는 2026년 5월 28일에 출시되었습니다.

단일 요청 디코딩 속도가 전체 서빙 처리량보다 더 중요한 경우는?

단일 요청이 수만 개의 연속 토큰을 생성하고 실제 소요 시간이 병목인 경우에 중요합니다 — AI 코딩 에이전트, 긴 추론 체인, 자율 태스크 루프가 이에 해당합니다. 이 경우 배치 크기 1의 디코딩 속도가 작업 소요 시간을 직접 결정합니다. 고동시 채팅 서빙은 다른 영역으로, 배칭·큐잉·첫 토큰 응답 시간·백만 토큰당 비용이 지배적이어서 배치=1 최적화가 큰 이점을 제공하지 않습니다. Kog의 표현에 따르면, vLLM, SGLang, TensorRT-LLM 같은 배치 처리량 최적화 프레임워크는 단일 요청 측면에서 상당한 여지를 남겨두고 있습니다.