RAG는 필요 없다 — SubQ는 코드베이스 전체를 한 번에 로드한다

SubQ(Subquadratic)는 프라이빗 베타 중인 OpenAI 호환 LLM으로, 서브이차 희소 어텐션 아키텍처를 채택했다. base URL api.subq.ai/v1, 베어러 인증, subq-preview 모델 ID, SubQ Code CLI, 그리고 1M 검증(12M 아님) 컨텍스트를 제공한다. 연동 방법을 안내한다.

Creeta

Jun 20, 2026

SubQ의 핵심 아이디어는 한 문장으로 요약됩니다. 청킹과 검색을 버리고 코드베이스 전체를 단일 컨텍스트 창에 올린다는 것입니다. 이를 경제적으로 가능하게 한다는 아키텍처, 그리고 이를 뒷받침하는 근거와 그렇지 않은 근거를 들여다보는 데서 흥미로운 이야기가 시작됩니다.

서브쿼드래틱 어텐션의 원리 (그리고 근거가 멈추는 지점)

Skip RAG entirely — SubQ loads your whole codebase in one pass

SubQ는 스타트업 Subquadratic이 2026년 5월 5일 공개한 장문맥 언어 모델로, 핵심 주장은 완전한 서브쿼드래틱·희소 어텐션 설계입니다. 컨텍스트 길이에 따른 연산량이 제곱이 아닌 선형에 가깝게 증가한다고 밝히고 있습니다 . 표준 트랜스포머 어텐션은 토큰 간 모든 쌍의 내적을 계산합니다(O(n²)). SubQ는 이를 선택적 연결로 대체하며, 이론적으로는 전체 문서 세트나 저장소를 한 번의 패스로 처리할 수 있게 해 주는 아키텍처적 전환점입니다.

성능 수치는 공격적이며 모두 Subquadratic의 자체 론칭 포스트에서 비롯됩니다. 희소 어텐션이 FlashAttention 대비 "52배 빠르고" 연산량은 "63% 절감"되며 처리량은 약 150 tokens/sec라고 하지만, 독립적으로 재현된 결과는 없습니다 . 벤더 공개 벤치마크에서는 RULER 128K 재현율이 약 95.6%(Claude Opus ~94.8% 대비), MRCR v2 1M 토큰에서 약 65.9%(Opus ~32.2% 대비)를 기록하며 장문맥 검색에는 강하지만 프런티어 모델 대비 코딩 성능은 중간 수준입니다 .

"코드베이스, 문서 세트, 히스토리 전체를 단일 컨텍스트 창에 한 번의 패스로 올립니다"라는 것이 회사의 공식 피치입니다. Subquadratic은 CEO Justin Dangel과 CTO Alex Whedon이 이끌고 있습니다 (source: Introducing SubQ).

셋업 전에 한 가지 주의할 점이 있습니다. 호출 가능한 모델은 'subq-preview'로 제공되며, 마케팅상 최대 컨텍스트는 12M 토큰이지만 공개된 평가는 모두 1M에서 멈춥니다. 이 간극에 대한 설명은 없고 전체 모델 카드는 "곧 공개 예정"입니다 .

SubQ 연결하기: URL, 베어러 헤더, 실행 예제

SubQ는 OpenAI 호환 REST API로 제공되므로, 연결 시 변경해야 할 값은 두 가지(베이스 URL과 키)뿐이며 요청 코드는 그대로 사용할 수 있습니다. 베이스 URL은 https://api.subq.ai/v1이고, 인증은 SUBQ_API_KEY 환경 변수에서 읽은 표준 베어러 토큰을 사용하며, 모델 식별자 subq-preview로 POST /v1/chat/completions를 호출합니다 . 기존 Chat Completions 코드는 수정 없이 그대로 실행됩니다. role/content 메시지 스키마, stream 파라미터, 도구/함수 호출 모두 OpenAI 스펙을 그대로 따릅니다 .

사전 준비. 시작 전 세 가지를 갖춰야 합니다:

subq.ai의 얼리 액세스 초대. 모델이 비공개 베타 상태이므로 API 키가 먼저 발급되어야 합니다.
Python 3.9 이상 (또는 HTTP 요청이 가능한 환경).
openai 패키지 1.0 이상, 또는 원시 요청을 선호한다면 httpx.

1단계: 키 설정. 별도의 커스텀 헤더 형식은 없으며 일반적인 베어러 패턴을 사용합니다.

export SUBQ_API_KEY=<your_key>

2단계: OpenAI 클라이언트를 SubQ 베이스 URL로 지정합니다.

import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.subq.ai/v1",
    api_key=os.environ["SUBQ_API_KEY"],
)

3단계: 채팅 완성을 요청합니다. messages 배열은 OpenAI 스키마와 동일합니다.

resp = client.chat.completions.create(
    model="subq-preview",
    messages=[
        {"role": "system", "content": "You are a code reviewer."},
        {"role": "user", "content": "Summarize the architecture of this repo."},
    ],
)
print(resp.choices[0].message.content)

4단계: 매우 큰 입력의 경우 검색 스택을 건너뜁니다. 청킹이나 검색 파이프라인 없이 문서나 코드베이스 전체를 사용자 메시지에 직접 붙여 넣으세요. Subquadratic이 제안하는 단일 패스 방식입니다 . 호출 가능한 프리뷰는 마케팅상 12M 토큰 한도에도 불구하고 1M 토큰까지만 벤치마크되어 있다는 점을 유의하세요.

선택 사항: 스트리밍과 도구 호출. SSE 토큰 스트리밍에는 stream=True를 추가하고, 함수 호출은 수정되지 않은 OpenAI tools 스키마를 그대로 사용합니다.

stream = client.chat.completions.create(
    model="subq-preview",
    messages=[{"role": "user", "content": "Explain main.py line by line."}],
    stream=True,
)
for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="")

설정	값
베이스 URL	`https://api.subq.ai/v1`
인증	`SUBQ_API_KEY`의 베어러 토큰
엔드포인트	`POST /v1/chat/completions`
모델 ID	`subq-preview`
스트리밍	`stream=True` (SSE)

알 수 없는 것들: 요금도, GA 일정도, 독립 검증도 없다

subq-preview를 유료 서비스에 연결하기 전에, 빠진 정보가 무엇인지 파악해야 합니다. SubQ는 개발자 문서 어디에도 토큰당 가격을 공개하지 않습니다. 비용 설명은 비교 형태뿐입니다. Subquadratic은 이 모델이 프런티어 장문 컨텍스트 LLM 대비 약 1/5에서 1/20 수준의 가격이라고 제시하지만, 구체적인 금액이 없으니 그 비율은 현재로서는 검증이 불가능합니다. 실제 워크로드에서 지출을 예측하거나 예산을 설정하거나, GPT-5.5나 Claude Opus와 비교하는 것도 할 수 없습니다.

접근이 제한되어 있습니다. 2026년 6월 기준으로 공식 출시(GA) 일정은 발표된 바 없으며, 모델은 프라이빗 베타로 운영 중이고 '얼리 액세스 신청' 양식만이 유일한 진입 경로입니다 . SLA도, 공개된 속도 제한도, 마이그레이션 일정도 없습니다.

벤치마크 수치도 같은 회의적 시각이 필요합니다. RULER 128K 약 95.6%, MRCR v2 1M 약 65.9% 등 모든 수치는 Subquadratic의 2026년 5월 5일 자체 발표 또는 이를 반복한 2차 보도로 거슬러 올라갑니다 . 출시 시점에 독립적인 재현 결과는 없었으며, 2차 출처들은 실험실 환경과 실제 운영 환경의 재현율 사이에 설명되지 않은 격차가 있다고 지적합니다.

"공개 엔드포인트에서 제3자가 이 평가를 재실행하기 전까지, 공개된 수치를 보장이 아닌 상한선으로 취급하세요." (독립 보도 종합; source: DataCamp, 2026-05)

직접 검증해보기: 전체 저장소 수집, 바늘 찾기 테스트, 스트리밍

SubQ를 실제 서비스에 연결하기 전에, 직접 보유한 콘텐츠로 먼저 테스트해 보세요. 대용량 입력을 처리하는 두 가지 보조 제품이 있습니다. SubQ Code는 별도로 설치하는 CLI 코딩 에이전트로, 전체 저장소를 한 번의 패스로 단일 컨텍스트 창에 로드합니다 . 파일을 수동으로 연결하지 않고 파일 간 리팩토링과 의존성 추적에 유용합니다. SubQ Search는 장문 컨텍스트 리서치용 대응 제품으로, 청크 임베딩 파이프라인을 구축하는 대신 대용량 PDF나 마크다운 코퍼스를 직접 입력할 수 있습니다 .

가장 빠른 검증 방법은 실제 사용할 콘텐츠 유형으로 500K 토큰 이상에서 바늘 찾기(needle-in-haystack) 테스트를 실행하는 것입니다. RULER 128K(약 95%)와 MRCR v2 1M(약 65.9%)의 재현율 수치 는 SubQ가 여러분의 코드베이스나 문서 조합을 어떻게 처리하는지를 보여주지 않으므로, 프로덕션 연동을 확정하기 전에 직접 확인하세요.

드라이 런을 마무리하는 두 가지 연동 확인 사항: 출력이 약 4K 토큰을 초과하는 경우 stream=True를 설정하고, 최소 스키마로 툴 호출을 실행해 함수 호출 왕복이 정상 작동하는지 확인하세요 . 결론적으로, 공개 엔드포인트는 자체 데이터 기준 벤치마크용 프라이빗 베타 도구로 취급하세요. 아직 기존 검색 시스템을 바로 대체할 수 있는 완성품은 아닙니다.

자주 묻는 질문

SubQ API의 기본 URL은 무엇인가요?

기본 URL은 https://api.subq.ai/v1입니다 . OpenAI SDK의 base_url 매개변수에 이 URL을 입력하고, SUBQ_API_KEY 환경 변수에 키를 설정해 표준 베어러 토큰으로 인증하세요. 커스텀 헤더는 필요하지 않습니다. 이 엔드포인트는 OpenAI Chat Completions 계약을 따르므로 SDK가 인증을 대신 처리합니다.

서브쿼드라틱 모델을 사용하려면 어떤 모델 문자열을 전달해야 하나요?

model 필드에 subq-preview를 전달하세요 . 일부 문서에는 subq-1m-preview도 별칭으로 나와 있으며, 둘 다 동일한 얼리 액세스 체크포인트로 연결됩니다. 공개된 벤치마크는 최대 1M 토큰까지만 테스트되었습니다 . 별도의 GA 모델 식별자는 아직 없습니다.

SubQ의 1,200만 토큰 컨텍스트 창은 검증되었나요?

아니요. 2026년 6월 기준으로 공개된 모든 평가는 1M 토큰에서 멈추며, 1,200만 토큰 수치는 벤더 측 주장에 불과합니다 . 이를 확인한 제3자 벤치마크는 없으며, 전체 모델 카드는 여전히 '출시 예정'으로 표기되어 있고, 대부분의 수치는 Subquadratic의 2026년 5월 5일 자체 발표로 거슬러 올라가며 독립적인 재현 결과는 없었습니다 .

SubQ Code는 REST 엔드포인트를 직접 호출하는 것과 어떻게 다른가요?

SubQ Code는 전체 로컬 저장소를 하나의 컨텍스트 패스로 자동 수집하는 CLI 코딩 에이전트로, 파일 탐색과 연결을 대신 처리합니다 . REST 엔드포인트는 수집 기능이 없습니다. 콘텐츠를 직접 조합해 제출해야 합니다. 파일 탐색기를 직접 작성하지 않고 전체 저장소 기반 추론이 목표라면 SubQ Code가 지름길입니다. 컨텍스트 창에 들어가는 내용을 프로그래밍 방식으로 제어해야 한다면 /v1/chat/completions를 직접 호출하세요.

기존 OpenAI SDK 연동 코드를 SubQ용으로 다시 작성해야 하나요?

아니요. base_url을 https://api.subq.ai/v1으로 변경하고, API 키 환경 변수를 SUBQ_API_KEY로 교체한 뒤 model='subq-preview'로 설정하면 됩니다 . 표준 채팅 완성, stream 매개변수를 통한 스트리밍, 툴/함수 호출 모두 추가 수정 없이 작동합니다. API가 OpenAI 호환이기 때문입니다 .