Ideogram 4는 JSON으로 훈련됐다 — 일반 프롬프트는 2등급 취급

Ideogram 4.0: 오픈 웨이트, JSON 우선 프롬프팅, 바운딩 박스 레이아웃, 네이티브 2K. API는 이미지당 $0.03부터.

Ideogram 4는 JSON으로 훈련됐다 — 일반 프롬프트는 2등급 취급
Share

Ideogram 4.0이 2026년 6월 3일 출시되었으며, 모델과 대화하는 방식이 달라집니다: 다운로드 가능한 가중치, 네이티브 2K 출력, 그리고 산문이 아닌 JSON 우선 프롬프트 형식이 핵심입니다.

Ideogram 4에서 처음 가능해진 것들

Ideogram 4.0은 이 회사 최초의 공개 가중치(open-weight) 텍스트-이미지 파운데이션 모델로, 93억 개의 파라미터로 처음부터 훈련되었으며 공개 모델 카드를 함께 제공하는 첫 번째 Ideogram 릴리스입니다 . 1~3 버전은 모두 폐쇄형 앱 전용이었기 때문에, 자체 하드웨어에서 모델을 직접 실행할 수 있게 된 것은 이번이 처음입니다 .

빌더에게 중요한 세 가지 변화:

  • 가중치 다운로드 지원. NF4 체크포인트는 Diffusers를 지원하는 24GB CUDA GPU 한 장에서 실행되며, FP8 빌드는 Diffusers 없이도 더 넓은 하드웨어 환경을 지원합니다 .
  • 단일 체크포인트로 네이티브 2K 해상도. 단일 가중치가 6:1~1:6 비율에서 한 변 기준 256~2048px를 모두 커버하므로, 기존 버전에서 필요하던 생성 후 업스케일 과정이 사라집니다 .
  • JSON 우선 프롬프팅. 4.0은 구조화된 JSON 캡션으로만 훈련되었기 때문에, json_prompt를 사용하면 Magic Prompt 확장을 건너뛰고 디퓨전 모델에 직접 전달됩니다. 일반 텍스트도 작동하지만 해당 정렬 과정이 생략됩니다 .

순위를 보면: 출시 시점에 4.0은 DesignArena 텍스트-이미지 아레나 전체 9위, 공개 배포 모델 중 1위를 기록했습니다 . Ideogram의 자체 선호도 평가에서는 ELO 1062로 9개 모델 중 2위를 보고하고 있으나, 벤더가 직접 수행한 평가이며 독립 검증은 이루어지지 않았습니다 .

인증과 진입점 선택

Ideogram 4 was trained on JSON — plain prompts are second-class

Ideogram 4.0은 세 가지 접근 방식을 제공하며, 어떤 것을 선택할지는 설정 없이 바로 시작하고 싶은지, 프로그래밍 방식으로 접근하고 싶은지, 아니면 가중치를 직접 제어하고 싶은지에 따라 달라집니다. ideogram.ai의 호스팅 앱은 로그인만 하면 됩니다: 모델 4.0을 선택하고 프롬프트를 입력한 뒤 생성하여 다운로드하면 됩니다. JPEG 내보내기는 모든 플랜에서 가능하지만, PNG는 Basic 플랜 이상이 필요하며, 일괄 생성(Batch Generation)은 Pro 및 Team 플랜 전용으로 헤더 포함 최대 500행까지 업로드할 수 있습니다 .

자동화를 위한 경로는 호스팅 API입니다. developer.ideogram.ai에서 Api-Key를 발급받은 뒤, /v1/ideogram-v4/generate 엔드포인트에 multipart/form-data로 POST 요청을 보냅니다. 구독 없이 출력 이미지당 과금되며, 가격은 Turbo $0.03, Default $0.06, Quality $0.10이고 기본 동시 요청 한도는 10개입니다 .

자체 호스팅을 위해서는 ideogram-oss/ideogram-4를 클론하고 pip install .을 실행한 뒤, hf auth login 또는 HF_TOKEN 환경 변수로 인증합니다. ideogram-ai/ideogram-4-nf4 및 ideogram-4-fp8 저장소는 게이트가 걸려 있어 가중치를 내려받기 전에 라이선스에 동의해야 하며, nf4 빌드는 24GB GPU 한 장으로 실행 가능합니다 .

서비스 방식비용최소 하드웨어처리량 한도출력 형식
호스팅 앱플랜 구독없음 (브라우저)일괄 ≤500행 (Pro/Team)JPEG 전 플랜; PNG Basic+
호스팅 API$0.03–$0.10/이미지없음 (HTTP)동시 요청 10개임시 URL (다운로드)
자체 호스팅무료 가중치 + 자체 컴퓨팅24GB GPU (nf4)하드웨어 성능에 따름로컬 파일

JSON 프롬프트 작성법: Ideogram 4가 요구하는 형식

Ideogram 4 was trained on JSON — plain prompts are second-class

Ideogram 4의 JSON 프롬프트에는 세 가지 최상위 필드가 있으며, 이를 활용하는 것이 파워 유저의 세밀한 제어와 산문 방식의 감각적 추측을 가르는 핵심입니다: high_level_description(이미지를 한두 문장으로 요약), style_description(매체, 조명, 색상 팔레트), compositional_deconstruction(배경 요소를 먼저 나열하고 그다음 전경 오브젝트 — 순서가 중요) . 이 모델은 구조화된 JSON 캡션만으로 학습되었기 때문에, JSON으로 작성하면 학습/추론 간 불일치를 최소화하고 일반 텍스트 대비 제어 가능성이 높아집니다 .

"4.0은 구조화된 JSON 캡션만으로 학습되었으므로, JSON은 학습/추론 불일치를 최소화하고 제어 가능성을 높입니다." — Ideogram 4.0 프롬프트 가이드 (source: imagine.art prompt guide)

medium을 명시적으로 선언하세요. "photograph"로 설정하고 photo 필드(초점 거리, 조리개, 필름 스톡 — 예: "35mm, f/2.8, shallow depth of field")를 추가하거나, "graphic_design"으로 설정하고 art_style을 추가하세요. photo 필드와 art_style을 같은 프롬프트에 함께 사용하면 출력 품질이 저하됩니다 .

공간 제어는 왼쪽 상단을 원점으로 하는 0–1000 캔버스에서 정규화된 [y_min, x_min, y_max, x_max] 좌표의 바운딩 박스를 사용합니다. 대략적인 좌표로 충분하며 픽셀 단위 정밀도는 필요하지 않습니다 . 멀티라인 타이포그래피의 경우 각 텍스트 요소에 겹치지 않는 박스를 별도로 지정하세요 — 박스가 겹치면 글자가 깨지는 흔한 원인이 됩니다. 색상은 반드시 대문자 #RRGGBB 헥스 형식(예: #FF6B35)으로 지정해야 하며, 전체 팔레트에 최대 16개, 요소별로 최대 5개까지 사용할 수 있습니다. 색상을 단어로 표현("deep red", "warm orange")하면 출력 품질이 눈에 띄지 않게 저하됩니다 .

렌더링된 텍스트의 경우, 표시 문자열과 그 사양을 분리하는 것이 글리프 오류와 오탈자를 억제하는 메커니즘입니다. 실제 문자열은 text에, 타이포그래피 사양(폰트, 굵기, 크기, 색상)은 desc에 넣으세요 . 같은 의도를 두 방식으로 구조화해보면 차이가 가장 명확하게 드러납니다 — 아래 스니펫은 성공적으로 실행되며 두 형식을 모두 출력해, 산문이 개별 필드를 느슨한 힌트로 축소하는 방식을 보여줍니다:

import json

intent = {
    "subject": "a red enamel coffee mug",
    "style": "clean studio product photo",
    "text": "JSON FIRST",
    "composition": "centered, white background, soft shadow",
    "constraints": ["legible text", "no extra objects"],
}

plain_prompt = (
    "A clean studio product photo of a red enamel coffee mug that says "
    "'JSON FIRST', centered on a white background with a soft shadow. "
    "Make the text legible and add no extra objects."
)

json_prompt = json.dumps(intent, indent=2)

print("plain prompt:")
print(plain_prompt)
print("\njson prompt for Ideogram 4:")
print(json_prompt)
print("\npoint: keep prompt intent structured; plain prose collapses fields into hints.")

4.0 현황: 알려진 문제와 미완성 기능

Ideogram 4 was trained on JSON — plain prompts are second-class

Ideogram 4.0은 오픈 웨이트 모델로 현재 운영 중이지만, 여러 부분이 아직 변동 중입니다 — 배포 전에 이 점을 감안해 계획을 세우세요. 현재 가장 큰 격차는 렌더링 속도입니다. FLASH는 "출시 예정"으로 표시되어 있으며 현재 HTTP 400을 반환합니다. 작동하는 티어는 TURBO(12단계, V4_TURBO_12), DEFAULT(20단계, V4_DEFAULT_20), QUALITY(48단계, V4_QUALITY_48)입니다 .

  • 문서 불일치: 호스팅 앱이 아직 일부 3.0 시대 설정을 설명하고 있습니다. 4.0의 필드명과 기본값은 developer.ideogram.aiideogram-oss GitHub를 공식 출처로 참조하세요 .
  • 후처리 도구: 투명/알파 출력, 레이어화, 리프레임, 편집, 배경 제거는 비-v4 엔드포인트로 라우팅될 수 있습니다 — 파이프라인에 연결하기 전에 각각 검증하세요 .
  • 로드맵 항목, 미출시: 네이티브 알파 채널과 편집 가능한 텍스트 레이어는 "4.0에 출시 예정"이므로, 두 기능 모두 미래 계획으로 간주하세요 .

벤치마크에 대해서는 비판적인 시각을 유지하세요. DesignArena 순위(오픈 웨이트 1위, 전체 9위, 품질 모드 1위)는 서드파티 평가이지만 선호도 기반이며 객관적 지표가 아닙니다 . Ideogram의 자체 수치 — OCR 정확도 0.97, mIoU 0.69, SpatialGenEval 0.76 — 는 자체 보고 수치이며 게시 시점에 독립적으로 재현된 바 없습니다 .

Ideogram 4 심화 활용

실용적인 워크플로는 text_prompt로 빠른 아이디어 탐색을 시작하고, 레이아웃 정밀도, 브랜드 헥스 색상, 멀티라인 타이포그래피가 중요해지면 json_prompt로 전환하는 것입니다. 이 전환을 지원하는 두 가지 API 엔드포인트가 있습니다. POST /v1/ideogram-v4/magic-prompt는 일반 프롬프트를 완전한 구조화 json_prompt로 변환하며, aspect_ratioAUTO로 설정하면 모델이 치수를 직접 선택합니다 — 수동 조정 전 유용한 초안 역할을 합니다. POST /v1/ideogram-v4/describe는 최대 10MB의 JPEG, PNG, WebP를 입력받아 해당 참조 이미지의 구조화 JSON 프롬프트를 반환하며, 바운딩 박스 보존도 선택할 수 있습니다 — 소스 에셋을 역공학하거나 경쟁사 레이아웃을 재현할 때 유용합니다. JSON을 직접 작성하지 않으려면 ComfyUI를 0.24.0 이상으로 업데이트하고, image_ideogram4_t2i.json 템플릿과 Comfy-Org/Ideogram-4 체크포인트를 불러와 노드로 시각적으로 구성하세요 . 핵심 요점: 일반 텍스트는 스케치로, JSON은 계약서로 다루세요 — magic-promptdescribe로 구조를 생성한 다음, 실제로 중요한 필드를 다듬어 나가면 됩니다.

자주 묻는 질문

Ideogram 4 API에서 text_prompt와 json_prompt의 차이는 무엇인가요?

두 필드는 생성 전 입력이 재작성되는지 여부를 제어합니다. text_prompt는 Magic Prompt 확장을 자동으로 활성화합니다 — 모델이 일반 텍스트를 렌더링 전에 구조화된 프롬프트로 재작성합니다. json_prompt는 해당 단계를 건너뛰고 구조화된 JSON을 직접 디퓨전 모델에 전달합니다. 두 필드는 요청당 상호 배타적입니다 . 레이아웃, 브랜드 색상, 타이포그래피 정밀도가 중요한 경우 json_prompt를 사용하세요. 4.0은 구조화된 JSON 캡션으로만 학습되어 학습/추론 불일치가 적게 발생하기 때문입니다 .

Ideogram 4를 로컬에서 실행하려면 어떤 GPU가 필요한가요?

NF4 양자화 체크포인트는 CUDA와 Diffusers를 지원하는 24GB GPU 한 장에 올라가며, FP8 체크포인트는 Diffusers가 없는 더 광범위한 하드웨어를 대상으로 합니다 . 설정하려면 ideogram-oss/ideogram-4를 클론하고, pip install .을 실행한 뒤 hf auth login으로 인증하세요 — Hugging Face 저장소는 게이트로 보호되어 있어 가중치를 다운로드하기 전에 라이선스에 동의해야 합니다 .

Ideogram 4 JSON 프롬프트에서 바운딩 박스는 어떻게 작동하나요?

바운딩 박스는 좌상단을 원점으로 하는 0–1000 가상 캔버스 위의 정규화된 [y_min, x_min, y_max, x_max] 좌표입니다 . compositional_deconstruction 내에서는 배경 요소를 먼저 나열한 뒤 배치 요소를 추가하세요. 픽셀 단위 정밀도는 필요하지 않습니다 — 모델이 부정확한 박스도 허용하므로 대략적인 배치로 충분합니다. 여러 줄 텍스트의 경우, 각 줄을 겹치지 않는 별도의 박스로 분리하면 글자를 깔끔하게 유지할 수 있습니다.

FLASH rendering_speed가 HTTP 400을 반환하는 이유는 무엇인가요?

FLASH는 4.0 API 문서에서 '곧 출시 예정'으로 표시되어 있으며 아직 사용 불가하므로, 현재 이를 사용하는 요청은 HTTP 400을 반환합니다 . 사용 가능한 속도는 TURBO(이미지당 US $0.03, 디퓨전 스텝 12회), DEFAULT(US $0.06, 20회), QUALITY(US $0.10, 48회)입니다 . 아이디어 탐색 단계에는 TURBO를, 최종 품질이 중요할 때만 QUALITY를 선택하세요.

Ideogram 4의 벤치마크 주장은 독립적으로 검증되었나요?

부분적으로만 그렇습니다. DesignArena 리더보드 순위 — 출시 당시 전체 9위, 오픈 웨이트 모델 중 1위 — 는 제3자 기관에 의한 것이지만, 고정된 객관적 지표가 아닌 인간 선호도 투표에 기반합니다 . Ideogram 자체 디자이너 선호도 ELO(1062), 텍스트 렌더링 OCR 정확도(0.97), SpatialGenEval 공간 점수(0.76)는 회사 기술 페이지에서 자체 보고한 수치이며, 이 글 작성 시점에서 독립적으로 재현된 바 없습니다 . 프로덕션 워크플로우를 확정하기 전에 공개된 Hugging Face 및 GitHub 아티팩트를 통해 검증하세요.