xAI의 Grok Imagine 1.5가 이미지-투-비디오 모델로 출시됐습니다. 핵심 트레이드오프는 뚜렷합니다. 원본 프레임 충실도가 높아졌고, 오디오 프롬프팅이 새로 추가됐으며, 시작 이미지를 반드시 제공해야 한다는 조건이 생겼습니다. 기존 버전과 무엇이 달라졌는지, 그리고 활용 방식을 근본적으로 바꾸는 제약 하나를 정리합니다.
1.5 vs 기존 버전: 충실도, 오디오, 그리고 이미지 전용 제약
Grok Imagine 1.5는 xAI의 이미지-투-비디오 모델로, 2026년 6월 3일 발표됐으며 API에서는 grok-imagine-video-1.5-preview(별칭 grok-imagine-video-1.5-2026-05-30)로 노출됩니다 . 정지 시작 프레임과 동작 프롬프트를 받아, 순수 텍스트 재해석보다 원본 이미지의 조명·구도·피사체 정체성을 더 충실하게 유지합니다 . 실질적으로는 프롬프트가 '무엇이 바뀌는지'만 제어하고 — 카메라 푸시인, 흩날리는 불씨, 제품 회전 등 — 피사체의 외형에는 관여하지 않습니다.
오디오 프롬프팅이 새로 추가됐습니다. xAI는 카메라 동작 프롬프트와 동일한 텍스트 안에 사운드 디자인, 공간 잔향, 페이싱을 함께 기술하도록 권장하며, 오디오 활성화 트랙으로 벤치마크가 진행됐습니다 .
핵심 제약: grok-imagine-video-1.5-preview는 텍스트-투-비디오를 지원하지 않습니다. 시작 이미지를 직접 제공하거나 미리 생성해야 합니다 . 텍스트-투-비디오, 확장, 편집이 필요하다면 기존 grok-imagine-video 모델을 그대로 사용하면 됩니다 . 출력 해상도는 최대 720p, 최대 15초이며, 동작 안정성을 고려하면 5~8초가 최적 구간으로 꼽힙니다 .
소스 프레임 생성하기

1.5는 텍스트로 이미지를 만드는 대신 정지 이미지를 애니메이션으로 변환하기 때문에, 시작 프레임 확보가 첫 번째 작업입니다. 사진이나 렌더링 에셋을 이미 보유하고 있다면 별도 생성 없이 — 안정적인 공개 URL에 올려 영상 호출에 바로 전달하면 됩니다. 새로 합성해야 한다면 Imagine 이미지 API가 적합하며, 신규 작업에는 grok-imagine-image-quality를 호출하세요. grok-imagine-image-pro는 2026년 5월 15일부로 지원 종료가 예정돼 있습니다 .
이미지 API는 반복 작업에 최적화돼 있습니다. 단일 요청으로 최대 3장의 참조 이미지를 활용한 생성 또는 편집이 가능하고, 호출당 최대 10장을 반환하며, 1K 또는 2K 해상도로 출력합니다. 기본값은 이미지 URL 반환이고 base64는 선택 사항입니다 .
이 단계의 비용은 영상 작업 비용에 별도로 계산됩니다. 1K 이미지는 $0.05, 2K는 $0.07이며, 이미지 입력당 $0.01이 추가됩니다 . 즉 2K 프레임 하나에 참조 이미지 편집을 더하면 영상 생성 비용에 들어가기도 전에 약 $0.08이 발생합니다 — 에셋 하나당으로는 소액이지만, 수십 개 이상 배치로 처리할 때는 추적할 가치가 있습니다.
클립 애니메이션, 처음부터 끝까지

소스 프레임을 호스팅한 뒤, 애니메이션 생성은 6단계 비동기 작업으로 이루어집니다: 키 생성, 이미지 호스팅, 샷 지시 프롬프트 작성, API 호출, 폴링, 다운로드. 먼저 xAI 콘솔에서 API 키를 생성한 뒤, 시작 프레임을 안정적이고 공개적으로 접근 가능한 URL에 올려두세요 — API가 HTTP로 image_url을 가져오므로, 일시적이거나 인증이 필요한 링크는 생성이 시작되기 전에 작업을 실패시킵니다 .
프롬프트는 정지 이미지 캡션이 아닌 샷 디렉션처럼 작성하세요. 네 가지를 명시하세요: 피사체 움직임, 카메라 움직임(예: "천천히 핸드헬드 달리-인"), 환경 움직임, 음향 단서, 그리고 타이밍. 구도와 정체성은 이미 소스 프레임에서 이어지므로, 프롬프트는 무엇이 움직이는지만 지정하면 됩니다. xAI의 출시 예시: "전장 위로 불씨가 흩날리고 헬멧 문장이 바람에 흔들리는 슬로우 시네마틱 푸시-인" .
Python SDK 호출이 가장 빠른 방법입니다. xai_sdk.Client(api_key=os.getenv('XAI_API_KEY'))를 인스턴스화한 뒤, 모델 ID, 이미지 URL, 지속 시간, 해상도를 인자로 client.video.generate(...)를 호출하세요:
client.video.generate(
prompt='Slow cinematic push-in as embers drift across the battlefield and the helmet crest stirs in the wind',
model='grok-imagine-video-1.5-preview',
image_url='https://your-host.com/frame.jpg',
duration=10,
resolution='720p',
)REST 방식에서는 https://api.x.ai/v1/videos/generations에 POST 요청을 보내고 반환된 request_id를 저장하세요. 모델은 us-east-1에서 제공되며 분당 60회 요청 제한이 있습니다 .
생성은 비동기 방식으로 진행되며, 프롬프트 복잡도·지속 시간·해상도에 따라 몇 분까지 소요될 수 있으므로 완료 여부를 폴링해야 합니다 . SDK는 기본값으로 10분 타임아웃과 100ms 간격으로 자동 폴링합니다. REST 직접 호출 시에는 status가 done이 될 때까지 약 5초 간격으로 https://api.x.ai/v1/videos/{request_id}에 GET 요청을 보내세요; failed와 expired는 최종 실패 상태이므로, 재시도 대신 중단 조건으로 처리하세요 .
작업이 완료되면 응답에 임시 비디오 URL이 포함됩니다. 즉시 다운로드하세요 — 이 URL은 만료되며, expired 상태는 단순 재요청이 아닌 생성 작업을 다시 실행해야 함을 의미합니다. 배치 작업 전 빠른 비용 확인을 위해, 다음 검증된 코드 조각이 720p 최대 해상도의 클립당 비용을 출력합니다:
from decimal import Decimal
seconds = Decimal("10")
price_per_second_720p = Decimal("0.141")
total = seconds * price_per_second_720p
print(f"A {seconds:.0f}-second Grok Imagine 1.5 clip at 720p runs ${total:.2f}.")실행하면 A 10-second Grok Imagine 1.5 clip at 720p runs $1.41.이 출력됩니다 — $0.14/초 출력 비용과 $0.01 입력 이미지 비용을 하나의 수치로 묶어 샷 목록 전체에 곱할 수 있게 합니다 .
1.5의 제약 한눈에: 해상도·지속 시간·비용

가격 구조는 머릿속으로 예산을 짤 수 있을 만큼 단순합니다. Grok Imagine 1.5 프리뷰는 출력에 대해 480p 기준 초당 $0.08, 720p 기준 초당 $0.14를 청구하며, 입력 이미지당 $0.01이 추가됩니다 . 10초짜리 720p 클립은 계정 수준 요금 전에 $1.41($1.40 출력 + $0.01 이미지)이 됩니다. 1.5가 아닌 표준 grok-imagine-video 모델은 $0.05/초(480p), $0.07/초(720p)로 상당히 저렴합니다 .
| 모델 | 480p / 초 | 720p / 초 | 10초 @ 720p | 텍스트-투-비디오? |
|---|---|---|---|---|
grok-imagine-video-1.5-preview | $0.08 | $0.14 | ~$1.41 (+$0.01 이미지) | 불가 |
grok-imagine-video (표준) | $0.05 | $0.07 | ~$0.70 | 가능 |
선택 기준은 가격 차이에 따릅니다: 소스 프레임 충실도 — 조명, 정체성, 세밀한 디테일 — 가 우선순위일 때는 1.5를 선택하고, 텍스트-투-비디오만 필요하거나 클립당 비용을 낮추고 싶을 때는 표준 모델로 전환하세요. 프로덕션에서 중요한 운영 제약이 두 가지 있습니다. 모델은 us-east-1에서 실행되며 분당 60회 요청 제한이 있고, 프리뷰 상태이므로 GA 전에 가격과 가용성이 변경될 수 있습니다 . 프로덕션 작업에서는 버전 별칭 grok-imagine-video-1.5-2026-05-30을 고정해 두세요. 조용한 모델 교체로 인해 출력이나 청구 금액이 바뀌지 않도록 하기 위해서입니다.
xAI를 직접 호출하지 않으려면, 1.5는 Replicate(xai/grok-imagine-video-1.5)와 fal.ai에서도 호스팅되며, 여덟 가지 화면 비율 — 자동(입력 일치), 16:9, 9:16, 1:1, 4:3, 3:4, 3:2, 2:3 — 을 지원합니다 .
더 긴 시퀀스를 위한 샷 연결
단일 클립보다 긴 시퀀스를 구성하려면, 하나의 긴 테이크를 요청하는 대신 각 샷을 독립적인 이미지-투-비디오 작업으로 처리하세요. 각 프레임을 별도로 준비하고, 샷별 모션 프롬프트로 애니메이션을 적용한 뒤, 결과물을 이어 붙여 연속된 장면을 만드세요. 모든 클립이 직접 제어하는 정지 이미지에서 시작하기 때문에, 피사체 동일성·구도·조명이 샷 전체에 걸쳐 유지됩니다 — 단일 15초 생성에서는 안정적으로 얻기 어려운 일관성입니다 .
각 프롬프트는 해당 샷에만 집중하세요. 시작 프레임이 이미 구도와 조명을 고정하므로, 이 클립에서 변하는 것만 기술하세요 — 카메라 이동, 피사체 움직임, 환경 변화, 타이밍 — 정적 요소는 다시 기술하지 마세요. 프레이밍을 반복 기술하면 프롬프트 예산을 낭비하고, 고정되어야 할 요소를 모델이 재해석할 여지를 줍니다.
720p로 확정하기 전에 480p로 초안을 만드세요. 초안 해상도에서 모션과 타이밍을 검증하면 비용이 초당 $0.14에서 $0.08로 줄어, 10초 테스트가 $1.40 대신 $0.80으로 처리됩니다 . 검토를 통과한 샷만 전체 해상도로 재렌더링하세요.
정책 준수를 파이프라인 끝이 아니라, 파이프라인 안에 녹여내세요. xAI의 허용 이용 정책은 개인 정보·초상권 침해와 실존 인물의 성적 묘사를 금지합니다 . 소유하거나 동의받은 소스 이미지를 사용하고, 실존 인물에 대한 성적 변환을 피하며, 게시 전에 AI 생성 결과물임을 표시하세요. 핵심은 이렇습니다: 준비하고, 저렴하게 초안 작성하고, 검토한 뒤 확정 — 이 루프가 720p 프리뷰 모델을 실제로 쓸 수 있는 제작 도구로 만들어줍니다.
자주 묻는 질문
Grok Imagine 1.5는 텍스트 프롬프트만으로 영상을 생성할 수 있나요?
아니요. grok-imagine-video-1.5-preview 모델은 이미지-투-비디오 전용으로 소스 프레임이 필요합니다 — 텍스트 아이디어에서 시작한다면, 먼저 시작 이미지를 생성하거나 업로드한 뒤 애니메이션을 적용해야 합니다 . 텍스트-투-비디오, 편집, 또는 확장 워크플로에는 범용 옵션인 표준 grok-imagine-video 모델을 사용하세요 .
Grok Imagine 1.5로 10초 720p 클립을 생성하면 비용이 얼마인가요?
약 $1.41입니다. 1.5 프리뷰는 720p 기준 초당 $0.14를 청구하므로, 10초는 출력 $1.40에 입력 이미지 $0.01이 추가됩니다 . 480p 초안은 초당 $0.08로 더 저렴합니다. 표준 grok-imagine-video 모델은 720p 기준 초당 $0.07로 1.5보다 저렴합니다 — 소스 프레임 충실도가 가장 중요할 때 1.5를 선택하세요.
REST로 영상 생성 작업이 완료됐는지 어떻게 확인하나요?
request_id로 작업을 폴링하세요: status가 done이 될 때까지 약 5초마다 https://api.x.ai/v1/videos/{request_id}에 GET 요청을 보내세요. 최종 실패 상태는 failed와 expired입니다 . Python SDK는 자동으로 폴링하며, 기본값은 10분 타임아웃과 100 ms 간격으로 문서화되어 있습니다 . 반환된 임시 영상 URL은 만료되므로 즉시 다운로드하세요.
Grok Imagine 1.5의 최대 출력 해상도와 클립 길이는 얼마인가요?
출력은 최대 720p이며, 클립 길이는 최대 15초까지 설정할 수 있습니다 . 플랫폼 UI에서는 안정적인 모션을 위한 최적 구간으로 약 5~8초를 언급합니다 . 모델은 us-east-1 리전에 등록되어 있으며, 분당 60회 요청 제한이 있습니다 . 프리뷰 모델이므로, GA 전에 사양과 가격이 변경될 수 있습니다.
xAI 콘솔 대신 서드파티 플랫폼으로 Grok Imagine 1.5에 접근할 수 있나요?
네. Replicate(xai/grok-imagine-video-1.5)와 fal.ai 모두 이 모델을 호스팅합니다 . 이 플랫폼들은 8가지 가로세로 비율을 지원합니다 — auto(입력에 맞춤), 16:9, 9:16, 1:1, 4:3, 3:4, 3:2, 2:3 — 소스 이미지를 직접 자르지 않고 특정 프레임 비율이 필요할 때 유용합니다.