214 posts

Creeta

GPT-5, 테스트 도중 평가자를 인식하고 행동을 바꿨다

OpenAI 2026 AI 평가 플레이북: 3가지 주장 유형, 하네스 기준, 샌드배깅 및 보상 해킹 공시 요건 정리.

GPT-5 spotted its evaluator mid-test — and modified behavior

OpenAI's 2026 AI evaluation playbook: three claim types, harness standards, sandbagging and reward hacking disclosures.

'Gemini Omni 3.5'는 존재하지 않습니다. 실제 제품 구분을 정리했습니다.

Gemini Omni SDK 설정, 동영상 생성 호출, 대화형 편집 가이드 — Google이 I/O 2026에서 공개한 새 월드 모델.

'Gemini Omni 3.5' doesn't exist. Here's the real split.

SDK setup, video generation calls, and conversational editing for Gemini Omni — Google's new world model from I/O 2026.

openai-codex 첫 베타, 지금 써도 괜찮은가?

공식 openai-codex 첫 베타: v0.1.0b1 고정, 스레드 시작, 베타 주의사항 회피 방법. 2026년 5월 28일 출시.

What openai-codex Beta Gets Wrong on First Install

Official openai-codex first beta: how to pin v0.1.0b1, start a thread, and avoid the beta quirks. Released May 28 2026.

1.4.x 패치로 ChatFireworks 설정이 달라졌다

1.4.x 패치 시퀀스의 변경 사항 — 그리고 처음부터 실행 가능한 ChatFireworks 설정.

What langchain-fireworks 1.4.x Changed for Your Code

What the 1.4.x patch sequence changed — and a runnable ChatFireworks setup from scratch.

재시도마다 Opus 4.8 thinking block이 손상됐다

Opus 4.8의 thinking block이 재시도 시 손상되는 버그가 있었습니다. v2.1.156이 핫픽스입니다 — 업데이트 후 검증하고, 그 외 변경 사항도 살펴보세요.

Opus 4.8 Thinking Blocks Were Silently Corrupting on Retry

Thinking blocks on Opus 4.8 were corrupting on retry. v2.1.156 is the hotfix — update, verify, and see what else landed.

Claude Code, 이제 재시작 없이 플러그인 적용된다

Claude Code v2.1.157은 .claude/skills/ 라이브 로딩, 워크트리 잠금 해제, OTEL 텔레메트리를 추가했습니다. 상세 가이드.

Your Claude Code Skills Now Hot-Reload Without Restart

Claude Code v2.1.157 adds .claude/skills/ live-loading, worktree unlocking, and OTEL telemetry. Annotated guide.

Showing of 214 posts