214 posts

Creeta

17k 토큰 → 1.4k — Headroom이 원본을 언제든 복원 가능하게 유지

에이전트 파이프라인용 오픈소스 컨텍스트 압축 미들웨어: 토큰 60–95% 절감, CCR 가역성, AST 인식 엔진.

17k tokens → 1.4k — Headroom keeps the originals retrievable

Open-source context compression middleware for agent pipelines: 60–95% token cuts, CCR reversibility, AST-aware engines.

Cognition의 260억 달러, 12월까지 10억 달러 ARR이 필요하다. 수치가 빠듯하다.

4억 9,200만 달러 ARR에 260억 달러 밸류에이션: Cognition 시리즈 D 지표, Windsurf 기여 귀속 문제, 10억 달러 ARR 목표.

Cognition's $26B needs $1B ARR by December. The math is tight.

$26B valuation on $492M ARR: Cognition's Series D metrics, the Windsurf attribution question, and the $1B ARR target.

졸업식에서 야유를 받다 — 당신이 제품을 만들어야 할 AI 회의론자들

MIT 테크놀로지 리뷰 2026년 5월 과대평가 지수: 졸업식 야유, Z세대 정서(46%), 사상 최고 AI 투자 현황을 다룬다.

Booed at graduation — the AI skeptics you'll be shipping to

MIT Technology Review's May 2026 Hype Index covers graduation boos, Gen Z sentiment (46%), and record AI fundraising.

Opus 4.8, budget_tokens 폐기 — 그 외 변경 사항 총정리

Opus 4.8: 빠른 모드, 세션 중간 시스템 프롬프트, 1K 캐시 하한. 기존 budget_tokens 구문은 400 오류 반환.

Opus 4.8 kills budget_tokens — here's what else moved

Opus 4.8: fast mode, mid-session system prompts, 1K cache floor. Old budget_tokens syntax returns 400.

llama-bench, 지원 GPU에서 FA 누락 — b9437로 수정됨

llama.cpp b9437 (5월 30일): llama-bench에서 -fa가 auto로, -ngl이 -1로 변경. b9437 이전 비교 결과는 플래그 검토 필요.

llama-bench skipped FA on capable GPUs — b9437 corrects it

llama.cpp b9437 (May 30): -fa goes auto, -ngl to -1 in llama-bench. Your pre-b9437 comparisons need a flag audit.

Qwen3.6-35B NVFP4, H100 하나로 구동 — A100 소유자는 제외

FP4 양자화 Qwen3.6-35B는 Hopper에서 약 23GB. vLLM serve 명령어, 환경 변수, DGX Spark 설정 및 주의사항 정리.

Qwen3.6-35B NVFP4 runs on one H100 — A100 owners are out

FP4-quantized Qwen3.6-35B fits in ~23 GB on Hopper. vLLM serve commands, env vars, DGX Spark config, and gotchas.

Showing of 214 posts