초보자는 포기하고, 전문가는 적응한다. 40만 Claude Code 세션의 결론.

Anthropic의 39.8만 세션 연구는 Claude Code가 전문성 격차를 키운다고 본다 — 초보자 성공률 15%, 전문가 33%.

초보자는 포기하고, 전문가는 적응한다. 40만 Claude Code 세션의 결론.
Share

지난 3년 동안 AI 코딩 도구의 약속은 평준화였다. 초보자에게 에이전트를 쥐여 주면 시니어처럼 제품을 내놓을 수 있다는 것. 그런데 Anthropic이 약 398,000건의 Claude Code 세션을 분석한 결과는 거의 정반대였다.

Claude Code는 초보자와 전문가의 격차를 좁힐까?

아니다. 현재 가장 큰 규모의 근거를 보면, 에이전트형 코딩은 격차를 줄이기보다 키운다. Anthropic의 2026년 6월 16일 연구 "Agentic coding and persistent returns to expertise"는 2025년 10월부터 2026년 4월까지 약 234,751명이 진행한 약 398,198건의 상호작용 세션을 조사했고, Claude Code는 이미 자신이 무엇을 하는지 아는 사람들의 한계를 높이는 반면 초보자는 뒤처지게 한다고 결론 내렸다 . 희소한 투입 요소는 사라지지 않는다. 위치가 바뀔 뿐이다.

빠른 답: 아니다. Anthropic이 약 398,198건의 Claude Code 세션(2025년 10월~2026년 4월)을 분석한 결과, 에이전트형 코딩은 전문가의 우위를 평평하게 만들기보다 더 벌리는 것으로 나타났다. 사용자는 여전히 "무엇을 할지"에 관한 결정의 약 70%를 내리고, Claude는 "어떻게 할지"의 약 80%를 처리한다. 따라서 지렛대 효과는 이미 문제를 이해하고 있는 사람에게 유리하다.

달라지는 것은 병목이다. Claude가 구현 작업을 더 많이 흡수할수록 순수한 손코딩 능력의 중요성은 줄고, 명세 작성, 감독, 도메인 지식의 중요성이 커진다. 그리고 이는 이미 시니어리티와 상관관계가 있는 역량들이다 . 이 도구가 민주화하는 것은 코드를 타이핑하는 일이지, 어떤 코드를 쓸 가치가 있는지 판단하는 능력이 아니다.

가장 뚜렷한 신호는 인지 노동의 분담이다. 전체 데이터셋에서 사용자는 계획 결정("무엇을 할지")의 약 70%를 내리고, Claude는 실행 결정("어떻게 할지")의 약 80%를 내린다 . 일반적인 세션은 사용자 턴 약 4회로 진행되며, 각 프롬프트는 Claude 작업 약 10건과 약 2,400단어의 출력을 유발한다 . 사람은 감독자로 루프 안에 남고, Claude는 프롬프트의 완료 기준이 충족될 때까지 observe→think→act 하네스를 작동시킨다. 이런 분업 구조는 문제를 정확히 구성하고 결과를 검증할 수 있는 사람에게 보상을 준다.

"에이전트형 코딩 도구는 초보자와 베테랑의 격차를 평평하게 만들지 않는다. 오히려 그 격차를 넓히며, 희소한 투입 요소는 손코딩 능력에서 과업 및 도메인 전문성으로 이동한다." — Anthropic, Agentic coding and persistent returns to expertise (source: Anthropic Research, 2026-06)

이는 나머지 데이터를 보는 관점도 바꾼다. 이미 어떤 도메인을 이해하고 있다면 Claude Code는 강력한 증폭기다. 그렇지 않다면, 자신이 평가할 수 없는 그럴듯한 결과물을 더 빠르게 만들어내는 방법일 뿐이다. 이어지는 섹션에서는 그 격차가 정확히 어디에서 나타나는지, 즉 전문가의 프롬프트 방식, 세션 완료 빈도, 직업이 성공을 거의 예측하지 못하는 이유를 나누어 살펴본다.

누가 지시하고, 누가 구현하는가: 70-80 노동 분담

Novices quit. Experts adapt. 400k Claude Code sessions say so.

Claude Code 내부의 노동 분담은 측정 가능하다. 사용자는 계획 결정, 즉 "무엇을 할지"의 약 70%를 내리고, Claude는 실행 결정, 즉 "어떻게 할지"의 약 80%를 내린다 . 범위, 제약, 승인 기준에 대한 책임은 여전히 사용자에게 있고, 에이전트는 구현 경로를 맡는다. 일반적인 세션은 사용자 턴 약 4회로 진행되며, 각 프롬프트는 평균적으로 Claude 작업 약 10건과 약 2,400단어의 출력을 유발한다 . 사람은 구현을 직접 타이핑하는 경우가 드물다. 대신 구현할 대상을 정의하고 확인한다.

작동 방식으로 보면, Anthropic은 Claude Code를 로컬에서 observe→think→act 루프를 실행하는 에이전트 하네스로 설명한다. 이 루프는 개발자를 계속 참여시킨 채 프롬프트의 완료 기준이 충족될 때까지 반복된다 . 한 번의 턴이 약 10개의 도구 호출로 펼쳐지는 이유가 바로 이 루프다. 에이전트는 각 단계마다 사용자를 기다리지 않고 파일을 읽고, 수정하고, 테스트를 실행하고, 다시 확인한다. 사용자의 영향력은 루프를 여는 프롬프트와 루프를 닫는 검증에 앞쪽으로 몰린다.

결정 유형결정 주체턴당 흔적
계획("무엇을 할지")사용자 약 70%세션당 사용자 턴 약 4회
실행("어떻게 할지")Claude 약 80%프롬프트당 작업 약 10건, 약 2,400단어

실무적으로는 프롬프트의 품질, 즉 과업의 범위를 얼마나 정확히 정하는지, 어떤 제약을 부과하는지, 어떤 검증을 요구하는지가 출력량과 정확성을 좌우하는 핵심 지렛대가 된다. 타이핑 속도는 더 이상 병목이 아니다. 명세가 병목이다. 모호한 프롬프트도 같은 observe→think→act 루프를 시작하지만 완료 기준이 느슨해지기 때문에, 에이전트는 더 많은 코드를 만들어내고 사용자는 그것을 직접 평가해야 한다. 반대로 촘촘하게 구성된 프롬프트는 성공 조건이 모호하지 않기 때문에, 루프가 다시 사용자를 필요로 하기 전까지 더 오래, 더 멀리 진행될 수 있다. 같은 하네스라도 누가 운전하느냐에 따라 산출이 크게 달라지는 이 비대칭성을 다음 섹션에서는 초보자 세션과 전문가 세션 사이의 작업 및 출력 격차를 통해 수치로 확인한다.

전문가의 지시는 초보자와 어떻게 다른가: 12번의 행동 vs. 5번

전문가 프롬프트는 초보자 프롬프트보다 에이전트가 턴당 약 2.4배 더 많이 작업하게 만들고, 출력량은 5배 이상 늘린다. 초보자로 평가된 세션에서는 프롬프트 하나가 평균적으로 Claude의 행동 약 5회와 약 600단어의 출력을 유발했다. 전문가로 평가된 세션에서는 행동이 약 12회, 출력은 약 3,200단어였다 . 같은 하네스, 같은 observe→think→act 루프였고, 차이는 전적으로 프롬프트를 어떻게 구성했는지에서 나왔다.

Anthropic은 사용자에게 실력을 자가 보고하게 하지 않았다. Claude Sonnet 4.6 분류기를 사용해 작업별로 드러나는 전문성을 초보자부터 전문가까지 5단계 척도로 평가했다. 판단 근거는 세 가지 행동 신호였다. 사용자가 지시를 얼마나 정확히 구성했는지, Claude에게 무엇을 명시적으로 검증하라고 했는지, 그리고 수정의 방향이 사용자에서 Claude로 향했는지, 아니면 Claude가 사용자를 바로잡았는지였다 . 파일, 제약 조건, 인수 테스트를 지정한 프롬프트는 전문가처럼 읽힌다. 반대로 막연한 "이거 고쳐줘" 뒤에 사용자가 Claude의 결과물을 다시 물리는 흐름은 초보자처럼 읽힌다.

전문성 수준별 프롬프트당 차이는 다음과 같다.

프롬프트당 신호초보자 세션전문가 세션
유발된 Claude 행동~5~12 (≈2.4×)
출력 단어 수~600~3,200 (>5×)

원자료의 횟수만 보면 교란 요인이 있을 수 있다. 전문가가 더 큰 작업을 맡았을 수도 있고, 더 무거운 언어로 작업했을 수도 있으며, 모델 업그레이드 이후에 유입됐을 수도 있다. 그래서 Anthropic은 전문성 효과만 분리하기 위해 통제 회귀분석을 수행했다. 작업 모드, 작업 가치, 월, 직업, 모델 계열을 통제한 뒤에도 전문성이 한 단계 올라갈 때마다 Claude 행동은 약 +9%, 출력은 약 +13% 독립적으로 증가했으며, p < 0.001 수준에서 유의했다 . 통제 후에도 효과가 남기 때문에, 전문가가 단순히 더 큰 일을 골랐기 때문이라고 보기는 어렵다.

핵심 메커니즘은 위임의 깊이다. 전문가는 제약 조건을 앞에서 명시하고, Claude에게 확인 가능한 성공 조건을 넘겨주며, 재작성보다 수정 지시로 방향을 잡는다. 그래서 에이전트는 멈춰서 질문하기 전까지 한 턴 안에서 더 오래, 더 자율적으로 루프를 돌 수 있다. 이는 Anthropic의 별도 자율성 연구와도 맞물린다. Claude Code의 99.9백분위 턴 지속 시간은 2025년 10월부터 2026년 1월 사이 25분 미만에서 45분 초과로 거의 두 배 늘었고, 약 750개 세션을 경험한 사용자는 전체 세션의 40% 이상에서 완전 auto-approve를 실행한 반면 신규 사용자는 약 20%에 그쳤다 . 더 긴 자율 실행은 모델이 기본으로 내주는 것이 아니라, 개발자가 더 나은 명세와 검증 습관을 통해 얻는 것이다.

전문성 구간별 완료 확률과 포기 절벽

Novices quit. Experts adapt. 400k Claude Code sessions say so.

완료 확률은 평가된 전문성이 높을수록 가파르게 올라가지만, 가장 큰 개선은 초반에 나타난다. Anthropic의 가장 엄격한 "검증된 성공" 기준, 즉 테스트 통과, 일치하는 git 활동, 풀 리퀘스트, 명시적 사용자 확인 같은 확실한 증거가 있는 세션을 기준으로 보면, 초보자 세션의 성공률은 약 15%에 그쳤다. 중급자는 약 28%, 고급/전문가는 약 33%였다 . 상승분의 대부분은 중급자에서 전문가로 가는 구간이 아니라, 초보자에서 중급자로 넘어갈 때 나온다.

더 느슨한 기준에서는 패턴이 완만해진다. "최소 부분 성공"은 초보자 약 77%에서 중급자 이상 91–92%로 오른다 . 다시 말해, 경험 있는 사용자 대부분은 거의 모든 세션에서 무언가 쓸 만한 결과를 얻는다. 전문성의 프리미엄은 주로 증명 가능하고 완료된 작업을 요구할 때 드러난다.

전문성 수준검증된 성공최소 부분 성공
초보자~15%~77%
중급자~28%91–92%
고급 / 전문가~33%91–92%

Source: Anthropic, "Agentic coding and persistent returns to expertise", 2026-06 .

가장 뚜렷한 차이는 복구 능력이다. 문제가 생긴 세션, 즉 작업 도중 흐름이 어긋난 세션만 보면 검증된 성공률은 초보자 약 4%에서 전문가 약 15%로 오른다 . 거의 네 배에 가까운 이 격차는 데이터셋에서 가장 강한 신호다. 에이전트 실행이 잘못 흘러갈 때, 진단하고 제약을 다시 걸고 방향을 재조정하는 능력이 세션을 살릴지 버릴지를 가른다.

그리고 포기 절벽이 있다. 문제가 생긴 초보자 세션의 약 19%는 코드 한 줄도 작성하지 못한 채 포기됐다. 중급자 이상에서는 이 비율이 5–7%에 불과했다 . 초보자가 문제에 부딪히면 아무 결과 없이 떠날 가능성이 세 배에서 네 배 더 높다. 디버깅할 깨진 코드가 남는 것이 아니라, 아예 아무것도 남지 않는 것이다.

"Claude Code raises the ceiling for competent users but does not remove the need for judgment," Anthropic은 이렇게 결론 내리며, 문제가 생긴 세션을 복구하는 지점에서 초보자와 전문가의 격차가 가장 크게 벌어진다고 설명한다 (source: Anthropic, 2026-06).

팀 입장에서 실무적으로 읽으면 이렇다. 에이전트는 거의 누구에게나 부분 결과를 안정적으로 만들어낸다. 하지만 그것을 검증 가능하고 병합 가능한 작업으로 바꾸는 것, 그리고 탈선한 실행을 되살리는 것은 학습되는 기술이다. 초보자 온보딩에서 명세와 검증을 명시적으로 훈련하는 일이 어떤 모델 업그레이드보다 더 큰 변화를 만들 가능성이 높다.

현장 지식이 지렛대입니다: 직업이 완성 여부를 거의 예측하지 못하는 이유

완성된 산출물과 중도에 버려진 산출물을 가르는 것은 소프트웨어 자격이 아니라 해당 주제에 대한 지식입니다. Anthropic은 세션의 약 70%에서 미국 노동통계국의 대분류 직업군을 사용해 직업을 추론했으며, 사용자가 코드를 작성했다는 사실만으로 그를 소프트웨어 전문가로 간주하지 말라고 분류기에 명시적으로 지시했습니다 . 이 안전장치가 중요한 이유는 데이터가 더 날카로운 질문에 답할 수 있게 해주기 때문입니다. 누군가 자신의 문제를 충분히 이해해 에이전트를 지시하고 점검할 수 있다면, 그 사람의 직함이 여전히 결과물을 내는지 여부를 예측할까요?

거의 그렇지 않습니다. 코드를 생성한 세션에서 소프트웨어 및 수학 직군 사용자는 검증된 성공에 약 34% 도달했고, 그 외 사용자는 약 29%였습니다. 차이는 고작 5%포인트였습니다 . 더 느슨한 기준인 "최소 부분 성공" 지표에서는 격차가 거의 사라집니다. 소프트웨어/수학 직군은 89%, 비소프트웨어 직군은 88%였습니다 . 더 눈에 띄는 점은, 추론된 상위 10개 직업군 전체가 — 관리자, 분석가, 과학자, 디자이너, 법률 및 비즈니스 직무까지 — 검증된 성공률에서 소프트웨어/수학 사용자와 약 7%포인트 이내에 있었다는 것입니다 . 엔지니어링 채용을 지배하는 직업 위계가 완성률에서는 그대로 재현되지 않습니다.

그 작동 원리는 전문가와 초보자의 프롬프팅을 갈랐던 것과 같습니다. 자기 분야를 잘 아는 사람은 제약 조건을 정확히 명시하고, 실제로 중요한 것들을 검증하라고 에이전트에 요구하며, 잘못된 결과를 알아볼 수 있기 때문에 이를 잡아냅니다. 계약 검토 워크플로의 예외 상황을 이해하는 변호사나, 예측 모델이 어디서 깨지는지 아는 분석가는 소프트웨어 전문가에 가까운 비율로 Claude를 올바른 산출물까지 이끌 수 있습니다. 코드를 더 잘 써서가 아니라, 일을 더 잘 규정하고 점검하기 때문입니다.

"The scarce input is shifting from hands-on coding ability toward task and domain expertise — people still mostly decide what to build, while Claude mostly decides how to implement it." — Anthropic, Agentic coding and persistent returns to expertise (source: Anthropic, 2026-06).

기술 창업자에게 주는 실무적 시사점은 채용 필터가 한 축에서는 느슨해지고, 다른 축에서는 더 엄격해진다는 것입니다. 프로덕션 코드를 배포해본 적 없는 도메인 전문가에게도 구현을 맡길 수 있습니다. 다만 그 사람이 요구사항을 분명히 말하고 정확성을 판단할 수 있어야 합니다. 반대로 위임할 수 없는 것은 문제 자체에 대한 이해입니다. 그것은 여전히 가장 큰 제약이며, 에이전트 하네스가 대신 제공할 수 없는 바로 그 부분입니다.

수리 중심에서 구축 중심으로: 활동 구성이 어떻게 바뀌었나

Anthropic의 6개월 관찰 기간 동안 Claude Code 세션은 무언가를 고치는 일에서 무언가를 만들고 운영하는 일로 뚜렷하게 이동했습니다. 고장 난 코드 수정은 2025년 10월 세션의 약 33%에서 2026년 4월에는 약 19%로 줄었고, 소프트웨어 운영은 약 14%에서 21%로 늘었으며, 작성과 데이터 분석은 약 10%에서 20%로 거의 두 배가 되었습니다 . 에이전트 하네스는 이제 단순 정리가 아니라 구축과 런타임 업무에 투입되고 있습니다.

전체 코퍼스 평균으로 보면 구성은 여전히 코드 중심이지만, 디버깅 도구보다는 훨씬 넓습니다. Anthropic은 세션의 약 56%를 코드 작업으로 분류했습니다. 그중 25%는 작성 또는 구축, 26%는 수정, 5%는 테스트 또는 오케스트레이션이었습니다. 여기에 소프트웨어 운영 17%, 계획 또는 탐색 14%, 분석 또는 글쓰기 13%가 더해졌습니다 . 수정 대비 구축의 비율은 시간이 지나며 뒤집히지만, 두 항목 모두 여전히 큰 비중을 차지합니다. 이는 앞서 본 전문성 패턴과도 맞아떨어집니다. 사용자가 명시하고 검증하는 법을 익힐수록, 에이전트의 이전 결과를 진화하는 데 머무르지 않고 순신규 구축을 맡기기 때문입니다.

작업 범주2025년 10월2026년 4월방향
고장 난 코드 수정~33%~19%약 14%포인트 감소
소프트웨어 운영~14%~21%약 7%포인트 증가
작성 + 데이터 분석~10%~20%거의 두 배

구성 변화는 가치 신호와도 맞물립니다. Anthropic의 상대적 작업 가치 프록시는 — 실제 달러가 아니라 프리랜서 마켓플레이스 게시물을 기준으로 벤치마킹한 지표입니다 — 관찰 기간 동안 평균 약 27% 상승했고, 구축 작업은 약 43%, 운영은 약 34%, 수정은 약 32% 올랐습니다 . Anthropic은 달러 수치를 문자 그대로 읽지 말라고 명시적으로 경고하므로, 이는 매출 추정이 아니라 방향성 있는 가중치로 보는 편이 맞습니다. 패턴은 내부적으로 일관됩니다. 비중이 가장 빠르게 늘어난 작업, 즉 구축과 운영이 프록시상에서도 가장 높은 가치를 받는 작업입니다.

별도의 Economic Index 보고서도 같은 변화를 더 높은 관점에서 설명합니다. 작업 복잡도별로 큰 속도 향상이 나타났는데, 고등학교 수준 작업은 약 9배, 대학 학위 수준 작업은 약 12배였고, 코딩은 점점 더 프로그래매틱하고 에이전트적인 API 워크플로로 이동하고 있다고 봅니다 . 개발자나 기술 창업자 입장에서 실무적으로 읽자면, Claude Code는 보수 보조 도구에서 일반적인 구축 및 운영 표면으로 성숙하고 있습니다. 수리 중심 사용에서 구축 중심 사용으로의 이동은 사용자가 에이전트를 충분히 신뢰해 패치뿐 아니라 시작까지 맡기기 시작하면 자연스럽게 나타나는 변화입니다. 이 신뢰 곡선은 Anthropic의 자율성 연구에서도 별도로 문서화되어 있습니다 .

방법론의 한계: 인과관계가 아닌 관찰 결과

Novices quit. Experts adapt. 400k Claude Code sessions say so.

이 연구의 모든 핵심 수치는 사람이 직접 주석을 단 결과가 아니라 기계가 생성한 라벨에 기반합니다. 이는 전문성 격차를 어느 정도 확신을 가지고 읽어야 하는지를 좌우하는 제약입니다. Anthropic은 연구자가 대화 기록을 읽는 방식이 아니라 Claude Sonnet 4.6으로 398,198개 세션 전체를 분류했습니다 . 따라서 초보자부터 전문가까지의 등급과 추정 직업에는 측정 오차가 들어갑니다. 회사는 라벨을 텔레메트리와 교차 검증했고, 개인정보 보호형 집계 기준을 적용했다고 설명합니다 . 하지만 누군가가 프롬프트를 얼마나 정밀하게 쓰는지를 바탕으로 “전문가”를 추론하는 분류기는 여전히 실제값이 아니라 대리 지표입니다.

더 깊은 한계는 연구 설계에 있습니다. 이는 무작위 실험이 아니라 관찰 연구입니다. 따라서 Claude Code가 생산성 향상을 일으킨다고 보여줄 수는 없습니다. 평가된 전문성과 결과 사이의 상관관계는 선택 효과를 반영할 수 있기 때문입니다. 원래부터 요구사항을 잘 명시하고, 제약을 잘 걸고, 검증을 잘하는 사람들이 더 어려운 과제에 Claude Code를 쓰는 사람들일 수도 있습니다. Anthropic도 이 연구가 인과 효과가 아니라 사용 패턴을 설명한다고 명시합니다 . 연구가 스스로 설정한 경계는 다음과 같습니다.

"Our analysis is observational and cannot establish whether Claude Code causes productivity improvements," — Anthropic Economic Index team (source: Anthropic, 2026-06).

“검증된 성공”에도 세 번째 사각지대가 있습니다. 가장 엄격한 지표는 감지할 수 있는 성공만 집계합니다. 테스트 통과, git 활동과의 일치, 풀 리퀘스트, 또는 사용자의 명시적 긍정 같은 것들입니다 . 커밋 기록 없이 조용히 작동하는 코드를 배포한 개발자나, 실제로는 문제가 없었지만 세션을 중단한 사용자는 이 관점에서는 보이지 않습니다. 또한 이 연구는 생성된 코드가 이후 유지되는지, 되돌려지는지, 실제 경제적 가치를 만드는지도 관찰하지 못합니다. 달러 추정치 역시 완벽하지 않은 프리랜스 마켓플레이스 벤치마크에 대입한 값입니다 .

마지막은 범위입니다. 이 데이터셋은 비대화형 headless claude -p 실행, SDK 사용, 서드파티 IDE 통합을 의도적으로 제외했습니다 . 바로 이런 채널에서 많은 전문적, 자동화된 프로덕션 작업이 일어날 가능성이 큽니다. 기술 창업자 입장에서는 표본이 직접 터미널에서 다루는 세션 쪽으로 기울어져 있으며, Anthropic의 더 넓은 Economic Index 보고서가 코딩 활동에서 비중이 커지고 있다고 지적한 에이전트형 API 기반 워크플로는 과소반영됐을 가능성이 있다는 뜻입니다 . 방향성 있는 발견은 유효하지만, 정확한 규모는 조심해서 봐야 합니다.

METR와의 불일치: 두 연구가 왜 반대 방향을 가리키나

Claude Code가 숙련된 사용자를 더 빠르게 만든다면, 왜 신뢰도 높은 무작위 실험은 반대 결과를 냈을까요? 2025년 초 METR는 무작위 대조 실험을 진행했습니다. 숙련된 오픈소스 개발자 16명이 이미 잘 아는 저장소에서 246개 과제를 수행했고, AI 도구를 썼을 때 작업 속도는 약 19% 느려졌습니다. 실험 전에는 24% 빨라질 것으로 예상했고, 실험 후에도 20% 빨라졌다고 체감했는데도 말입니다 . 이는 실제로 측정된 속도 저하이며, 전문가가 더 긴 작업 사슬을 위임하고 더 자주 완료한다는 Anthropic의 2026년 6월 발견과 정면으로 배치됩니다.

하지만 실험 대상과 조건을 맞춰 보면 두 결과는 보기만큼 모순적이지 않습니다. 생산성 효과의 방향을 뒤집을 수 있는 세 가지 축에서 차이가 납니다.

  • 저장소 친숙도. METR는 성숙한 코드베이스를 깊이 이해하고 있는 전문가를 대상으로 했습니다. 이 조건에서는 인간이 이미 에이전트가 처음부터 재구성해야 할 정신 모델을 가지고 있습니다.
  • 도구 성숙도. METR는 2025년 초의 AI 도구를 사용했습니다. 반면 Anthropic의 398,198개 세션은 2025년 10월부터 2026년 4월까지이며, 에이전트형 실행 환경의 성능이 눈에 띄게 좋아진 시기입니다 .
  • 문제의 새로움과 사용자 집단. Anthropic은 다양한 직업군의 사용자가 다룬 문제를 포착했습니다. 이 문제들은 사용자에게 새로운 경우가 많았고, 이때 에이전트의 폭넓은 지식은 기존 전문성과 경쟁하기보다 사용자가 놓친 구현 세부사항을 보완합니다 .

함께 읽으면 가능한 조정점은 맥락입니다. 익숙하고 성숙한 코드베이스에 2025년 초 도구를 붙이면 속도가 느려지고, 사용자에게 낯선 문제에 2025년 10월 이후의 에이전트형 도구를 붙이면 속도가 빨라진다는 것입니다. Anthropic 연구진이 논문에서 표현하듯, “에이전트형 코딩 도구는 초보자와 베테랑 사이의 격차를 평평하게 만들지 않고 더 벌린다”는 쪽에 가깝습니다. 희소한 투입 요소가 직접 코딩에서 과제와 도메인 전문성으로 이동하는 것입니다 . METR의 전문가들이 느려진 이유도 바로 여기에 있습니다. 익숙한 영역에서는 그들 자신의 유창함이 핵심 자산이었고, 도구가 그 일부를 대체했기 때문입니다.

두 연구가 함께 지지하는 견고한 결론은 의사결정의 기준점이 되어야 합니다. AI 보조는 전문성을 평평하게 만들지 않습니다. 생산성 효과의 크기, 심지어 방향까지도 저장소 친숙도와 도구 세대에 크게 좌우됩니다. 기술 창업자를 위한 구체적인 시사점은 이렇습니다. 단일 벤치마크만으로 일반화하지 마세요. 폭넓은 지식이 이득이 되는 그린필드나 낯선 작업에서 에이전트형 코딩을 파일럿으로 돌리고, 성숙한 핵심 코드에는 깊은 맥락을 가진 사람이 변경을 계속 주도하게 하며, 도구가 발전할 때마다 다시 측정해야 합니다. 이 분야에서는 작년의 결과가 빠르게 낡습니다.

자주 묻는 질문

전문가가 초보자보다 Claude Code를 훨씬 더 잘 활용하는 이유는 무엇인가요?

전문가는 작업을 더 정확히 지정하고, 범위를 제한하며, 무엇을 검증해야 하는지 정확히 알고, Claude를 더 효과적으로 바로잡습니다. 그래서 에이전트가 작업에서 벗어나지 않고 더 긴 자율 실행 흐름을 이어갈 수 있습니다. 희소한 역량은 구현을 직접 손으로 작성하는 능력이 아니라, 에이전트에게 방향을 주고 결과를 확인하는 능력입니다. Anthropic의 데이터는 이를 구체적으로 보여줍니다. 전문가로 평가된 프롬프트는 약 12개의 Claude 동작과 약 3,200단어의 출력을 유발한 반면, 초보자는 약 5개 동작과 600단어 수준이었습니다 . 통제 회귀 분석에서도 전문성 단계가 한 단계 올라갈 때마다 동작 수는 약 9%, 출력은 약 13% 늘어나는 효과가 분리되었고, 이는 p < 0.001 수준에서 유의했습니다 .

Anthropic의 Claude Code 연구에서 “검증된 성공”은 무엇을 뜻하나요?

“검증된 성공”은 이 연구에서 가장 엄격한 기준입니다. 세션이 성공으로 판단되었고, 동시에 테스트 통과, 일치하는 git 활동, 풀 리퀘스트, 명시적인 사용자 확인 같은 확실한 증거가 뒷받침된 경우를 말합니다. 이 기준을 적용하면 초보자 세션은 약 15%만 해당하는 반면, 중급자는 약 28%, 고급/전문 사용자는 33% 수준입니다 . 더 느슨한 “최소 부분 성공” 기준은 구분력이 훨씬 낮아, 초보자의 약 77%에서 그보다 높은 모든 사용자 그룹의 91~92%까지 올라갑니다 .

개발자가 아닌 사람도 Claude Code로 작동하는 코드를 만들 수 있나요?

가능합니다. 추정 직업은 완료 여부를 거의 예측하지 못합니다. 핵심 지렛대는 코딩 이력이 아니라 도메인 지식입니다. 코드를 생성한 세션에서 소프트웨어/수학 직군은 검증된 성공률이 약 34%였고, 비소프트웨어 직군은 약 29%였습니다. 또한 추정된 상위 10개 직업군 모두가 검증된 성공률에서 소프트웨어/수학 사용자와 약 7%포인트 이내에 들어왔습니다 . 변호사, 관리자, 애널리스트, 과학자도 문제를 충분히 이해해 에이전트에게 방향을 주고 검증할 수 있다면 소프트웨어 산출물을 배포할 수 있습니다.

Claude Code는 개발을 객관적으로 더 빠르게 만드나요?

Anthropic 연구만으로는 답할 수 없습니다. 이 연구는 무작위 실험이 아니라 관찰 연구이므로 생산성에 대한 인과적 주장을 하지 않으며, 생성된 코드가 나중에 유지되었는지 되돌려졌는지도 추적하지 않습니다 . 반대 방향의 근거로, METR의 2025년 무작위 대조 실험에서는 숙련된 오픈소스 개발자 16명이 초기 2025년 AI 도구를 사용했을 때 246개 작업을 약 19% 더 느리게 완료한 것으로 나타났습니다. 이들은 24% 속도 향상을 예상했는데도 그랬습니다 . 결과는 맥락, 즉 저장소 친숙도, 도구의 성숙도, 문제의 새로움에 크게 좌우됩니다.

Anthropic Claude Code 연구에서는 전문성을 어떻게 측정했나요?

Claude Sonnet 4.6 분류기가 각 세션을 초보자부터 전문가까지 5점 척도로 평가했으며, 사람이 읽지는 않았습니다 . 평가는 세 가지 신호에서 추론되었습니다. 사용자가 지시를 얼마나 정확하게 구성했는지, Claude에게 무엇을 검증하라고 요청했는지, 수정의 방향이 어땠는지입니다. 즉 사용자가 Claude를 바로잡았는지, 아니면 Claude가 사용자를 바로잡았는지를 보았습니다. 라벨이 모델로 생성되었기 때문에 측정 오류는 있을 수 있지만, Anthropic은 약 40만 개 세션에 대해 텔레메트리와 개인정보 보호 집계 기준을 대조해 확인했다고 밝혔습니다 .