94% vs 67%: Nature에서 의료 AI는 의사와 어떻게 겨뤘나

종단적 질환 관리에서 2개 에이전트 Gemini 시스템과 의사를 비교한 Nature 결과, RxQA 벤치마크, 그리고 실제 시험 범위의 핵심 공백.

Jun 27, 2026

의료 AI가 치료 정확도에서 94%를 기록하고, 전문의 자격을 갖춘 의사들은 67%에 그쳤다면 먼저 떠오르는 질문은 그 시험이 실제로 무엇을 측정했느냐입니다. 2026년 6월 Nature에 게재된 Google의 최신 AMIE 연구가 바로 그 시험입니다. 그리고 여기서는 헤드라인보다 설계가 더 중요합니다.

Nature 임상시험은 무엇을 봤나

Nature 임상시험은 대화형 의료 AI가 환자를 한 번 진단하는 데 그치지 않고 여러 차례 진료에 걸쳐 관리할 수 있는지를 살폈습니다. 이 연구는 Google Research와 Google DeepMind의 두 번째 AMIE(Articulate Medical Intelligence Explorer) 논문으로, 2025년 3월 arXiv:2503.06074로 먼저 공개된 뒤 Nature에 게재됐으며, Financial Times는 학술지 게재 사실을 2026년 6월 17일 보도했습니다. 이 연구는 AMIE의 범위를 일회성 진단 대화에서 장기적 질병 관리로 넓혔습니다. 환자가 진료를 거듭하며 다시 찾아올 때 증상, 검사 결과, 치료 계획이 어떻게 바뀌는지 추적하는 방식입니다(Google Research).

평가는 무작위 배정, 눈가림 방식의 가상 OSCE로 진행됐고, 100개의 다회 방문 사례 시나리오를 바탕으로 했으며, 각 사례는 텍스트 기반 진료 3회로 구성됐습니다(Google blog). 방문 간격은 최소 24시간, 운영상으로는 대략 이틀 정도였지만, 사례 서사는 수주에서 수개월에 이르는 임상 경과를 반영했습니다. 그래서 진료 사이에 증상, 치료 반응, 검사실 결과가 달라질 수 있었습니다.

시나리오는 심장내과, 호흡기내과, 산부인과 및 비뇨의학과, 소화기내과, 신경과의 다섯 전문 분야로 균등하게 나뉘었고, 각 분야는 20개 시나리오씩이었으며, 사례는 캐나다와 인도의 의료진이 준비했습니다. AMIE는 전문의 자격을 갖춘 1차 진료 의사 21명(전공의 수료 후 중앙값 9년)과 정면으로 비교됐고, 훈련받은 환자 배우 21명이 사례를 연기했습니다. 평가는 눈가림으로 이뤄졌습니다. 전문의 평가자 10명(전공의 수료 후 중앙값 5년)이 계획이 AMIE에서 나왔는지 사람에게서 나왔는지 모르는 상태에서 적절성, 완결성, 지침 준수, 환자 중심성 등을 포함한 15개 품질 축에 따라 관리 계획을 평가했습니다.

여러 차례 진료를 따라가며 환자를 추적하다

94% vs 67%: how medical AI fared against physicians in Nature

2025년에 발표된 앞선 AMIE 연구는 한 번의 진단 대화에서 멈췄습니다. 대화 한 번, 감별진단 한 번, 그리고 연속성은 없었습니다 . 이번 연구는 평가 단위를 바꿉니다. 100개 사례 각각이 텍스트 기반 진료 3회에 걸쳐 전개되기 때문에, 시스템은 단일 턴 LLM이 잘 처리하지 못하는 일을 해야 합니다. 증상 진행을 추적하고, 돌아온 검사 결과를 반영하고, 상황이 바뀌면 치료를 조정하며, 후속 진료를 잡아야 합니다 .

이는 의도적으로 만성질환 관리 문제를 겨냥한 구성입니다. 동반질환을 추적하고, 변화하는 임상 양상에 맞춰 약물을 조정하며, 첫 번째 진료부터 세 번째 진료까지 매번 처음부터 다시 시작하지 않고 일관성을 유지하는 추론이 필요합니다 .

비교가 공정하도록 AMIE와 전문의 자격을 갖춘 의사 21명 모두 같은 근거 기반을 사용했습니다. 총 627개 문서로 된 말뭉치로, 영국 NICE Guidance 527건과 BMJ Best Practice 항목 100건, 전체 약 1,000만 토큰 규모였으며, 이 가운데 NICE 문서 50건과 BMJ 문서 50건이 시나리오와 직접 관련되어 있었습니다 . 어느 쪽에도 사적인 참고자료 우위는 없었습니다. 질문은 같은 지침을 여러 진료에 걸쳐 누가 더 잘 활용했느냐였습니다.

모의 임상시험과 구분해 봐야 할 것은 실제 환경에서 병행된 타당성 프리프린트입니다. 이 연구는 인간의 안전 감독 아래 응급진료 환자 100명을 대상으로 진행됐습니다. 여기서 AMIE의 감별진단은 최종 진단을 90%의 사례에서 포함했고, 상위 3개 정확도는 75%였습니다. 하지만 실제 적용 가능성과 비용 효율성에서는 여전히 1차 진료 의사들이 더 나았습니다 . 신호는 양쪽을 모두 가리키며, 저자들도 그렇게 설명합니다.

"임상 사용 준비가 되지 않았다" — Google Research가 분명히 밝힌 입장입니다. 이 연구를 하나의 이정표로 설명하면서도, 윤리와 안전 감독 아래 전향적 타당성 연구가 여전히 필요하다고 말합니다(source: Google Research).

대화 모듈과 Mx 추론기가 함께 작동하는 방식

AMIE의 아키텍처는 Gemini 모델을 기반으로 한 두 에이전트에 작업을 나눕니다. 환자와 대화하는 빠른 Dialogue Agent와, 임상 가이드라인을 검색하고 추론하는 더 느린 Management Reasoning Agent(Mx Agent)입니다. Dialogue Agent는 Gemini 1.5 Flash에서 실행되며, 이전 AMIE 연구의 PaLM-2 기반을 대체합니다. 이 에이전트는 동기식 텍스트 채팅을 처리하고, 정보를 수집하며, 여러 차례 방문에 걸쳐 라포를 유지합니다 . 깊은 숙고보다는 지연 시간과 대화 흐름에 최적화되어 있습니다.

Mx Agent는 신중하게 판단하는 절반입니다. 응답 시간은 최대 1분을 목표로 하며, 긴 컨텍스트 기반 가이드라인 추론에 맞춰 조정되어 있습니다 . 이 파이프라인은 네 단계의 검색-정제 루프로 구성됩니다.

대략적 검색: Gecko 1B 임베딩을 사용해 전체 말뭉치의 제목과 생성된 초록을 대상으로 검색합니다 .
컨텍스트 할당: 외부 지식에 약 256,000토큰을 배정하며, 쿼리당 평균 약 6개의 가이드라인 문서를 사용합니다 .
병렬 초안 작성: 서로 독립적인 네 개의 관리 계획을 작성합니다.
병합 및 정제: 검사, 치료, 추적 관찰을 포함한 하나의 인용 기반 최종 계획으로 합칩니다 .

AMIE와 의사들이 함께 참고한 말뭉치에는 총 627개 문서가 포함되어 있었습니다. 영국 NICE Guidance 527개와 BMJ Best Practice 문서 100개로, 전체 규모는 약 1,000만 토큰이었습니다 . 대략적으로 먼저 검색한 뒤 긴 컨텍스트로 처리하는 이 단계 덕분에 Mx Agent는 매개변수 기억이 아니라 이름이 명시된 가이드라인에 근거해 권고를 제시할 수 있습니다.

구성 요소	기반 모델	역할	최적화 대상
Dialogue Agent	Gemini 1.5 Flash	동기식 채팅, 정보 수집, 방문 간 라포 유지	속도, 대화
Mx(Management Reasoning) Agent	Gemini 긴 컨텍스트	가이드라인 검색, 4개 계획 초안 작성, 하나의 인용 기반 계획으로 병합	1분 이하, 가이드라인 추론

여기서 가져갈 수 있는 핵심은 분리된 구조입니다. 지연 시간에 민감한 대화형 프런트엔드가, Gemini의 긴 컨텍스트 창을 활용하는 더 느리고 검색 중심적인 추론 백엔드와 짝을 이룹니다 . 두 에이전트가 두 일을 모두 하지는 않습니다. 바로 그 덕분에 시스템은 자연스러운 대화를 유지하면서도 매 턴마다 6개의 가이드라인 문서를 인용할 수 있습니다. 이 패턴은 특정 도메인에 묶이지 않습니다. 구조화된 지식 말뭉치가 있고, 빠른 응답성과 방어 가능한 인용 기반 결과가 동시에 필요한 곳이라면 대화 루프와 추론 루프를 나누는 방식은 충분히 설득력 있는 설계도입니다. 여기서는 임상 가이드라인이지만, 법령, 컴플라이언스 매뉴얼, 내부 엔지니어링 문서에도 마찬가지로 적용될 수 있습니다.

의료 AI가 의사를 앞선 지점: 치료와 검사

눈가림 OSCE 전반에서 AMIE는 15개 관리 계획 품질 축 전체와 세 차례 방문 모두에서 1차 진료 의사에 비해 비열등하다는 평가를 받았고, 의사가 AMIE보다 유의하게 앞선 축은 하나도 없었다 . 이 시스템이 가장 뚜렷하게 앞선 지점은 구체성이었다. 치료 정밀도, 즉 계획이 실제 문제를 얼마나 좁고 정확하게 겨냥하는지를 보면 AMIE는 1~3차 방문에서 각각 94%, 90%, 91%를 기록한 반면, PCP는 67%, 70%, 70%였다 . 첫 방문에서 약 27%포인트 차이가 났고, 사례가 전개되어도 이 격차는 좁혀지지 않았다.

검사 정밀도는 시간 흐름에 따라 더 흥미로운 모습을 보인다. 첫 방문에서는 두 그룹이 91%로 같았지만, 병력이 쌓이자 AMIE가 앞서 나갔다. 2차 방문에서는 99% 대 84%, 3차 방문에서는 100% 대 88%였다 . 추적 방문이 이어질수록 격차가 커졌다는 점이 주목할 신호다. 이전 결과, 변화하는 증상, 앞선 의사결정을 한꺼번에 작업 기억에 붙들어야 하는 지점에서 긴 컨텍스트 검색의 이점이 가장 잘 드러난다.

지표	그룹	1차 방문	2차 방문	3차 방문
치료 정밀도	AMIE	94%	90%	91%
치료 정밀도	PCP	67%	70%	70%
검사 정밀도	AMIE	91%	99%	100%
검사 정밀도	PCP	91%	84%	88%
치료 가이드라인 부합도	AMIE	89%	91%	93%
치료 가이드라인 부합도	PCP	75%	76%	81%

이 중 일부는 구조적으로 설명된다. AMIE는 치료 가이드라인을 98~100%의 비율로 명시적으로 인용한 반면 PCP는 86~88%였고, 치료 가이드라인 부합도도 세 차례 방문에서 각각 89%, 91%, 93%로 의사의 75%, 76%, 81%를 앞섰다 . 계획 하나당 대략 여섯 건의 가이드라인 문서를 검색하고 병합하는 추론 에이전트라면, 시간 압박 속에서 기억에 의존해 일하는 임상의보다 출처를 더 일관되게 인용할 수밖에 없다. 이는 뜻밖의 출현적 현상이라기보다, 애초에 그렇게 하도록 만든 아키텍처가 제 역할을 한 것이다.

평가자가 두 계획 중 하나를 직접 선호하도록 한 연구의 새로운 MXEKF 관리 추론 루브릭에서는 그림이 조금 더 복합적이다. 비교의 약 절반은 동률이거나 해당 없음으로 표시됐다. 나머지 비교에서 51개 평가자-축-방문 조합 전반의 AMIE 중앙값 승률은 42%, PCP는 8%였다 . 약 5대 1의 선호 비율은 상당하지만, 동률 비중이 컸다는 점은 많은 축에서 AMIE가 일방적으로 압도했다기보다 두 계획이 동등하다고 판단됐음을 상기시킨다.

이 수치가 무엇을 측정하는지에 맞춰 읽어야 한다. Google 팀의 표현을 빌리면 다음과 같다.

저자들은 "AMIE is not ready for clinical use"라고 밝히며, 이 작업을 윤리 및 안전 감독을 동반한 전향적 실행 가능성 연구가 필요한 "a milestone"이라고 부른다 (source: Google Research).

이 점수는 시뮬레이션 환경에서 전문 평가자들이 채점한 계획 품질을 반영한다. 즉 더 높은 정밀도와 더 촘촘한 가이드라인 근거를 보여줄 뿐, 검증된 환자 결과를 뜻하지는 않는다.

새로운 약물 역량 평가 도구: 약사가 검증한 600개 문항

관리 평가와 함께 연구팀은 RxQA를 구축했다. 이는 대화에서 간접적으로 추론하는 대신 약물 지식을 직접 검증하도록 설계된 600문항 규모의 약물 추론 벤치마크다 . 문항은 OpenFDA/US FDA 데이터와 British National Formulary에서 파생된 뒤, 전문의 자격을 갖춘 약사들이 검증했으며, 적응증, 금기, 용량, 부작용, 약물 상호작용이라는 다섯 가지 역량 영역을 포괄한다 . 개발자에게 이는 논문에서 가장 이식성 높은 산출물이다. 약물 인접 LLM 기능을 출시하기 전에 실행해볼 수 있는 구조화된, 출처 기반 테스트이기 때문이다.

이 문항 세트는 낮은 난도의 282개 문항과 높은 난도의 318개 문항으로 나뉘며, 두 그룹 모두에게 어려웠다 . 낮은 난도의 오픈북 설정에서 AMIE는 73.8%, 1차 진료 의사는 67.4%를 기록했다. 다만 이 차이는 통계적 유의성에 도달하지 못했다(p=0.071) .

더 어려운 문항에서는 격차가 커졌다. AMIE는 클로즈드북 설정(50.6% 대 41.5%, p=0.013)과 오픈북 설정(57.9% 대 47.8%, p<0.001) 모두에서 PCP를 앞섰다 . 이 오픈북 결과는 전체 발표에서 통계적으로 가장 견고한 격차다. 오픈북 조건은 양쪽 모두에게 참고 자료를 제공하므로, 단순 기억력보다 의약품집을 바탕으로 한 추론 능력을 더 분리해 보여준다는 점에서 특히 눈에 띈다.

저자들의 표현에 따르면 "RxQA is released as a standalone contribution"이며, AMIE 시스템 자체와 독립적으로 약물 추론을 평가하는 팀들이 재사용할 수 있도록 의도됐다 (source: Google Research). 엔지니어링 팀 관점에서 보면 기여의 성격이 달라진다. 대화 에이전트와 Mx 추론기는 API 없이 연구 장벽 뒤에 남아 있지만, 이 벤치마크는 오늘 바로 평가 하네스에 연결할 수 있는 구체적이고 약사가 검증한 기준선이다. 단, 두 가지 단서는 여전히 붙는다. 문항은 확정적 정답이 있도록 구성됐고, 선별된 세트에서의 정확도가 실제 다질환 환자에게 안전하게 작동한다는 증거는 아니라는 점이다.

짜여진 시나리오와 훈련된 배우: 시험에서 빠진 것들

헤드라인에 나온 수치는 진료 현장이 아니라, 엄격히 통제된 시뮬레이션을 설명한다. 100개의 다회 방문 사례는 모두 정답이 정해진 대본으로 작성됐고, 21명의 훈련된 환자 배우가 동기식 텍스트 채팅으로 연기했다. 저자들은 이 사례들이 일상적인 1차 진료를 대표하지 않도록 의도적으로 구성됐다고 분명히 밝힌다. 실제 1차 진료에서는 증상이 모호하고, 하나의 올바른 계획만 존재하는 경우도 드물다 (source: Google Research, 2026-06).

그 못지않게 중요한 것은 이 평가 장치가 무엇을 제외했는가다. 상담은 처음부터 끝까지 텍스트만으로 이뤄졌다. 전자의무기록도, 처방 입력 제약도, 실시간 전자처방도, 약물 워크플로 안의 약사도 없었다. 이는 영상, 이미지, 실시간 검사 피드가 일상적으로 오가는 실제 원격진료와는 거리가 멀다. 이 설정은 실제 진료를 규정하는 마찰도 전혀 모델링하지 않았다.

선택된 다섯 전문과 밖의 복합질환 없음 — 심장학, 호흡기학, 산부인과 및 비뇨기과, 소화기학, 신경학에서 각각 20개 시나리오가 사용됐다 (source: Google, 2026-06).
압축된 시간표 — 방문 간격은 최소 24시간을 두고 대략 이틀 간격으로 배치됐으며, 서사상 몇 주 또는 몇 달을 대신했다 .
지역별 처방집, 보험, 환자 복약순응도 제약 없음 — 이런 요소는 전혀 모델링되지 않았다.

짚고 넘어갈 만한 기준틀의 불일치도 있다. 가이드라인 말뭉치는 영국 중심이었다. 527개의 NICE 문서와 100개의 BMJ Best Practice 문서가 쓰인 반면, 비교 대상 의사들은 북미와 인도에서 진료했다. 이 차이는 어느 쪽으로도 작용할 수 있다. 같은 NICE/BMJ 텍스트에서 직접 검색하는 시스템에 유리했을 수도 있고, 다른 국가 기준으로 추론하는 임상의에게 불리했을 수도 있다.

가장 중요한 한계는 평가 지표 자체다. 1차 지표는 실제 환자 결과가 아니라, 전문의가 눈가림 방식으로 평가한 계획의 품질이었다. 적절성, 완전성, 가이드라인 활용, 환자 중심성이 평가됐다. 검토자에게 잘 읽히는 계획과 실제 환자에게 몇 달에 걸쳐 도움이 되는 계획은 같은 것이 아니다. Google은 AMIE가 임상 사용 준비가 되지 않았다고 명확히 말하며, 윤리 및 안전 감독 아래 전향적 타당성 연구가 필요하다고 밝힌다 (source: Google, 2026-06). 어떤 배포 가능성을 추론하든, 이 결과 격차를 가장 앞에 두고 봐야 한다.

의료 AI 팀이 여기서 가져갈 수 있는 것

이 연구에서 다른 곳으로 옮겨 적용할 수 있는 교훈은 모델 자체가 아니라 아키텍처다. 빠른 대화형 프런트엔드를 느리지만 검색을 많이 수행하는 추론 에이전트와 분리한 방식이, 장기적 임상 과제에서 단일 패스 생성보다 더 나은 성과를 냈다 . AMIE에는 API도, 가격도, 발표된 일정도 없다. 따라서 실제로 재사용할 수 있는 것은 패턴이다. 즉 Dialogue Agent / Mx Agent 분리를 자신들의 도메인과 말뭉치에 적용하는 것이다.

의료 AI와 인접 분야 팀이 가져갈 수 있는 구체적 시사점은 세 가지다.

자산은 가중치가 아니라 분리 구조다. 법률 판례, 컴플라이언스 프레임워크, 기술 문서처럼 크고 구조화된 지식 말뭉치를 가진 어떤 도메인에서도 같은 분리를 시도할 수 있다. 정보를 모으는 동기식 채팅 에이전트와, 답을 확정하기 전에 많은 긴 문서를 읽는 심층 검색 에이전트를 나누는 방식이다.
계획별 인용을 갖춘 장문 맥락 기반 grounding은 정밀도를 눈에 띄게 높인다. AMIE는 검색된 가이드라인에 약 256,000개의 컨텍스트 토큰을 할당하고 명시적 참고문헌을 출력했으며, 첫 방문에서 치료 정밀도는 94%로 1차 진료 의사의 67%보다 높았다 . 이 결과는 정제되고 인용 추적이 가능한 말뭉치가 있다면 어떤 장문 컨텍스트 LLM에서도 재현을 시도할 수 있다. 인용은 장식이 아니라, 단일 패스 출력보다 정밀도가 올라간 이유의 일부다.
RxQA는 지금 바로 쓸 수 있는 평가셋이다. 600문항으로 구성되고 약사가 검증한 약물 추론 벤치마크는 OpenFDA/FDA와 British National Formulary 데이터를 바탕으로 만들어졌으며, 그 자체로 독립적인 기여다 . 임상 검증을 대체하는 용도가 아니라, 그 전에 약물 추론을 평가하는 용도로 채택할 수 있다. 더 어려운 split에서 AMIE는 오픈북 기준 57.9%를 기록했고 PCP는 47.8%였다 . 선도 시스템조차 아직 상당한 개선 여지를 남긴다는 뜻이다.

이 결과는 올바르게 해석해야 한다. 이는 텍스트 전용, 대본 기반 사례, 전문의가 평가한 계획 품질이라는 유리한 시뮬레이션 조건에서 무엇이 가능한지 보여준 통제된 연구 이정표다. 자율적인 만성질환 관리가 해결됐거나 배포 가능하다는 증거는 아니다. Google이 밝힌 다음 단계는 윤리 및 안전 감독 아래 진행되는 전향적 타당성 연구다 . 빌더가 지금 할 일은 두 에이전트 검색 패턴과 RxQA 벤치마크를 가져다 쓰는 것이다. 그리고 실제 환자 결과 데이터가 나오기 전까지는 어떤 임상 배포 주장도 입증되지 않은 것으로 다뤄야 한다.

자주 묻는 질문

AMIE를 지금 API나 개발자 도구로 쓸 수 있나요?

아니요. AMIE는 순수 연구용 시스템이며 공개 API도, 가격도, 발표된 배포 일정도 없습니다. Google은 AMIE가 임상 사용 준비가 되어 있지 않다고 명확히 밝히며, 실제 환경에 적용하기 전에 윤리 및 안전 감독을 갖춘 전향적 타당성 연구가 필요하다고 설명합니다 . 현재 대상은 연구자, 의료 시스템 AI 팀, 임상의, 규제 기관이지 제품을 출시하는 애플리케이션 개발자가 아닙니다. 소비자나 임상의가 직접 쓰는 AMIE 연동은 현재 존재하지 않는 것으로 봐야 합니다.

두 구성요소 구조는 단일 LLM에 질병 관리를 프롬프트하는 방식과 어떻게 다른가요?

이 분리 구조는 응답 지연과 추론 깊이를 떼어 놓습니다. Gemini 1.5 Flash 기반의 Dialogue Agent는 방문 전반에 걸쳐 낮은 지연 시간의 대화와 관계 형성을 맡고, Management Reasoning Agent(Mx Agent)는 느리지만 인용이 많은 작업을 수행합니다. 가이드라인 제목을 대상으로 한 거친 검색, 약 256,000개 컨텍스트 토큰 할당, 네 개의 관리 계획 초안 생성, 그리고 이를 1분 이내를 목표로 하나의 인용 포함 계획으로 병합하는 과정입니다 . 단일 LLM은 매 턴마다 응답 속도와 추론 깊이 사이에서 절충해야 하지만, 역할을 나누면 각 구성요소가 독립적으로 최적화될 수 있습니다.

RxQA는 무엇이며, AMIE와 별도로 사용할 수 있나요?

RxQA는 OpenFDA/미국 FDA 데이터와 British National Formulary에서 파생된 600문항 규모의 약물 추론 벤치마크입니다. 전문 약사 자격을 갖춘 전문가들이 검증했으며, 적응증, 금기, 용량, 부작용, 상호작용을 다룹니다 . 난도가 낮은 282개 문항과 난도가 높은 318개 문항으로 나뉩니다 . 독립적인 기여물로 공개되었기 때문에, LLM의 약물 추론 능력을 평가하려는 팀은 AMIE를 건드리지 않고도 이를 채택할 수 있습니다. 이 논문에서 바로 활용하기 가장 쉬운 산출물입니다.

환자 역할을 훈련된 배우가 대본에 따라 연기했다는 점이 왜 중요한가요?

정답이 정해진 대본형 사례는 실제 임상 현장의 모호함보다 체계적으로 더 쉽기 때문입니다. 이 시험은 실제 환자가 아니라 훈련된 환자 배우가 참여한 텍스트 기반 모의 상담을 사용했으며, 저자들이 일상적인 1차 진료를 대표하지 않는다고 설명한 사례들을 의도적으로 구성했습니다 . 전자의무기록도, 멀티모달 입력도, 실제 질병이 동반하는 정서적 복잡성도 없었습니다. 핵심적으로, 이 연구는 실제 환자 결과가 아니라 전문의가 판단한 계획의 품질을 측정했습니다 . 바로 이 때문에 Google도 이를 임상 검증이 아니라 하나의 이정표로 표현합니다.

빠른 대화형 구성요소와 느린 추론 구성요소의 조합을 의학 밖에서도 적용할 수 있나요?

네. 이 패턴은 특정 도메인에 묶이지 않습니다. 빠른 대화형 프런트엔드와 느린 장문맥 검색 추론기를 결합하는 방식은 대규모 구조화 지식 말뭉치가 있는 곳이라면 어디서든 의미가 있습니다. 법률 리서치, 컴플라이언스, 금융 자문, 기술 문서가 그 예입니다. AMIE의 경우 추론기는 총 약 1,000만 토큰에 달하는 627개 가이드라인 문서 말뭉치를 활용했습니다 . 진짜 제약은 아키텍처가 아니라 검증된 지식 말뭉치와 계획 품질을 방어 가능하게 평가할 기준을 갖추는 것입니다. 그것이 없다면 에이전트를 분리해도 얻는 이점은 크지 않습니다.