인식론적 병목: AI가 엔지니어에게는 10X를, 변호사에게는 3X를 주는 이유

AI를 활용한 법률 업무를 제약하는 것은 책임 소재도, 직업적 보수성도, 시간 단위 과금 관행도 아닙니다. 진짜 제약은 검증의 비용 구조이며, 이는 더 나은 모델로도 해소되지 않습니다.

2026년 7월 4일 · Quantum Nexus Ventures FZCO

AI를 진지하게 도입한 변호사들 사이에서 조용히 하나의 공감대가 형성되고 있습니다. AI에 관한 담론을 생산하는 이들이 아니라, 실제 사건에서 에이전트 기반 워크플로를 직접 운영하는 이들 사이에서입니다. 생산성 향상은 실재합니다. 대략 3X 안팎입니다. 그리고 이 수치는 소프트웨어 엔지니어링이 지금 경험하고 있는 10X로 올라서기를 완강히 거부하고 있습니다.

이 비교는 진지하게 받아들일 가치가 있습니다. 두 수치 모두 동일한 기반 모델에서 나오기 때문입니다. 같은 프런티어 모델을 사용하고 프롬프트 작성과 워크플로 설계 역량이 비슷한 엔지니어와 변호사가 자릿수 하나가 다른 지점에 도달합니다. 두 수치는 정밀한 측정값이라기보다 하나의 전형으로 받아들이면 됩니다. 이어지는 논증에 필요한 것은 정확한 값이 아니라 둘 사이의 격차뿐입니다. 그 격차를 무엇으로 설명하든, 모델의 성능은 아닙니다.

본격적인 에이전트 환경을 운영하는 엔지니어 대부분은 더 이상 코드를 한 줄씩 읽지 않습니다. 다수의 에이전트로 긴 자율 루프를 돌리고, 동작과 아키텍처 수준에서 검토하며, 자신이 보지 못하는 부분은 하니스(harness)가 잡아내도록 맡깁니다. 반면 가장 정교한 수준으로 AI를 활용하는 변호사조차 자신의 이름으로 나가는 자문의 모든 문장을 여전히 직접 읽습니다.

흥미로운 질문은 왜 그런가 하는 점입니다. 그리고 이에 대한 통상적인 답변들은, 오히려 많은 것을 시사하는 방식으로 틀려 있습니다.

통상적인 설명들, 그리고 그것이 부차적인 이유

가장 자주 듣게 되는 설명은 책임 소재입니다. 자문서에는 변호사의 이름이 올라갑니다. 문제가 생기면 의뢰인은 챗봇이 아니라 사람에게 전화를 겁니다. 변호사 윤리 규정은 업무 결과물에 대한 감독 의무를 부과합니다. 변호사 배상책임보험은 그 위험에 가격을 매깁니다. 법원은 AI가 지어낸 인용을 제출한 변호사들을 본보기로 삼아 왔습니다. 2023년 Mata v. Avianca 사건에서 시작해, 이제는 공개 데이터베이스가 추적할 만큼 방대해진 일련의 제재 결정으로 이어지고 있습니다.출처: Mata v. Avianca (S.D.N.Y. 2023) · AI Hallucination Cases database

이 모든 것은 사실입니다. 그러나 그중 어느 것도 한계를 결정짓는 제약은 아닙니다.

판별 기준은 이렇습니다. 만약 책임 소재가 근본적인 한계라면, 직업 규범이 적응하고, 보험사가 AI 특화 상품을 개발하고, 법원과 규제 기관이 검토 위임을 위한 프레임워크를 마련함에 따라 격차가 좁혀질 것이라 기대할 수 있어야 합니다. 제도가 5년쯤 조정을 거치면 3X는 8X가 되어야 합니다.

그러나 그런 일은 일어나지 않을 것입니다. 책임 소재는 업무가 지닌 더 깊은 속성에 대한 법체계의 대응이지, 그 속성 자체가 아니기 때문입니다. 엔지니어 역시 자신이 배포한 것에 책임을 집니다. 항공 소프트웨어, 의료기기, 결제 인프라는 잘못 작성된 계약서 못지않게 무거운 법적 책임을 수반합니다. 그럼에도 그 분야의 검증은 여전히 기계 속도로 돌아갑니다. 차이는 위험의 크기가 아닙니다. 확인 작업의 비용 구조입니다.

검증의 비대칭

소프트웨어 엔지니어링이 10X를 손에 넣은 것은 너무 기본적이어서 놓치기 쉬운 사실 덕분입니다. 결과물이 실행된다는 사실입니다. 코드의 정답 기준(ground truth)은 기계 그 자체입니다. 컴파일러는 밀리초 만에 타입 오류를 걸러냅니다. 테스트 스위트는 동작 명세를 코드로 담아 커밋마다 실행합니다. 정적 분석기, 퍼저(fuzzer), 속성 기반 테스트는 사람이라면 시도할 생각조차 못 할 입력 공간을 탐색합니다. 50년에 걸친 꾸준한 투자가 코드 검증 비용을 0에 가깝게 끌어내렸고, 결정적으로 검증을 코드 생성보다 저렴하게 만들었습니다.

엔지니어링에서 에이전트 루프가 완결되는 이유가 바로 여기에 있습니다. 에이전트는 코드를 작성하고, 검증기를 돌리고, 실패 내역을 읽고, 수정합니다. 이 과정을 수천 번, 사람의 개입 없이 반복합니다. 보상 신호를 기계가 확인할 수 있기 때문입니다. 에이전트가 자신의 채점관을 직접 돌릴 수 있는 것입니다.

이제 법적 주장 하나를 검증하는 데 무엇이 필요한지 살펴보겠습니다. "스페인법상 이 계약상 청구권의 소멸시효 기간은 5년이다"라는 지극히 평범한 문장을 예로 들겠습니다. 이 문장을 승인해 내보내려면 검토자는 서로 독립적인 다섯 가지 속성을 확인해야 합니다.

존재: 인용된 근거가 실제로 존재해야 합니다. 이 사안에서는 Código Civil(스페인 민법) 제1964조 제2항이 그것입니다.

충실성: 그 근거가 주장된 내용을 실제로 말하고 있어야 합니다. 대체적인 주제 수준이 아니라 구체적인 문구 수준에서 그러해야 합니다.

현행성: 여전히 현재 유효한 법이어야 합니다. 폐지되지 않았고, 모델이 학습한 버전 이후 개정되지 않았으며, 특별법으로 대체되지 않았고, 구속력 있는 판례에 의해 재해석되지 않았어야 합니다. 바로 이 조문은 2015년에 개정되었는데, 이는 수십 년 치 법률 텍스트로 학습한 모델이 소리 없이 틀리는 바로 그 유형의 사실입니다.출처: Ley 42/2015 (BOE)

권위: 그 근거가 해당 관할권에서, 해당 위계 수준에서, 해당 유형의 문제에 대해 구속력을 가져야 합니다. Audiencia Provincial(스페인 지방법원)의 판결은 Tribunal Supremo(스페인 대법원)의 판결과 같지 않습니다. 소부 판결은 en banc(전원합의체) 판결이 아닙니다. Ratio(판결의 핵심 법리)는 obiter(방론)가 아닙니다.

적용 가능성: 그 근거가 바로 이 사실관계, 이 계약 유형, 그리고 경과 규정에 따른 이 시적 적용 체계를 규율해야 합니다.

이 다섯 가지는 각각 정답 기준을 상대로 한 조회 작업입니다. 그러나 엔지니어링과 달리 그 정답 기준은 실행 가능한 결과물이 아닙니다. 수백 개의 관보, 법원 기록, 통합 법전에 흩어져 있고, 수십 개 언어로 쓰였으며, 시간에 따라 버전이 갈리고, 관할권별로 범위가 나뉘며, 대부분 기계로 확인할 수 없는 분산된 코퍼스입니다. 그래서 이 조회는 이용 가능한 유일한 검증 수단을 거치게 됩니다. 바로 사람의 속도로 읽는 유자격 전문가입니다.

그 사람이 바로 파이프라인의 직렬 구간입니다. 그리고 직렬 구간에는 그 나름의 수학이 있습니다.

법률 업무에 적용한 암달의 법칙

병렬 컴퓨팅에서 암달의 법칙은 어떤 시스템의 속도 향상이든 가속할 수 없는 부분에 의해 제한된다는 것을 보여줍니다. 작업 중 비율 p가 s배 가속되면 전체 속도 향상은 1 / ((1 − p) + p/s)입니다.

이를 법률 사건에 적용해 보겠습니다. 작업 시간의 70퍼센트가 생성 업무라고 가정합니다. 자료 조사, 초안 작성, 요약, 서식 정리, 1차 분석 같은 일입니다. AI가 이 부분을 10X가 아니라 무한대로, 즉 소요 시간 0으로 가속한다고 가정합니다. 전체 속도 향상은 1 / 0.3, 즉 약 3.3X입니다.

관찰되는 3X 상한은 문화적 산물이 아닙니다. 검증이 직렬 구간을 차지한 암달의 법칙입니다.

이 산술은 10X에 도달하려면 무엇이 필요한지도 알려줍니다. 가속되지 않는 나머지가 원래 작업 시간의 10퍼센트 아래로 줄어야 합니다. 오늘날 검증이 업무의 30퍼센트를 차지한다면, 다른 모든 것이 자동화되는 동안 검증 자체가 절대량 기준으로 지금의 3분의 1 이하로 압축되어야 합니다. 생성 쪽의 개선은 아무리 극적이어도 이 숫자를 움직이지 못합니다. 초안 작성을 즉시 끝나게 만들 수는 있습니다. 그래도 상한은 3.3X에 머뭅니다.

모델 출시 소식이 거듭 가려 온 논점이 바로 이 부분입니다. 성능이 도약할 때마다 70퍼센트는 더 압축되고 발표가 쏟아지지만, 30퍼센트는 손대지 않은 채 남습니다. 병목은 투자가 몰리는 곳에 있지 않습니다.

더 나은 모델이 상한을 움직이지 못하는 이유

구조적인 이유가 네 가지 있으며, 각각은 모델의 품질과 무관합니다.

첫째, 보정(calibration)은 이전되지 않습니다. 모델의 유창함은 그 주장의 법적 정확성과 상관관계가 없습니다. 환각으로 지어낸 인용은 형식만은 완벽하며, 바로 그 점이 위험한 이유입니다. 더 뛰어난 모델은 오류를 더 적게 만들지만, 검토하는 변호사는 어느 주장이 오류인지 알 수 없으므로 주장 하나당 검토 노력은 그대로입니다. 오류율이 4퍼센트에서 1퍼센트로 떨어졌다고 검토를 덜 하지는 않습니다. 전부 검토합니다. 주장 100개 중 1퍼센트라도 여전히 제재 대상이 되는 서면이기 때문입니다.

둘째, 오류의 분포가 표본 검사를 무력화합니다. 표본 점검은 오류가 무작위로 분포할 때 유효합니다. 모델의 오류는 무작위가 아닙니다. 오류는 정확히 그럴듯해 보이는 자리에 몰립니다. 논지에 완벽하게 들어맞는 인용, 원문이 마땅히 그렇게 말했어야 할 내용을 담은 인용문, 잘 정비된 법체계라면 존재했겠지만 실제 이 법체계에는 존재하지 않는 판례 같은 것들입니다. 옳아 보이도록 적대적으로 빚어진 주장들 가운데 10퍼센트만 점검해서는 사실상 아무것도 잡아내지 못합니다. 검토는 전수 검토여야 하며, 그것은 비용이 많이 드는 종류의 검토입니다.

셋째, 최신성 결여는 우연이 아니라 구조의 문제입니다. 학습 데이터 기준 시점(training cutoff)이 존재하는 한, 모델은 지난달의 판례 변경이나 지난주의 법 개정을 알 수 없습니다. 규모는 최신성을 해결하지 못합니다. 파라미터가 10배인 모델도 어제 일어난 일에 대해서는 똑같이 무지합니다. 검색 증강 생성(RAG)은 문제를 해결하는 것이 아니라 옮겨 놓을 뿐입니다. 이제 정확성은 검색 코퍼스의 완전성과 최신성, 그리고 검색이 실제로 구속력 있는 자료를 찾아내는지에 달려 있는데, 바로 그 속성들을 아무도 검증하지 않고 있습니다.

넷째, 손실 함수가 비대칭적이며 그 손실은 이름이 명시된 사람에게 떨어집니다. 코딩 에이전트의 오류가 엔지니어에게 실패한 배포와 30분의 손실로 끝난다면, 검증되지 않은 출력을 용인하는 것은 합리적입니다. 그러나 그 오류가 법원 제출 서면에 들어간 지어낸 판례라면, 그 대가는 제재와 징계, 그리고 변호사의 이름이 박힌 채 공개되어 영구히 남는 결정문입니다. 비대칭 손실 아래에서 전수 검토는 보수주의가 아닙니다. 올바른 정책입니다.

누락의 문제

날조보다 더 나쁜 실패 유형이 있지만, 이것이 받는 관심은 그에 한참 못 미칩니다. 바로 누락입니다.

지어낸 인용은 최소한 확인이라도 할 수 있습니다. 지면 위에 존재하고, 주장을 담고 있으며, 성실한 검토자라면 끝까지 추적할 수 있습니다. 누락된 구속력 있는 선례는 지면에 아무 흔적도 남기지 않습니다. 출력물은 유창하고, 인용이 달려 있고, 내적으로 정합적이지만 틀렸습니다. 자기 입장에 불리하게 사안을 결정짓는 판례가 아예 수면 위로 떠오르지 않았기 때문입니다.

부재를 검증하는 일은 존재를 검증하는 일보다 범주적으로 어렵습니다. 분석과 모순되는 구속력 있는 선례가 없다는 사실을 확인하려면, 완전하고 최신이며 관할권 범위가 명확한 코퍼스 전체에 대한 전수 검색이 필요합니다. 이를 실제로 수행하는 인간 검토자는 없습니다. 경험 많은 변호사는 패턴 인식과 인용 검증 도구(citator)로 위험을 완화하지만, 그 완화는 확률적이며, 사안이 낯선 관할권이나 빠르게 변하는 법 영역으로 넘어가는 바로 그 순간에 힘을 잃습니다.

이 점은 신중하게 짚어 둘 가치가 있습니다. 통상적인 프레임을 뒤집기 때문입니다. 전수성은 기계가 전문가보다 잘하는 유일한 영역입니다. 단, 코퍼스와 검색 계층이 그것을 위해 설계되어 있을 때에만 그렇습니다. 법률 검색 시스템에서 재현율(recall)은 지연 시간과 맞바꿀 수 있는 정보 검색 지표가 아닙니다. 안전성 속성입니다. 구속력 있는 선례를 빠짐없이 포괄함을 입증할 수 있는 시스템은, 인간 검토가 이미 하는 일을 근사하는 것이 아니라 어떤 인간 검토도 할 수 없는 일을 해내는 것입니다.

소리 없이 불어나는 오류

법률 업무가 더 먼 앞을 내다볼수록 병목은 더 심해집니다. 리스크 평가, 거래 구조 설계, 규제 대응 전략. 이 모든 것은 현재 법이 어떠한지에 관한 과거 지향적 전제 위에 세워진 추론입니다.

결론의 인식론적 지위는 가장 약한 전제에 의해 제한됩니다. 오염된 입력 하나, 환각으로 지어낸 판례 하나, 현행법으로 취급된 폐지 조문 하나, 누락된 반대 선례의 계열 하나가 그 위에 세워진 모든 판단을 소리 없이 오염시킵니다. 그리고 그 오염은 출력물에서 보이지 않습니다. 하류의 추론 하나하나는 국소적으로는 그럴듯하기 때문입니다. 추론이 잘못된 전제로부터 세 단계쯤 나아간 뒤에는, 최종 메모를 아무리 읽어도 결함이 드러나지 않습니다. 오류는 스스로를 알리지 않습니다. 불어날 뿐입니다.

"AI 출력물에 대한 인간 검토"가 말처럼 든든한 안전장치가 아닌 이유가 여기에 있습니다. 인간은 결론을 검토하는데, 결론은 멀쩡해 보입니다. 결함은 출처 이력(provenance)에 있고, 출처 이력이야말로 현재의 AI 출력물이 담고 있지 않은 바로 그것입니다.

검증 압축에 실제로 필요한 것

상한이 검증 비용으로 정해진다면 엔지니어링 과제는 명확합니다. 다섯 가지 확인 각각을 기계가 실행할 수 있게 만드는 것입니다. 구체적으로 이는 법률 AI 업계 대부분이 아직 구축을 시작조차 하지 않은 인프라를 뜻합니다.

리졸브 가능한 식별자(resolvable identifiers). 생성된 출력물의 모든 법적 주장에는 정본 출처를 가리키는, 기계가 리졸브할 수 있는 포인터가 달려 있어야 합니다. 이미 존재하는 식별자 체계를 쓰면 됩니다. 유럽 판례에는 ECLI, 법령에는 ELI, 문서 모델로는 Akoma Ntoso가 있습니다. 그러면 존재 확인은 사람이 수행하는 검색이 아니라 결정론적 조회 작업이 됩니다.출처: ECLI (Council conclusions, 2011) · ELI (EUR-Lex) · Akoma Ntoso

구절 단위 근거 연결(span-level grounding). 충실성은 문서 전체 수준이 아니라 문자 그대로의 해당 구절을 기준으로 검증되어야 합니다. 하나의 주장은 하나의 출처 구절에 대응하며, 그 구절은 주장을 뒷받침하거나 뒷받침하지 않거나 둘 중 하나입니다. 의미적 유사성은 뒷받침이 아닙니다. 어떤 구절은 주제상으로는 정확히 들어맞으면서도 주장과 모순될 수 있으며, 임베딩 거리로는 어느 쪽인지 알 수 없습니다.

시적 효력 그래프. 법령은 버전 관리되는 그래프로 표현되어야 합니다. 개정 연혁, 적용 배제, 시행일, 경과 규정 체계가 그 구성 요소입니다. 판례에는 인용 관계 간선이 필요합니다. 추종, 구별, 제한, 폐기 같은 관계입니다. 그러면 현행성 확인은 조사 업무가 아니라 밀리초 단위 연산인 그래프 탐색이 됩니다. 이는 Shepard's와 KeyCite가 소수의 관할권에서 한 세기 넘게 해 온 일의 기계 본연의 버전이며, 그것을 모든 관할권으로 일반화한 것입니다.

데이터로 인코딩된 권위 서열. 헌법 규범은 법률에, 법률은 행정입법에 우선한다는 법원(法源)의 위계와 각 관할권의 법원 심급 구조를 데이터로 인코딩하여, 시스템이 상충하는 두 근거를 같은 확신도로 나란히 제시하는 대신 서열을 매길 수 있게 하는 것입니다.

판정 유보 구간을 갖춘 함의(entailment) 판정. 자연어 추론 모델은 어떤 구절이 주장을 뒷받침하는지를 보정된 확신도와 함께 판정할 수 있습니다. 설계에서 중요한 지점은 회색 지대입니다. 함의 여부가 진정으로 불확실한 주장은 사람에게 넘겨집니다. 그러면 변호사는 주장의 100퍼센트를 검토하는 대신, 실제로 다툼의 여지가 있는 10~20퍼센트를 판단하는 일로 옮겨 갑니다. 직렬 구간을 압축한다는 것은 실무에서 바로 이런 모습입니다.

부재의 검증. 완전성이 입증된 코퍼스 전체에 대해 전수 검색을 수행하고, 모순되는 선례를 요청이 있을 때가 아니라 선제적으로 드러내는 것입니다. 그러면 포괄 범위는 측정 가능하고 감사 가능한 시스템의 속성이 됩니다.

이 중 어느 것도 사변적인 컴퓨터 과학이 아닙니다. 모든 구성 요소가 이미 존재합니다. 시장 대부분에 없는 것은 여기에 투자하려는 의지입니다. 이 가운데 어느 것도 유창한 초안만큼 데모 효과를 내지 못하기 때문입니다.

법이 끝내 만들지 않은 컴파일러

충분히 멀리서 보면 엔지니어링의 10X에는 단순한 설명이 있습니다. 검증 인프라에 50년간 투자한 것에 대한 수익이라는 설명입니다. 컴파일러, 타입 시스템, 테스트 하니스, 지속적 통합, 정적 분석이 그것입니다. 생성이 빨라질 수 있었던 것은 검증이 먼저 저렴해졌기 때문입니다. 소프트웨어의 에이전트 혁명은 그 토대를 만든 것이 아닙니다. 그 토대를 현금화한 것입니다.

법률 AI는 정반대의 베팅을 해 왔습니다. 투자 물결의 거의 전부가 생성에 쏠렸습니다. 초안 작성의 유창함, 요약, 문서를 대상으로 한 대화형 인터페이스 같은 것들입니다. 생성은 애초에 저렴한 쪽이었습니다. 그 결과는 암달의 법칙이 예측하는 그대로입니다. 70퍼센트의 눈부신 가속, 손대지 않은 30퍼센트, 그리고 진지한 도입 보고서가 나올 때마다 다시 발견되는 업계 전반의 3X 정체입니다.

3X 변호사는 실재하며, 그 자체로 될 만한 가치가 있습니다. 그러나 3X는 경유지가 아니라 상한입니다. 생성이 더 유창해져도 그 상한에 점근하다 멈출 뿐입니다. 10X 변호사는 검증이 기계 속도로 돌아갈 때에만 가능해집니다. 존재, 충실성, 현행성, 권위, 적용 가능성이 결정론적으로 확인되고, 인간의 판단은 그것이 진정으로 필요한 질문에만 투입될 때입니다.

산업화를 거친 모든 분야가 같은 이행을 겪었습니다. 제약은 만드는 일에서 확인하는 일로 옮겨 갔고, 다음 시대의 승자는 그 확인 작업을 산업화한 기업들이었습니다. 다음 차례는 법입니다. 자릿수가 다른 도약은 검증을 압축하는 쪽의 몫입니다.

이 글은 의견 및 사고 리더십 콘텐츠입니다. 법률 또는 재무 자문이 아닙니다.

더 많은 인사이트

← Insights로 돌아가기