AI 시스템은 출력을 기록한다. 법원은 의사결정을 요구할 것이다.

자동화된 의사결정에 이의가 제기될 때, 출력의 영수증은 그 의사결정이 왜 내려졌는지 재구성할 수 있는 방어 가능한 추적 기록과 같지 않다.

2026년 6월 28일 · Quantum Nexus Ventures FZCO

AI governance
audit trail
EU AI Act
accountability
RegTech

중대한 영역 — 대출, 법률, 보험, 채용 — 에 AI를 배포하는 모든 조직은 감사 로그를 구축하고 있다. 그러나 의사결정에 이의가 제기될 때, 그 로그 대부분은 쓸모가 없을 것이다. 로그가 불완전해서가 아니다. 잘못된 것을 기록하고 있기 때문이다.

전통적인 감사 인프라는 이벤트를 중심으로 설계되어 있다. 즉, 특정 주체가 특정 시점에 어떤 행위를 수행하여 시스템 상태에 특정한 변화를 일으켰다는 것이다. 여기서 불변의 원칙은 재구성 가능성(reconstructibility)이다. 이벤트 로그를 재생하면 무슨 일이 일어났는지 복원할 수 있다. 바로 이것이 감사 추적을 법적으로 유의미하게 만드는 요소다. 단지 로그가 존재한다는 사실이 아니라, 그것이 무언가를 증명할 수 있다는 점이다.

AI 추론은 이런 의미의 이벤트가 아니다. AI 의사결정은 하나의 함수다. 입력을 받아 출력을 생성한다. 그 출력은 의사결정 자체가 아니다 — 특정 조건 아래 특정 입력 집합에 의사결정 함수를 적용한 결과일 뿐이다. 출력만 기록하면, 질문도, 그에 답한 모델도, 주어진 맥락도, 작동한 매개변수도 기록하지 않은 채 답만 기록하게 된다. 그것은 추적 기록이 아니라 영수증에 불과하다.

의사결정을 결정짓는 네 가지 입력

언어 모델이 생성한 의사결정은 최소한 네 개의 독립 변수에 의해 결정된다.

사용자 입력: 추론 시점에 제출된 문서, 질의, 또는 프롬프트. 대부분의 조직이 이것을 기록한다. 가장 쉬운 부분이기 때문이다.

시스템 프롬프트: 모델의 동작을 규정하고, 출력을 제약하며, 파이프라인 내에서 모델의 역할을 정의하는 지침. 시스템 프롬프트는 변한다. 팀이 모델 동작을 반복 개선하는 과정에서, 버전 관리 없이 조용히 업데이트된다. 특정 추론이 이루어진 시점에 사용된 정확한 시스템 프롬프트를 제시할 수 없다면, 모델이 무엇을 하도록 지시받았는지 재구성할 수 없다.

모델 버전: 모델 이름이 아니라 버전이다. "GPT-4"는 모델 버전이 아니다. 제공자가 안정적인 API 엔드포인트 뒤에서 모델을 업데이트하는 경우 — 실제로 일어나는 일이다 — "GPT-4"라는 로그 항목은 동일한 입력에 대해 서로 다른 출력을 생성하는 두 개의 서로 다른 모델과 모두 부합하게 된다. 그 의사결정은 재구성할 수 없다.

검색 컨텍스트: 시스템이 검색 증강 생성(RAG)을 사용한다면, 검색된 문서가 의사결정 함수의 일부가 된다. 검색 인덱스는 시간이 지나면서 변한다. 문서가 추가되고, 폐기되고, 재청크(re-chunk)되고, 재임베딩(re-embed)된다. 동일한 질의에 대한 오늘의 검색 결과는 6개월 전의 검색 결과와 같지 않다. 검색된 컨텍스트가 추론 시점에 기록되지 않는 한, 그 의사결정은 재현할 수 없다.

이 중 어느 하나라도 기록되지 않거나 버전 관리되지 않으면, 그 의사결정은 복구 불가능해진다.

출력 로그가 검증되는 바로 그 순간에 실패하는 이유

이 실패 양상은 정상적인 운영 중에는 드러나지 않는다. 출력 로그는 모니터링, 분석, 디버깅에는 잘 작동한다. 가장 필요한 바로 그 순간 — 의사결정에 이의가 제기될 때 — 에 실패한다.

이런 시나리오를 생각해 보자. 어떤 중대한 자동화 의사결정에 대해 그것이 내려진 지 12개월 후에 이의가 제기된다. 그동안 모델은 업데이트되었다. 검색 인덱스는 갱신되었다. 시스템 프롬프트는 두 차례 수정되었다. 이의 제기자는 정당하게 묻는다. 당신의 시스템은 이 의사결정을 내릴 때 무엇을 알고 있었으며, 왜 이렇게 결정했는가?

출력 로그는 답한다. 이렇게 결정했다고. 그러나 어떤 근거에서인지는 답하지 못한다.

이것이 로깅과 책임성(accountability)의 차이다. 로그는 무슨 일이 일어났는지 알려준다. 책임성 기록은 검증하고, 재현하고, 방어할 수 있는 형태로 그 이유를 알려준다. 중요한 규제 프레임워크들은 조직이 준비가 되었든 아니든 이 구분을 강제하기 시작하고 있다.

규제 프레임워크가 실제로 요구하는 것

EU AI Act 제12조는 고위험 AI 시스템이 "시스템의 수명 전반에 걸쳐 이벤트(로그)의 자동 기록을 기술적으로 허용"하도록 요구하며, 로깅 기능은 "시스템의 의도된 목적에 적절한" 수준의 추적 가능성을 보장하도록 범위가 정해져야 한다(Regulation (EU) 2024/1689, 제12조 (1)–(2)). GDPR 제22조에 따라 개인은 법적 효과 또는 그에 준하는 중대한 영향을 미치는, 프로파일링을 포함한 전적으로 자동화된 처리에만 기반한 의사결정의 대상이 되지 않을 권리를 갖는다. 그러한 처리가 허용되는 경우, 제22조 (3)항은 인간의 개입, 자신의 견해를 표명할 권리, 그리고 그 의사결정에 이의를 제기할 권리를 포함한 안전장치를 보장한다. "설명을 받을 권리(right to explanation)"라는 것 자체는 제22조 본문에 없으며, 구속력이 없는 전문(Recital) 71과, "관련 논리에 대한 의미 있는 정보"를 요구하는 제13조–제15조의 투명성 의무에서 도출된다. PRA의 모델 위험 관리 프레임워크 — 감독 성명서 SS1/23, "은행을 위한 모델 위험 관리 원칙(Model risk management principles for banks)" — 은 독립적인 제3자가 모델의 결과를 이해하고 재현할 수 있을 만큼 충분히 상세한 문서를 기업이 유지하여, 감사 가능성과 효과적인 모델 거버넌스를 뒷받침할 것을 기대한다.출처: EU 인공지능법(Artificial Intelligence Act) 제12조 (기록 보관) — Regulation (EU) 2024/1689 · GDPR 제22조 (전문), gdpr-info.eu · 영란은행(PRA) — SS1/23, "은행을 위한 모델 위험 관리 원칙"

이 규정들 중 어느 것도 로깅이 기술적으로 무엇을 의미하는지 명시하지 않는다. 이를 해석하는 법원이나 규제 당국은 목적론적 기준을 적용할 것이다. 즉, 그 로그가 의사결정을 재구성하고 설명할 수 있게 하는가? 출력 로그는 이 기준을 충족하지 못한다. 출력에 컨텍스트와 모델 버전을 더한 로그는 충족한다.

실질적인 결과는, 버전 약속도 없고 검색 로깅도 없는 범용 API 위에 AI를 구축하는 조직들이 의사결정에 이의가 제기되기 전까지는 보이지 않는 책임을 누적하고 있다는 것이다. 그리고 이의가 제기되는 시점에는 재구성에 필요한 입력이 더 이상 존재하지 않는다.

의사결정 재구성이 가능한 로그란 실제로 어떤 모습인가

AI 의사결정에 대한 최소 실행 가능 책임성 기록은 다음을 포함한다. 추론 시점의 사용자 입력 해시. 사용된 정확한 시스템 프롬프트(버전 관리 및 해시 처리). 특정 가중치에 대응되는 모델 식별자 — 이름이 아니라, 고정된 배포 ID 또는 제공자 수준의 스냅샷 참조. 해당되는 경우 검색된 컨텍스트: 문서 식별자, 콘텐츠 해시, 그리고 검색 타임스탬프. 추론 매개변수: 온도(temperature), 샘플링 구성, 출력의 확률성에 영향을 미치는 모든 것. 해시 및 타임스탬프 처리된 출력. 그리고 출력이 규칙 기반 또는 사람이 검토하는 단계로 이어지는 경우 그 하위 의사결정.

이것은 방대한 양의 데이터가 아니다. RAG 시스템에서 가장 큰 구성 요소는 검색 컨텍스트이지만, 이는 컨텍스트 윈도우에 의해 제한된다. 나머지는 메타데이터다. 이를 저장하는 비용은 그것을 제시하지 못하는 비용에 비하면 미미하다.

검증

어떤 로그 항목이 주어졌을 때 그 AI 의사결정을 재현할 수 없다면 — 동일한 모델 버전에 동일한 시스템 프롬프트와 검색 컨텍스트로 동일한 입력을 넣어 동일한 출력에 도달할 수 없다면 — 당신의 로그는 감사 추적이 아니다. 그것은 출력 이력일 뿐이다.

출력 이력은 유용하다. 그러나 방어 가능하지는 않다.

자동화 의사결정에 이의가 제기될 때 가장 유리한 위치에 서게 될 조직은 반드시 최고의 모델을 가진 조직이 아니다. 어떤 의사결정에도 이의가 제기되기 전부터, 처음부터 로깅을 의사결정 아키텍처의 문제로 다룬 조직이다.

그 아키텍처를 구축할 시점은 분쟁이 일어난 후가 아니라 그 전이다.

이 글은 의견 및 사고 리더십 콘텐츠입니다. 법률 또는 재무 자문이 아닙니다.

더 많은 인사이트

← Insights로 돌아가기