[기획 칼럼③] 공개된 정보 활용 패러다임 전환을 통해 AI 학습데이터 물꼬를 터야

장준영 변호사(법무법인 세종)
- 글자 크기 설정
- 가
- 가
- 가
- 가
입력: 2025.09.16 00:00 / 수정: 2025.10.16 10:01

AI 대전환은 이미 시작됐다. 이제 필요한 것은 기술의 속도를 따라잡는 법과 제도다. 개인정보 보호법은 대규모 데이터 학습과 알고리즘 훈련을 전제로 한 새로운 환경을 담아내야 한다. 사진은 지난 10일 기자회견을 하고 있는 제이슨 권 오픈AI 코리아 최고전략책임자(CSO)./이새롬 기자

AI(인공지능) 대전환 시대에 발맞춰 인터넷 종합 미디어 <더팩트>와 <개인정보보호법학회>가 손잡고 '인공지능 대전환시대 데이터법제의 발전'을 주제로 한 기획 칼럼 시리즈를 연재합니다. 이번 기획은 AI 혁신을 위한 필수 과제인 데이터의 활용과 보호 간 균형을 맞추는 정교한 법제도 정비의 중요성에 주목했습니다. 특히 AI 시대에 맞는 개인정보보호법 재설계의 필요성에 대한 심도 있는 논의를 이끌어낼 예정입니다. 데이터가 어떻게 수집되고, 활용되며, 보호돼야 하는지에 대해 전문가들의 학문적 분석과 사회적 담론을 제공합니다.<편집자 주>

[더팩트 | 장준영 변호사(법무법인(유) 세종, 개인정보보호법학회 부회장)] 인공지능(AI)은 더 이상 선택의 문제가 아니라 필수적인 시대적 과제이며, 우리도 AI 분야에서 세계 3강(G3) 도약을 목표로 하고 있다. 성공적인 G3 도약을 위해서는 데이터센터, GPU 같은 대규모 컴퓨팅 인프라, 숙련된 인재, 양질의 데이터 확보가 결정적인 요소다.

현재 우리 여건을 고려할 때, 가장 빠르고 효과적으로 G3로 도약하기 위한 지름길은 양질의 대규모 데이터를 확보하는 것이며, 실제로 해외의 주요 AI 기업들도 웹 크롤링 등의 방식으로 대규모 공개 데이터를 수집하고 이를 신속히 학습에 활용함으로써 경쟁력을 한층 강화하고 있다.

특히, 소버린 AI 의 근간이 되는 독자 파운데이션 모델은 웹 스크래핑 등을 통해 공개된 데이터를 수집·이용하여 혁신을 이끌 수밖에 없으나, 데이터의 대부분이 개인정보로 평가될 수 있는 현행 개인정보 보호 법제와 충돌을 야기할 수 있다. 개인정보 보호법은 본래 정보주체의 동의를 토대로 한 개별적 수집, 이용, 제공을 전제로 설계된 법률이다.

이에 AI 학습에 수반되는 대량의 데이터 수집, 결합, 비식별화, 재가공, 모델 훈련과 같은 새로운 프로세스를 온전히 포괄하기에는 어려움이 존재한다. 공개된 정보의 2차적 이용, 비식별화 데이터의 재식별 가능성, 그리고 학습데이터에서 파생된 결과물의 책임 소재 등은 기존 규율 체계에서 AI가 불러오는 혁신적 상황을 슬기롭게 해결할 수 없는 한계를 지니고 있다.

다행히 개인정보보호위원회가 지난해 7월 발표한 '인공지능 개발·서비스를 위한 공개된 개인정보 처리 안내서'는 분명 의미 있는 진전이다. 공개된 개인정보를 '누구나 합법적으로 접근 가능한 개인정보'로 정의하며, AI 학습에 활용할 법적 근거를 제시한다. 나아가, 개인정보보호법 제15조 제1항 제6호의 '정당한 이익' 조항을 통해 공개된 개인정보의 AI 학습 활용이 가능하다는 해석을 제시한 것은 그 동안의 법적 불확실성을 어느 정도 해소했다고 평가할 수 있다.

하지만 이 안내서는 여전히 근본적인 한계를 지니고 있다. 우선 '정당한 이익'의 인정 요건으로 제시된 ①목적의 정당성 ②처리의 필요성 ③구체적 이익형량이라는 세 요소는 AI 기업들이 신속하게 모델을 학습, 훈련해야 하는 상황을 고려하면 지나치게 추상적이면서 자의적 해석에 대한 우려를 야기시킬 수 있다. 더욱이 개별 동의나 계약 체결이 사실상 불가능한 대규모 공개데이터 수집 상황에서, 기존 정보주체의 동의 중심으로 설계된 개인정보 보호법의 체계를 그대로 유지하면서 예외적 조항을 통해 공개된 정보의 AI 학습을 규율하는 접근법에는 본질적 한계가 있다.

따라서 지금 필요한 것은 AI 대전환에 맞는 개인정보 보호 법제 개편이다. 합법적으로 접근 가능한 공개정보에 대해 명확하고 직관적인 기준을 제시해 기업이 주저 없이 활용할 수 있도록 해야 한다. 이미 동의를 통해 보유한 개인정보의 AI 학습 활용 확대 논의가 본격화된 만큼, 공개된 정보에 대해서는 더욱 혁신적인 기준이 필요하다. 무엇보다 AI 학습은 개인정보를 식별하기 위한 것이 아니라 데이터 구조와 패턴을 활용하는 행위라는 점도 고려해야 한다. 이는 최근 미국 법원이 파운데이션 모델 기업이 합법적으로 취득한 저작물을 모델 학습에 이용한 것을 공정이용으로 인정한 판결과도 맥을 같이 한다.

아울러 정보주체의 권리 보장도 함께 고민되어야 한다. AI 학습에 자신의 정보가 활용되는지조차 알 수 없는 현실은 불신을 키운다. 이에 AI 학습데이터 처리 현황 공개를 통한 투명성 제고나 피해 발생 시 신속한 구제절차 마련에 대한 논의도 병행되어야 할 것이다. 이는 개인의 권익 보호를 넘어 AI 혁신의 지속 가능성을 위한 신뢰 기반을 구축하는 길이다.

AI 대전환은 이미 시작되었다. 이제 필요한 것은 기술의 속도를 따라잡는 법과 제도다. 개인정보 보호법은 대규모 데이터 학습과 알고리즘 훈련을 전제로 한 새로운 환경을 담아내야 한다. 그래야 혁신과 권리 보호 사이의 균형을 지켜내고 AI가 사회적 신뢰 위에서 발전할 수 있다. 무조건적인 규제 강화도, 무제한적 자유도 해답이 될 수 없다. 결국 우리가 풀어야 할 과제는 혁신과 권리 보호의 균형이라는 시대적 요구다.