AI 핵심 요약
beta- 정부가 AI 산업 육성을 위해 공공데이터를 개방했으나 생성형 AI 시대에는 비식별 데이터도 재식별 위험이 커졌다고 했다
- Strava 사건처럼 위치·건강·군 관련 비식별 정보가 다른 공개 데이터와 결합되면 개인 신원과 군사시설·부대 활동 특성까지 드러날 수 있다고 했다
- 따라서 AI 학습용 데이터 개방 전 재식별·안보 영향평가와 새로운 비식별 기준·데이터 거버넌스 체계 마련이 시급하다고 했다
!AI가 자동 생성한 요약으로 정확하지 않을 수 있어요.
최근 정부는 인공지능(AI) 산업 육성을 위해 공공데이터 개방정책을 적극 추진하고 있다. 데이터는 이제 석유를 대체하는 새로운 생산요소로 평가받고 있으며, AI 산업의 경쟁력은 결국 얼마나 양질의 데이터를 확보하느냐에 달려 있다고 해도 과언이 아니다.
실제로 정부는 공공데이터포털을 통해 교통·환경·보건·교육·문화·행정 분야의 다양한 데이터를 개방하고 있으며, 기업들은 이를 활용하여 새로운 서비스를 개발하고 있다.그러나 생성형 AI 시대의 데이터 개방은 과거와 다른 차원의 위험을 내포하고 있다. 이름이나 주민등록번호가 제거된 비식별 데이터라고 하더라도 AI가 다른 공개정보와 결합하여 개인이나 조직을 다시 식별할 수 있기 때문이다. 이러한 위험성을 전 세계에 극명하게 보여준 대표적 사례가 바로 2018년 발생한 'Strava Heat Map 사건'이다.

당시 호주의 전략정책연구소(ASPI) 연구원이었던 Nathan Ruser는 미국 운동기록 애플리케이션인 Strava가 공개한 Global Heat Map을 분석하던 중 놀라운 사실을 발견하였다. Strava는 이용자들이 달리기, 자전거, 등산, 군사훈련 등의 운동기록을 GPS 기반으로 저장하는 플랫폼이다. 2017년 Strava는 전 세계 약 2,700만 명의 이용자로부터 수집한 30억 건 이상의 운동기록을 분석하여 Heat Map을 공개하였다.
회사 측은 이름과 계정정보를 삭제하였으므로 개인정보 문제는 없다고 판단하였다. 그러나 Nathan Ruser는 사하라 사막, 시리아, 이라크, 아프가니스탄 등 인구가 거의 존재하지 않는 지역에서 특정 경로가 유난히 밝게 표시되는 현상을 발견하였다. 이를 분석한 결과 해당 경로들은 미군기지, NATO 군사시설, 특수부대 작전구역과 일치하였다.
특히 아프가니스탄의 일부 군사기지에서는 병영, 숙소, 식당, 체력단련장, 순찰로까지 식별이 가능하였다. 군인들이 운동 중 Strava 앱을 사용하면서 남긴 GPS 데이터가 그대로 누적된 결과였다. 더욱 심각한 것은 공개적으로 알려지지 않았던 일부 정보기관 시설과 비공개 작전거점까지 추정할 수 있었다는 점이다. Strava는 군사기밀을 공개한 적도, 개인정보를 공개한 적도 없었다. 그러나 GPS 위치정보, 반복적인 이동패턴, 공개 위성사진, 공개 지도 데이터를 결합하자 군사시설의 위치와 활동 특성이 드러난 것이다.

이 사건은 중요한 교훈을 남긴다. 비식별 데이터라고 해서 반드시 안전한 데이터는 아니라는 점이다. 데이터는 다른 데이터와 결합되는 순간 새로운 의미를 가지게 된다. 그리고 생성형 AI는 이러한 결합 능력을 과거와 비교할 수 없을 정도로 강화하고 있다. 과거에는 전문가가 수개월 동안 분석해야 했던 작업을 이제는 AI가 수분 내에 수행할 수 있다. AI는 GPS 데이터, SNS 게시물, 뉴스기사, 공개 지도, 위성사진, 공공데이터를 자동으로 수집하고 결합하여 인간이 발견하기 어려운 패턴을 찾아낸다. 결국 비식별 데이터는 AI에게 충분한 식별 단서가 될 수 있다.
우리나라 역시 이러한 위험으로부터 자유롭지 않다. 현재 군에서는 장병 건강과 복지 향상을 위하여 다양한 디지털 플랫폼을 운영하고 있다. 대표적으로 육군 체력관리 플랫폼인 KAFIT는 장병의 체력측정 결과와 운동이력을 관리하고 있으며, 국군 장병 디지털 마음건강 서비스는 우울·불안·스트레스 상태를 분석하고 상담을 지원한다.
또한 국군의무사령부의 DEMIS 3.0은 진료예약, 예방접종, 건강검진, 의무기록 조회 기능 등을 제공하고 있다. 군인들은 훈련시간을 제외하고는 마음건강을 위해 휴대폰 사용도 자유로운데 대개 자신들이 훈련받을 곳이나 작전을 수행할 곳 등 여러 위치를 거리낌없이 검색하면서 지낸다.
즉, 일정 앱 뿐 아니라 민간 앱에서도 국방의 의무를 하고 있는 아이디만 알게 되면 지속적으로 경로 데이터가 누적되고 있는 셈이다. 문제는 이러한 정보가 향후 연구나 정책 수립, AI 활용 등을 이유로 비식별 처리되어 제공되거나 특정하고자 하면 위협에서 자유로운 것이 아니라는 점이다.

예를 들어 체력측정 결과, 운동기록, 특정 부대의 활동지역 정보, 건강검진 정보, 위치정보 등이 결합될 경우 특정 병사의 신원뿐 아니라 특정 부대의 훈련 특성, 활동 패턴, 경계구역, 시설 배치까지 추론될 가능성을 배제하기 어렵다. 생성형 AI는 이러한 데이터를 자동으로 결합하고 분석할 수 있기 때문이다.
Strava 사건은 개인정보 보호의 문제를 넘어 국가안보의 문제로 확장될 수 있음을 보여주었다. 오늘날 데이터는 개인의 프라이버시뿐 아니라 조직의 비밀과 국가의 안전까지 포함하는 자산이 되었다. 따라서 공공데이터 정책 역시 단순히 개인정보 보호 수준에 머물러서 정책이 충분하다고 판단해서는 안 된다.
앞으로는 AI 학습 목적의 데이터 개방 이전에 재식별 가능성에 대한 영향평가를 의무화하고, 위치정보·건강정보·군 관련 정보에 대해서는 국가안보 영향평가를 병행하는 제도적 장치가 필요하다. 또한 생성형 AI 시대에 맞는 새로운 비식별화 기준과 데이터 거버넌스 체계 및 재식별화 평가기준도 신속히 마련하여야 한다.
AI 산업 발전을 위해 데이터 개방은 필요하다. 그러나 Strava 사건이 보여주었듯이 비식별 데이터라 하더라도 외부 정보와 결합되는 순간 개인뿐 아니라 조직과 국가의 민감정보까지 재식별될 수 있다. 가장 기술이 발전한 국가가 가장 위험한 국가가 될 수 있는 현재 우리나라도 백척간두에 서 있음을 잊지 말고 생성형 AI 시대의 데이터 정책은 개방과 활용만큼이나 안전과 책임을 함께 고민해야 할 시점이다.
*박정인 교수(법학박사)는 대통령 국가지식재산위원회 본위원회 위원, 문체부 저작권보호심의위원회 심의위원, 문체부 여론집중도조사위원회 상임위원, 인터넷주소분과위원회, 웹콘텐츠 활성화위원회 자문위원, 강동구 공직자윤리위원회 심의위원, 경찰청 사이버범죄 강사 등 여러 국가 위원을 역임했다. 공공기관 대상 법령입안강의를 하며, 대학에서 특허법, 저작권법, 산업보안법, 과학기술법, 정보보안법, 디지털증거법, ICT트러스트공학, 일반 산업안전, 중대재해법 등을 강의한다. 한국인터넷진흥원, 한국콘텐츠진흥원, 인텔리콘 메타연구소, 해인예술법연구소, 숙명여대 초빙교수, 단국대 연구교수 등을 역임했다.












