전체기사 최신뉴스 GAM
KYD 디데이
전국 대전·세종·충남

속보

더보기

내년 3천억원 들인다는 AI 데이터 구축사업...'품질검증' 시급

기사입력 : 2020년12월22일 18:12

최종수정 : 2020년12월22일 18:12

전수조사 불가해 사실상 '땜빵식 검증'…저품질 데이터 납품도
정부, 품질강화 나서…TTA '데이터밸런스' 표준 제정 주목

[서울=뉴스핌] 김수진 기자 = A씨는 얼마 전부터 한 회사에서 데이터 구축 아르바이트를 하고 있다. 대부분 이미지나 동영상을 기준에 맞춰 라벨링 하는 작업이어서 업무가 어렵지 않았다. 하지만 '적당한 자료를 찾아달라', '입력 시 특정 단어(그림)만 들어가게끔 해달라' 등 작업 기준이 불명확한 경우도 있어 당혹스러웠다고 한다.

A씨는 "지시를 내리는 담당자도 잘 모르는 것 같아 나만의 가이드를 만들어 작업했다"라며 "물론 회사 자체 검증을 거치긴 했지만 통과된 데이터가 제대로 AI에 활용될 수 있을지 걱정"이라고 토로했다.

인공지능(AI) 교육용 데이터의 철저한 품질 검증이 시급하다는 주장이 업계 안팎에서 제기되고 있다. 정부가 내년부터 본격적으로 관련 사업을 확대할 계획이고 중장기 사업으로 진행할 예정인 만큼 검증 시스템 확보가 시급하다는 지적이다.

현재 데이터 구축 사업 중 상당수가 AI 교육을 목적으로 한다. 과학기술정보통신부는 AI 개발을 위한 양질의 데이터를 구축하기 위해 20개의 'AI 학습용 데이터 구축 사업'을 지난 7월 확정했다.

텍스트와 영상, 이미지 등 다양한 분야의 AI 개발을 위해 총 21종 4650만 건에 이르는 AI 학습용 데이터를 구축하는 사업으로 국민 누구나 참여할 수 있다.

[서울=뉴스핌] 김수진 기자 = 과학기술정보통신부가 진행한 '데이터 주간' 데이터댐 구축 성과보고회에서 민기영 한국데이터산업진흥원장이 주요 혁신 성장 우수사례를 발표하고 있다. [사진=과학기술정보통신부 공식 유튜브 화면 캡쳐] 2020.12.22 nn0416@newspim.com

일단 정부의 적극적인 지원으로 짧은 시간에도 성과는 상당한 것으로 나타났다.

지난 15일 과기정통부가 주최한 '데이터 댐' 사업 성과보고회에 따르면, 올해 구축된 AI 학습용 데이터 종류와 누적 구축 수는 지난해 21종 4650만종에서 8배 증가한 170종 3억 7500만건에 달했다.

정부는 내년도 AI 학습용 데이터 구축 사업에 2925억원을 투입해 헬스케어 및 농·축·수산 등 주요 분야에서 AI 학습용 데이터 150종을 새롭게 개방한다. 다년도 중장기 프로젝트를 활성화하고 활용성 측면도 갖춘다.

문제는 이렇게 구축된 데이터를 제대로 검증하지 못한다는 것이다.

국회 우상호(더불어민주당) 의원실에 따르면 사업을 담당하는 한국지능정보사회진흥원 등이 데이터 품질 검증을 제대로 하지 못한 것으로 밝혀졌다.

지난 10월 국정감사에서 우 의원은 문용식 한국지능정보사회진흥원장에게 "저품질의 데이터가 납품되고 있어도 담당기관이 이에 대한 검증을 못하고 있다"라며 "제대로 된 데이터를 납품했는지를 확인하는 검증 시스템이 없다보니 질 낮은 데이터를 납품하고 다시 사업에 참여하는 경우도 발생하고 있는 걸로 아는데 대책이 필요하다"고 지적했다.

이에 문 원장은 "지금까지 데이터 품질 인증을 못한 건 사실"이라며 "향후 관련 기준을 세우겠다"고 입장을 밝혔다.

플랫폼 데이터 품질 저하도 문제로 지목되고 있다.

국회 윤영찬(더불어민주당) 의원실에 따르면 지난해 공공 데이터 품질관리 수준이 중앙행정기관은 76점, 지자체는 56점에 각각 그친 것으로 나타났다.

윤 의원은 "현 구축된 데이터를 보면 통계 등 정형 데이터가 대부분인데 공공 및 민간에서 필요로 하는 비정형(그림, 동영상 등) 데이터는 부족한 실정"이라며 "기관들이 일회성으로 데이터를 모으는 데만 집착하지 말고 실제 활용할 수 있는 질 높은 데이터를 확보할 수 있도록 품질 검증 및 향상에 힘써야 할 것"이라고 강조했다.

[서울=뉴스핌] 김수진 기자 = 인공지능 학습용 데이터 구축 시 검증이 필요하다는 목소리가 높아지고 있다. [사진=픽사베이] 2020.12.22 nn0416@newspim.com

업계는 데이터 품질 이슈가 언제든 수면 위로 올라올 수 있는 문제라고 보고 있다. 이미 전부터 관련 문제가 제기된 상황이다.

특히 올해 많은 사업들이 8월에서 10월 사이에 발표되면서 현장에서는 실제 데이터 구축 시간이 부족했다는 볼멘소리가 나왔다.

적게는 수천 개에서 많게는 수억 개의 제출된 데이터를 담당기관이 전수 조사하는 것은 사실상 불가능한 만큼 품질 이상이 발생할 가능성이 높을 수밖에 없다는 지적이다.

한 업계 관계자는 "'어느 회사가 대충 수집한 데이터를 납품했는데 문제없이 통과되고 거기에 더해 추가 사업까지 받았다더라'는 이야기가 시장에서 파다하다"라며 "구축 과정부터 검수 전반으로 품질 검증없이 사업을 계속 진행할 경우 세금낭비가 될 가능성이 높지 않겠느냐"고 꼬집었다.

문제는 낮은 품질 데이터로 인해 AI 정확성이 떨어질 수 있다는 점이다.

업계 한 연구원은 "관련 없는 정보(데이터)는 AI를 혼동하게 만들어 정확도를 떨어뜨릴 수 있고, 데이터가 누락되거나 중복된 데이터로 양을 채우고 정작 필요한 데이터는 수집하지 못할 경우 AI가 부정확하게 동작할 가능성이 높다"라며 "만약 처리해야 할 내용과 전혀 무관한 데이터가 입력될 경우 AI가 학습할 특징값이 희석되기 때문에 심할 경우 학습 자체가 되지 않을 가능성이 높다"고 설명했다.

또한 "데이터 품질을 검증하고 높이기 위해 빠르게 대안을 찾지 못하면 기하급수 속도로 구축되고 있는 AI 학습용 데이터들이 쓸모없는 '빅쓰레기'가 될 수도 있다"라고 지적했다.

정부 또한 데이터 품질 확보 중요성을 인지하고 이에 대한 대책 마련에 나서고 있다. 사실 AI 데이터 품질에 대한 가이드라인은 전 세계 어느 국가에서도 확립하지 못한 상황이다. 구글이나 마이크로소프트 등 세계적인 기업이 구축한 데이터 정확도도 43~83%에 불과한 것으로 알려졌다.

정부는 향후 구축될 데이터 품질을 확보하기 위해 지난 9월 AI 학습용 데이터 품질관리를 대폭 강화하는 내용을 발표했다.

하지만 "구축단계에서의 품질검증이 어려워 사후 활용단계에서 유지보수 및 업데이트를 한다"는 내용이 담기는데 그쳐 소극적 대응에 불과하다는 비판을 받고 있다.

이에 최근 데이터 구축 전 설계 단계에서부터 데이터 다양성을 확보하는 방법으로 품질 관리에 나서야 한다는 주장이 힘을 얻고 있다.

한국정보통신기술협회 로고 [사진=한국정보통신기술협회] 2020.12.22 nn0416@newspim.com

한국정보통신기술협회(TTA)는 데이터 검증 및 품질 확보를 위해 지난 10일 6가지 지표를 담은 '데이터밸런스' 기술을 단체표준으로 제정했다.

데이터 댐에 모인 데이터가 실제 현장에서 유용한지, 해당 데이터로 훈련받은 AI이 오작동 가능성이 있는지를 검증하는 프로그램이다.

설계 단계에서 데이터 수집 기준을 잡을 수 있는데 이는 사실상 국내 첫 데이터 가이드라인에 가깝다.

협회 측은 "정확하면서도 다양한 데이터를 통해 데이터 품질 저하를 막고 AI 정확성을 높이기 위해 해당 기술을 단체표준으로 제정했다"고 밝혔다.

기술을 개발한 씽크포비엘 박지환 대표는 "데이터 댐의 궁극적 목적은 다양성과 정확성을 바탕으로 구축된 AI를 실제 산업현장에서 활용하는 것인데 아직 다양성 수준을 평가하는 공인 기준이 없다보니 현장에서 어려움을 겪는 것이 현실"이라며 "데이터 댐 사업이야 말로 AI 기술 분야를 빠르게 성장할 수 있는 기회인만큼, 데이터 품질을 위한 다양성을 확보할 수 있는 가이드 마련 등 정부의 현실적인 정책 마련이 시급하다"고 강조했다.

nn0416@newspim.com

[뉴스핌 베스트 기사]

사진
90m '고도제한' 양천구 울다 [서울=뉴스핌] 정영희 기자 = 국제민간항공기구(ICAO) 고도제한 기준 개정이 코앞으로 다가오면서 갑작스러운 고도제한으로 재건축에 큰 제약을 받게 된 서울 양천구 목동 주민들의 불안감이 커지고 있다. 반면 그동안 대부분의 면적이 제한을 받던 강서구 주민들은 이번 조치를 환영하면서 서울시와 정부 모두 곤란한 상황에 처한 모습이다. 국제민간항공기구(ICAO) 공항 고도제한 국제기준 개정안 내용. [그래픽=김아랑 미술기자] ◆ "이제 재건축 막 올랐는데"… 90m 고도제한에 목동 주민들 뿔났다 1일 국토교통부에 따르면 오는 4일 ICAO 국제기준 개정안이 발효되면서 이에 따른 수혜 및 피해지역 간 온도차가 극명히 엇갈리고 있다. ICAO는 국제 민간항공 항공기술·운송·시설 등을 관할하는 유엔 산하 전문기구다. 올 4월 ICAO는 2030년 11월 시행을 목표로 고도제한 국제기준 개정안을 시행하겠다는 입장을 내놓은 바 있다. 현재 일률적으로 제한하고 있는 장애물 표면을 향후에는 침투금지표면과 평가표면으로 이원화하겠다는 것이다. 그동안 공항 주변 지역은 '공항시설법'에 따른 장애물 제한 표면지역으로 설정돼 건축물을 높게 지을 수 없었다. '제한표면'(OLS) 규정에 따라 안전 운항을 위해 항공기 성능이나 비행 절차를 고려하지 않고 건축물 높이를 획일적으로 규제해서다. 활주로 반경 4㎞ 이내 건물은 45m를 초과하지 못해 13층 이상의 아파트를 짓기 어려웠다. 이 때문에 노후 주거지의 재개발·재건축 등 정비사업에도 걸림돌로 작용했다. 앞으로는 이를 '금지표면'(OFS)과 '평가표면'(OES)으로 이원화한다. 금지표면은 항공 안전에 직접 영향을 주는 절대적 금지구역이다. 평가표면은 건물 높이를 규제한 금지 표면을 축소하고, 항공학적 검토를 거쳐 건축물 높이를 탄력적으로 바꿀 수 있는 곳이다. 공항별 여건에 따라 평가표면을 축소하거나 완화하는 것도 가능하다. 개정안상 평가표면은 현행 기준보다 확대된다. 국내에 적용되면 김포공항 반경 약 11∼13㎞ 내가 평가표면으로 분류돼 45·60·90m 등으로 고도를 제한할 수 있다. 이 경우 원래는 고도제한 대상에 해당되지 않았던 양천구는 영등포, 마포, 부천 등이 평가표면에 포함된다. 고도제한 요건 수정으로 가장 마음이 급해진 건 목동신시가지 소유주들이다. 현재 1~14단지 모두 재건축을 추진 중이다. 사업 속도가 가장 빠른 6단지는 최고 49층, 7단지는 최고 60층을 목표로 정비계획을 수립하고 있다. 최고 층수가 49층이면 높이로는 약 180m이므로 90m 고도제한이 설정되면 설정 범위내 모든 건축물은 30층 이하로만 지어야 한다.   목동 14개 단지 재건축 조합 등으로 구성된 '목동 재건축 연합회'(목재련)은 이달 28일 ICAO 개정안에 대한 반대 성명서를 발표했다. 이상용 목재련 회장은 "항공기술 발전에 따라 규제가 완화될 것으로 기대했으나, 개정안은 주민들의 오랜 염원을 짓밟는 퇴행적 조치"라며 "이는 주민들의 주거환경 개선 기회와 재산권을 사실상 봉쇄하는 것"이라고 비판했다. 이어 "개정안이 현실화되면 목동 재건축 사업의 동력이 상실되고 수도권 전체 도시 재생의 미래를 암울하게 만드는 재앙이 될 것"이라고 목소리를 높였다. 이들은 국토부에 김포공항 이전 재검토나 ICAO 개정안에 대한 공식 반대 입장 표명을 요청하고 있다. 국토부 관계자는 "개정안 국내 도입 시 항공기의 안전을 최우선으로 고려하면서도 합리적으로 적용될 수 있는 방안을 찾을 계획"이라며 "안전을 최우선으로 확보하고, 국내공항 여건과 조화를 이룰 수 있도록 준비하겠다"고 말했다. ◆ "재산권 행사 좀 하자"는 강서구… 중간에 낀 서울시 '난감' 양천구와 반대로 강서구는 ICAO 개정안에 대한 환영 입장을 보이고 있다. 강서구는 현재 전체 면적의 97.3%가 고도제한 구역으로 설정돼 있다. 관련 규정이 개정되면 절대적 금지표면 대비 조건부 평가에 따라 건물을 높이 올릴 수 있는 가능성이 커지면서 지금보다는 높은 층수로 정비사업이 가능하다. 진교훈 강서구청장은 지난달 고도제한 완화 관련 세미나를 열고 "1958년 김포국제공항 개항 이후 강서구는 도시 발전과 재산권 행사에 심각한 제약을 받아왔다"며 이번 국제기준 개정이 강서구 56만 주민의 염원을 담아 합리적이고 조속하게 추진되기를 기대한다"고 언급한 바 있다. 서울 내 자치구가 상반된 처지에 놓이면서 서울시도 향후 정책 방향을 고심하는 모습이다. 오세훈 서울시장은 지난 30일 목동6단지를 방문해 재건축 속도를 높인다면 ICAO 개정안 적용을 받지 않을 것이라고 설명했다. 목동 재건축 단지가 개정안 시행이 예정된 2030년 안에 사업시행계획인가 단계까지 모두 마친다면 제도 변경 사정권에 들어가지 않을 것이란 주장이다. 오 시장은 "아직 고도제한 개정 관련 세부 내용이 완전히 확정된 것이 아니다"라며 "8월부터 ICAO와 국토부 사이 소통을 통해 최종 규정안 협상까지 1년 정도 더 걸릴 것"이라고 말했다. 이어 "국토부가 재건축이 진행되는 지역의 재산적 피해가 발생하는 방향으로 결정할 것이라고는 생각하지 않는다"며 "서울시 또한 재건축 추진 단지가 손해 보는 일이 없도록 강력히 건의할 것"이라고 부연했다. 전문가 사이에선 고도제한 관련 규정 개정과 재건축 사업 사이 균형점을 찾는 것이 무엇보다 중요하다는 의견이 제기된다. 정비사업이 성공적으로 마무리되면 주택 공급량이 늘어나는 것은 물론 지역 전체의 자산 가치와 지방세수 증가, 인구유입 등에 효과가 있으나 그 과정에서 비행 안전에 부정적 영향을 초래해선 안 된다는 이유에서다. 김영록 신라대 항공운항학과 교수는 "제한된 면적 하에서 재건축·재개발 사업의 경제적 타당성 저하는 해당 지역 개발의 결정적 장애요소로 작용하고, 장애물제한표면 하에서의 법규상 각종 제한까지 더해지면 지역 노후화의 대표 원인이 될 수 있다"며 "고도완화가 없이 특정 지역 전체의 경제적 이익이 상실된다면 항공항적 검토를 바탕으로 한 고도제한 규정을 손볼 필요가 있을 것"이라고 말했다. 신성환 한국항공우주법연구소 대표는 "일본과 대만은 도심에 있는 비행장 주변의 공역을 재설계함으로써 국민의 재산권을 보장하는 동시에 비행안전을 추구하고 있다"며 "항공기와 관제 기술의 급속한 발달을 따라잡지 못하는 구식 정책을 업그레이드해야 할 시점"이라고 제언했다. chulsoofriend@newspim.com 2025-08-01 06:30
사진
'내란 공모' 이상민 前 장관 구속 [서울=뉴스핌] 김현구 기자 = '12·3 비상계엄' 당시 특정 언론사에 대한 단전·단수를 지시한 혐의 등을 받는 이상민 전 행정안전부 장관이 구속됐다. 서울중앙지법 정재욱 영장전담 부장판사는 전날 이 전 장관에 대한 구속 전 피의자 심문(영장실질심사)을 진행한 뒤 "죄를 범했다고 인정할 상당한 이유가 있고 증거를 인멸할 염려가 있다"며 1일 영장을 발부했다. 이상민 전 행정안전부 장관. [사진=뉴스핌DB] 특검은 지난달 28일 내란중요임무종사, 직권남용권리행사방해, 위증 등 혐의로 이 전 장관에 대한 구속영장을 청구했다. 특검은 이 전 장관이 윤석열 전 대통령의 불법적인 계엄 선포를 사실상 방조하고, 특정 언론사에 대한 단전·단수 지시를 전달해 국민의 생명·안전권을 침해했다고 판단했다. 아울러 특검은 이 전 장관이 행안부 장관으로서 외청 기관장인 소방청장 등에게 의무 없는 단전·단수를 지시한 행위가 직권남용에 해당한다고도 봤다. 특히 이와 관련해 특검은 그가 윤 전 대통령에 대한 탄핵심판 사건 변론기일에 나와 단전·단수를 지시한 적이 없다고 발언한 것을 위증이라고 판단해 이 혐의도 적용했다. 그동안 이 전 장관은 혐의를 전면 부인해 왔다. 윤 전 대통령으로부터 단전·단수 등 지시를 받은 적이 없으며, 행안부에는 소방청에 대한 지휘 권한이 없다는 것이 이 전 장관의 주장이었다. 특검은 이 전 장관의 주장을 반박하고 구속 수사 필요성을 주장하기 위해 160장의 파워포인트(PPT)를 준비하고, 앞서선 300여쪽의 의견서를 법원에 제출했다. 특검이 이 전 장관의 신병을 확보하면서 한덕수 전 국무총리 등 다른 국무위원들에 대한 수사에도 속도를 낼 전망이다. 이 전 장관 구속은 이른바 '안가(안전 가옥) 회동 의혹' 관련자 중 첫 신병 확보인 만큼, 일각에선 특검이 근시일 내 나머지 안가 회동 멤버에 대해서도 소환조사를 진행할 것이란 관측이 나온다. 안가 회동 멤버는 이 전 장관과 김주현 전 대통령실 민정수석비서관, 박성재 전 법무부 장관, 이완규 전 법제처장이다. 이들은 윤 전 대통령의 법률가 출신 최측근으로, 계엄 해제 이후 안가에 모여 계엄 직후 수습 방안을 논의했다는 의혹을 받고 있다. hyun9@newspim.com 2025-08-01 06:25
안다쇼핑
Top으로 이동