[서울=뉴스핌] 박공식 기자 =미국의 한 기업 콘소시엄이 데이터 신뢰성을 확인하는 기준인 데이터라벨링 시스템을 개발했다고 뉴욕타임스가 3일(현지시간) 보도했다.
보도에 따르면, 어메리칸 익스프레스, 휴마나, IBM, 화이자, UPS, 월마트 등 20여 개의 대기업과 일부 스타트업들이 모인 비영리단체 데이터앤드트러스트 얼라이언스는 11월 30일 데이터 표준인 데이터라벨링 시스템을 개발했다고 발표했다.
콘소시엄이 만든 시스템은 데이터의 출처, 역사, 법적 권한을 설명하는 기준으로 기본적으로 데이터가 언제 어디에서 어떻게 수집돼 생성됐는지와 사용 목적 및 한계를 보여주는 라벨링시스템이다. 식품의 원산지, 생산자, 유통자 등 기본 정보를 담은 식품안전에 관한 기본적 표준과 유사한 것으로, 데이터의 신뢰와 안전에 관한 기준이라고 콘소시엄은 설명했다.
전기에서부터 인터넷에 이르기까지 표준이 모든 중요한 기술의 발전을 촉진해왔듯이 AI의 새 표준이 AI 발전에 기여할 것이라고 콘소시엄은 기대한다. 콘소시엄 참가 기업의 중역들은 특히 새 기준이 AI 모델에 사용된 데이터에 대한 보다 자세한 정보를 제공해 AI 기술에 대한 기업의 신뢰감을 높일 것이라고도 전망했다.
다만 새 표준이 얼마나 쉽고 편리하게 적용되고 자동화할 수 있는지가 새 표준의 보편화를 위한 관건이 될 것이란 지적이다.
켄 피너티 UPS의 정보기술 및 데이터분석 담당 사장은 "오늘날 모든 기업이 데이터를 자산으로 관리하기를 원하는데 그렇게 하려면 데이터의 생성 장소, 조건, 목적, 합법적 사용이 가능한 범위를 알아야 한다"고 말했다.
새로운 라벨링 시스템은 계보, 출처, 법적 권리, 데이터 형태 및 생성 방법 등 8가지 기본 표준으로 구성되며 각각의 표준에는 '데이터 출처가 소셜 미디어, 혹은 업계 소식지라는 식'으로 자세한 설명이 따른다.
콘소시엄은 데이터 문서화를 개선·정비하는 표준을 시험 중으로 내년 초 대중에 제공할 계획이다. 데이터를 형태, 날짜, 출처에 따라 분류하는 것은 개별 기업들과 업계에서 관행적으로 해 오던 것이나 모든 산업에서 사용하는 구체적인 데이터 표준이 만들어진 것은 처음이라고 컨소시엄은 밝혔다.
데이터 표준의 또 다른 이점은 데이터 공급망에서 누구에게나 투명성을 높이는 데 있다. 각 단계에서 데이터에 대해 더 많이 알면 효율성이 높아지고 반복적 작업이 없어져 데이터 프로젝트에 쏟는 시간을 15%~20% 줄일 수 있다고 스타트업 트랜스커렌트의 데이터과학자이자 부사장인 티 몽탈보는 말했다.
현재 AI 시장에서는 데이터라벨링 표준이 제공하는 것과 같은 투명성이 필요한 상황이라고 컨소시엄은 주장한다. 데이터분석 툴과 AI 소프트웨어를 만드는 스타트업 호소의 공동창업자이자 최고기술자인 크리스 헤저드는 "그것은 모든 사람이 말하는 AI 문제의 일부를 해결하는 데 도움이 된다"고 말했다.
데이터라벨링 시스템은 기업이 AI 프로그램을 만들기 위해 사용하는 비즈니스 데이터나 구글, 오픈AI, 마이크로소프트, 앤스로픽 같은 기업의 AI 시스템에 선별적으로 입력한 데이터를 대상으로 한다. 기업들은 제품 추천에서부터 제트 엔진의 정비 시기를 예측하는 애플리케이션에 AI를 사용해왔다.
데이터는 AI에 있어 연료임과 동시에 대기업들에는 병목과 같은 존재다. AI 프로그램을 구축하는 데 사용하는 데이터에 대해 자세히 알지 못하면 그 기술을 전적으로 수용하기를 꺼리기 때문이다.
기업 총수들을 대상으로 한 설문 조사 결과, 다수 응답자가 데이터에 대한 신뢰도가 향상돼야 하고 데이터 처리 효율이 개선돼야 한다고 지적하며, 데이터 유래 및 출처에 대한 의심이 AI 도입을 막는 핵심 장애물이라고 응답했다. 데이터 과학자들을 대상으로 한 조사에서는 과학자들이 시간의 40% 가까이를 데이터 준비작업에 쓰는 것으로 나타났다.
오픈AI와 챗GPT 로고 [사진=뉴스핌DB] |
kongsikpark@newspim.com