[서울=뉴스핌] 송은정 기자 = 인공지능(AI)에서 '합성데이터' 수요 높아지면서 이 기술에 특화된 스타트업인 '젠젠AI'가 주목 받고 있다.
합성데이터는 인공지능(AI) 학습용으로 만들어낸 가상의 데이터를 말한다. 컴퓨터 알고리즘이 실제 데이터의 특징을 반영해 무한대로 생성한다. 합성데이터를 사용하면 데이터를 모으는 시간과 비용을 큰 폭으로 줄일 수 있다.
[사진=젠젠AI] |
12일 업계에 따르면 합성데이터 기술은 새로운 시장을 개척할 수 있는 잠재적 기술로 주목받고 있다.
글로벌 조사기관 가트너에 따르면 2026년 AI 학습에서 합성데이터 사용 비율이 실제 데이터 사용 규모를 넘어설 전망이다. 현재 세계적으로 합성데이터 시장은 매년 23%씩 성장 중이며 올해 시장 규모는 261억 달러에 이를 것으로 예상된다. 국내에서도 합성데이터 생성 시장은 올해 약 5752억원 규모로 확대될 전망이다.
젠젠AI는 AI학습에 필요한 빅데이터 수집시 발생하는 데이터 부족 및 편향 등 어려움을 해결하기 위해 사실적인 합성 이미지 데이터를 만들어내는 생성 AI기술 연구개발에 특화된 기업이다. 젠젠AI는 자체 개발한 산업별 도메인에 특화된 생성형 AI 기술을 활용해 AI 학습에 필요한 데이터를 만든다. 이미 수집된 데이터를 다른 형태로 변환하거나 합성하고, 완전히 새로운 데이터를 생성하는 방식이다.
젠젠AI는 2022년 1월에 설립됐다. 설립 3개월만에 네이버와 DSC인베스트먼트로부터 시드 투자를 유치했다. 이후 지난해 여름에는 스마일게이트인베스트먼트, DSC인베스트먼트, KDB산업은행, 스톤브릿지벤처스, HL만도, 이노와이어리스로부터 프리-시리즈A 투자 유치를 받았다. 창업 2년 내 누적 투자유치 금액은 53억원이다. 국가 지원 사업으로 초기창업패키지, TIPS, 초격차 스타트업 1000+, Scaleup TIPS 등에 선정되기도 했다. 현재까지 특허 6건 등록, 7건 출원(미국2건, 유럽1건), ISO인증 6건 등 많은 성과를 내고 있다.
지난해에는 벤츠코리아에서 주관하는 스타트업아우토반코리아에서 파트너사인 한화시스템과 기술검증(PoC, Proof of Concept)를 진행했다. 이 때 인연으로 방위 산업에 진출해 후속 협업을 논의하고 있다. 최근에는 투자사 이노와이어리스(LIG자회사)의 소개로 LIG넥스원과도 협업 논의를 진행 중이다. 지난해 스타트업 테크 블레이즈 대상 수상으로 당시 공동주관이었던 현대로템, KAI와의 협업이 진행될 예정이다.
젠젠AI는 차량용 실내외 카메라에서 센싱되는 사진 품질의 이미지·비디오를 생성·변환·합성해 다양한 주행 데이터 및 운전자 상태 합성데이터를 제공하고 있다. 모빌리티 분야에서는 자율주행 외에도 유럽 GSR(General Safety Regulation)에 GDPR(General Data Protection Regulation)에 대응하기 위해 다양한 합성데이터 수요가 증가하고 있는 추세다. 현재는 미국 자율주행 기업에 합성데이터와 비전 AI를 공급해 해외매출이 발생하고 있고, 국내 대기업들과도 협업을 논의하고 있다. 의료 분야에서는 의료 영상에서 X-ray, MRI, CT 등과 같은 이미지에서 다양한 질환을 진단하기 위해 합성데이터로 성능을 높이는 방법을 연구 중이다. 현재 신촌세브란스병원과는 CT이미지에서 복강내출혈 검출을 위한 공동연구를 진행하고 있다.
젠젠AI는 이미지·비디오 합성데이터를 AI학습에 사용할 수 있게 레이블을 생성해 제공하고 있다.
조호진 젠젠AI 대표는 "합성데이터 없이 레이블링 서비스를 여러 AI산업에 제공하는 플랫폼 기업인 미국의 Scale AI라는 기업처럼 되는 것이 목표"라고 설명했다.
이어 "우리는 AI를 도입하려는 다양한 산업에서 걸림돌이 되는 로우데이터 수집 시의 편향·부족 문제를 해결하고, 고객의 비용·시간·인력을 절감해주면서 테크 스타트업으로서 좋은 수익을 내고 지속 경영이 가능함을 보이는 것이 목표"라고 덧붙였다.
조 대표는 향후 생성형 AI 기반의 합성 데이터 시장의 전망에 대해 "합성 데이터 이전에 일반적인 AI 개발에서 '데이터 증강'이 필수적으로 사용되고 있는데 이는 실제 데이터를 임의로 색상·노이즈·선명도·회전 등을 변경해 가상의 데이터로 학습하는 방법이며 이를 통해서 AI를 더 강건하게 만들 수 있다는 연구 결과가 오래전부터 소개됐다"고 설명했다.
이어 "합성 데이터는 데이터 증강을 한차원 높은 수준에서 진행하는 것으로 생각할 수 있다. 앞으로는 분포 내의 데이터 뿐만 아니라 분포 밖 데이터를 활용하도록 점차 범위가 확대돼 갈 것이라 예상한다. 합성 데이터의 종류도 문자열, 음성, 이미지, 비디오 등 멀티모달의 형태로 제공될 것이라 전망한다"고 덧붙였다.
yuniya@newspim.com