전체기사 최신뉴스 GAM
KYD 디데이

업스테이지, 차세대 OCR모델 Document Parse 공개

기사입력 : 2024년10월17일 15:42

최종수정 : 2024년10월17일 15:42

[서울=뉴스핌] 송은정 기자 =업스테이지가 가장 정확하고 빠르게 문서를 분석해 대규모 언어 모델(LLM)로 처리가 가능한 차세대 광학문자인식(OCR) 모델 Document Parse를 공개했다.

DP 기능 설명 이미지 [사진=업스테이지]

Document Parse는 기존 OCR 기술에서 명확한 인식이 어려웠던 여러 열의 레이아웃이나 테이블 등을 포함한 복잡한 형태의 문서에서도 각 구조와 텍스트 정보를 정확히 분석해 데이터 자산화를 가능하게 한다. 어떤 형식의 문서도 HTML과 같은 구조화된 텍스트 형식으로 전환해 기업이나 기관에서 실제 LLM 활용 시 바로 적용할 수 있다. 업스테이지는 Document Parse를 통해 검색 증강 생성(RAG) 시스템 성능과 LLM의 응답 정확도를 결정하는 핵심 요소인 데이터 전처리 과정에서의 정확성뿐만 아니라 속도와 사용성 측면에서도 현재 가장 진보한 형태의 문서 처리 기술을 선보이게 됐다.

업스테이지는 관련 기술의 성능 측정에 통용될 수 있는 객관적 기준 마련을 위해 문서 구조 분석 벤치마크인 DP-Bench를 함께 공개했다.

결과에 따르면 Document Parse 는 레이아웃 및 테이블 구조, 콘텐츠 분석 등 정확성을 측정하는 모든 지표에서 AWS와 MS 를 포함한 빅테크 5개사의 관련 서비스와 비교해 5% 이상 높은 점수를 받았다. 속도면에서도 Document Parse 는 1분에 100장을 처리해 같은 기준을 적용한 AWS Texttract와는 10배, LamaParse 보다는 5배 가량 빠른 능력을 보였다.

또한 DOCX, PDF, PPTX, PNG 등 업무에 사용하는 9종의 문서 처리뿐만 아니라 수식 인식 및 이미지 추출과 같은 새로운 기능을 추가했다. HTML 외에도 헤더 및 테이블 요소를 마크다운 형식으로 제공해 LLM 사용자가 입력 문서의 토큰 크기를 줄일 수 있다는 것 역시 큰 강점이다.

업스테이지는 지난해 공식적으로 OCR 서비스를 선보인 직후 같은 해 글로벌 최고 권위인 인공지능(AI) OCR 경진대회 ICDAR에서 아마존과 엔비디아 등의 빅테크를 제치고 압도적인 1위를 차지한 바 있다. 업그레이드된 기술력을 바탕으로 보안이 필수적인 금융권 및 제조업 주요 기업들을 고객으로 확보하고 있다. 향후 대규모 문서의 디지털 전환을 통해 LLM 활용 예정인 전 산업 영역에서 유용하게 활용될 전망이다.

김성훈 업스테이지 대표는 "Document Parse 는 각 기업이 가진 기존 문서를 가장 정확하게 자산화시켜 LLM을 실제 업무에 즉각 효율적으로 적용할 수 있도록 만드는 최적의 도구"라며 "다양한 비즈니스에서 활용돼 업무 혁신을 현실화할 것"이라고 밝혔다.

yuniya@newspim.com

[뉴스핌 베스트 기사]

사진
[단독] 李정부 국정 5개년 책자 나왔다 [서울=뉴스핌] 윤채영 지혜진 기자 = 이재명 정부의 국정운영 5개년 계획이 담긴 책자가 발간된 것으로 20일 확인됐다. 이날 뉴스핌이 확보한 '이재명 정부 국정운영 5개년 계획(안)' 책자에는 123대 국정과제에 대한 주요 내용과 구체적인 입법 방향 등이 담겼다. [서울=뉴스핌] 이재명 대통령이 13일 서울 종로구 청와대 영빈관에서 열린 국정기획위원회 국민보고대회에서 발언하고 있다. [사진=대통령실] 2025.08.13 photo@newspim.com 국정기획위원회가 지난 13일 1호 과제로 발표한 개헌에는 대통령 권력 구조 개편도 포함됐다. ▲4년 연임제 및 결선투표제 도입 ▲감사원 국회소속 이관 ▲대통령 거부권 제한 ▲비상명령 및 계엄 선포 시 국회 통제권 강화 ▲국무총리 국회 추천제 도입 ▲중립성 요구 기관장 임명 시 국회 동의 의무화를 추진하겠다고 명시했다. 또 5·18 광주 민주화운동 정신 등 헌법 전문 수록과 검찰 영장 청구권 독점 폐지, 안전권 등 기본권 강화 및 확대, 지방자치와 균형발전을 위한 논의기구 신설, 행정수도 명문화 등이 개헌 과제로 포함됐다. 개헌을 위한 국민투표법 개정도 추진된다. 헌법불합치 결정을 받은 재외국민 투표 관련 규정을 개정해 국민투표법 위헌을 해소하겠다는 계획이다. 개헌 찬반 투표는 2026년 지방선거나 2028년 국회의원 선거 때 실시하겠다고 명시했다. [서울=뉴스핌] 뉴스핌이 확보한 이재명 정부 국정운영 5개년 계획(안) 책자. 2025.8.20 ycy1486@newspim.com 이번 책자에는 국정기획위가 지난 13일 대국민보고대회에서 공개한 123대 국정과제보다 훨씬 세부적인 내용이 담겼다. 당초 국정위는 이날 국정운영 5개년 계획도 공개하려 했다가, 돌연 비공개 결정을 내렸다. 비공개 결정에는 이재명 대통령의 의중이 강하게 작용한 것으로 알려졌다. 국정위 소속으로 활동했던 한 위원은 뉴스핌과 통화에서 "갑자기 보안을 강조하면서 내부 자료는 절대 공개하지 말라고 했다"며 "이유는 모른다"고 전했다.  ycy1486@newspim.com 2025-08-20 15:55
사진
美, 인텔 이어 삼성도 지분 내놔라? [서울=뉴스핌] 최원진 기자= 도널드 트럼프 미국 행정부가 반도체법(CHIPS Act)상 보조금을 활용해 인텔 지분 확보를 추진 중인 가운데, 삼성전자와 대만 TSMC 등 다른 반도체 기업에도 같은 방식을 적용하는 방안을 검토 중이라고 로이터 통신이 두 명의 소식통을 인용해 19일(현지시간) 보도했다. 보도에 따르면 하워드 러트닉 상무부 장관은 삼성전자, 마이크론, TSMC 등 미국 내 공장 건설과 투자를 진행 중인 반도체 기업들을 상대로, 조 바이든 전임 행정부 시절 약속된 정부 보조금 제공과 맞바꿔 지분을 확보하는 방안을 모색하고 있다. 현실화하면 글로벌 반도체 업계에 파장이 불가피하다. 미국 정부에 지분을 넘기고 싶지 않다면 보조금을 포기해야 할 수 있는데 이 경우 기업들의 순익 전망과 투자 계획도 차질을 빚을 수 있다. 미국의 산업정책이 정권에 따라 오락가락한다는 업계의 불만과 비난 또한 커질 수 있지만 트럼프 행정부의 성격상 귀담아 들을 가능성은 높지 않다. 러트닉 장관은 CNBC 인터뷰에서 "트럼프 대통령은 미국이 거래에서 실질적 이익을 얻어야 한다고 본다"며 "왜 1천억 달러 규모의 기업에 돈을 줘야 하는가. 우리는 약속한 보조금을 지급하되, 그 대가로 지분을 받아 미국 납세자들에게 혜택을 돌릴 것"이라고 말했다. 트럼프 행정부가 인텔 지분 10%를 확보할 경우 최대 주주가 될 수 있지만, 러트닉 장관은 "경영권에 개입하지는 않을 것"이라고 선을 그었다. 그럼에도 불구하고 이러한 조치는 전례가 없는 것이며, "이는 대기업에 대한 미국의 영향력 확대라는 새로운 시대를 열게 될 것"이란 진단이다.  로이터는 "마이크론은 인텔에 이어 반도체법 보조금을 가장 많이 받는 미국 기업이며, 삼성전자와 TSMC 역시 주요 수혜 대상"이라며 "이번 검토는 미국 정부가 반도체 산업에 대한 직접적 영향력을 확대하려는 움직임"이라고 분석했다. 올해 6월에도 비슷한 조치가 있었는데, 트럼프 정부는 일본제철의 U.S.스틸 인수 승인 조건으로 '황금주(golden share)'를 확보해 주요 경영 결정에 거부권을 행사할 수 있게 됐다. 삼성전자 미국 텍사스주 테일러 공장 건설 현장. [사진=삼성전자] wonjc6@newspim.com   2025-08-20 08:31
안다쇼핑
Top으로 이동