네이버클라우드, 글로벌 문자인식 AI 대회 1위
국제패턴인식학회 ICDAR서 스위스 로잔공대 제쳐

멀티모달 LLM 핵심 OCR 기술 경쟁력 입증

X
ICDAR 2025 역사 지도 텍스트 판독 과제 예시 [네이버 제공. 재판매 및 DB 금지]

(서울=연합뉴스) 김경희 기자 = 네이버클라우드가 글로벌 문자인식 기술 경진대회에서 1위를 차지, 광학 문자 인식(OCR) 분야에서 경쟁력을 입증했다.

8일 ICT(정보통신기술) 업계에 따르면 네이버클라우드는 지난달 16~21일 중국에서 개최된 국제패턴인식학회(IAPR)의 학술 콘퍼런스 'ICDAR(International Conference on Document Analysis and Recognition) 2025'에서 진행한 문자 인식 기술 경진대회에서 1위를 수상했다.

IDCAR은 국제패턴인식학회가 1991년부터 주관하는 문서 분석 및 인식 학술 콘퍼런스로, 세계적으로 권위를 인정받는 국제 경진대회다.

이로써 네이버 및 네이버클라우드는 2018년, 2019년 2022년에 이어 IDCAR에서 통산 4번째 1위를 기록하며 OCR(광학 문자 인식) 분야 글로벌 경쟁력을 입증했다.

네이버클라우드는 '역사 지도 텍스트 판독' 영역에서 1위를 차지했다.

이 부문은 과거에 만들어진 지도 이미지 속의 복잡한 레이아웃으로 구성된 텍스트를 검출하는 고난도 과제로 구성돼 있다.

지역명이 두 줄 이상으로 나뉘어 적혀 있거나 직선이 아닌 곡선 형태로 표기된 경우, 경계선과 단어가 중첩된 사례 등이 옛 지도에서 흔히 발견되는데, 네이버클라우드는 문서 이미지 내 텍스트 및 좌표를 동시에 추출하는 '엔드 투 엔드' 방식의 모델로 높은 문자 인식 기술을 인정받은 것으로 전해진다.

네이버클라우드는 이번 대회에서 스위스 로잔 연방 공과대학교를 제치고 1위를 차지했다.

OCR 기술은 최근 화두인 멀티모달 거대언어모델(LLM)의 성능 향상에 핵심 역할을 담당해 지속적으로 주목받는 분야 가운데 하나다.

네이버클라우드가 글로벌 자연어처리 학회인 NAACL(북미컴퓨터언어학회)에 발표한 논문에 따르면, 이미지 형태의 한국 수능 및 검정고시 문제를 AI(인공지능)가 푸는 과정에서 OCR 단계에 흔들린 오픈소스 멀티모달 모델은 지문 자체를 잘못 읽거나 일부를 놓쳐 후속 추론이 틀어지는 경우가 잦다.

반면 LLM에 별도의 OCR 엔진을 결합한 구조나 내장 OCR을 갖춘 모델은 상대적으로 좋은 점수를 거뒀다.

프랑스 AI 기업 미스트랄 AI가 지난 3월 손글씨 노트, 타이핑된 텍스트 등을 높은 정확도로 출시하는 미스트랄 OCR를 출시하는 등 글로벌 기업들의 기술 경쟁도 이어지는 상황이다.

네이버클라우드는 OCR 기술을 내년부터 네이버 클라우드 플랫폼 '클로바 OCR'의 도큐먼트 OCR 설루션에 접목할 계획이다.

회사 관계자는 "엔드 투 엔드 기술을 적용해 향후 비정형 문서를 판독하고 자유 곡선 형태로 배열된 텍스트도 정확하게 추출할 수 있는 차별화된 OCR 기술을 시장에 선보일 것"이라며 "글로벌 수준의 기술 노하우를 활용해 비전 AI 기술로 확장해 나가겠다"고 말했다.

kyunghee@yna.co.kr

(끝)

<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>