검색결과 총 13건
-
파수 AI, N2SF 등급 분류 대응 'FDR' 업데이트 출시
[경제일보] 파수 AI가 국가 망 보안체계(N2SF) 전환에 대응하는 데이터 식별·분류 솔루션을 고도화했다. 공공기관이 AI와 클라우드를 활용하기 위해서는 데이터의 중요도와 민감도를 먼저 식별하고 등급별 보안 정책을 적용해야 하는 만큼, 데이터 분류 자동화가 공공 보안 시장의 핵심 과제로 떠오르고 있다. 파수 AI는 데이터 식별·분류 솔루션 ‘파수 데이터 레이더(Fasoo Data Radar, FDR)’의 신규 업데이트 버전을 출시하고 공공기관의 N2SF 전환 지원을 강화한다고 밝혔다. N2SF는 기존 공공부문 망분리 정책을 보완·전환하기 위해 추진되는 새로운 보안 프레임워크다. AI와 클라우드 등 신기술을 안전하게 활용할 수 있도록 데이터와 시스템을 중요도·민감도에 따라 기밀(Classified), 민감(Sensitive), 공개(Open) 등급으로 구분하고, 등급별로 차등화된 보안대책을 적용하는 것이 핵심이다. 파수는 지난해 ‘범정부 초거대 AI 공통기반 대상 국가 망 보안체계 시범 실증’에 참여해 N2SF의 데이터 식별·분류·통제 부문을 맡은 바 있다. 이번 FDR 업데이트는 N2SF 전환의 출발점인 데이터 식별과 등급 분류 기능을 강화한 것이 특징이다. FDR은 윈도, 맥, 파일서버 등 다양한 저장소에 흩어진 데이터를 파악하고 민감정보 포함 여부를 자동으로 탐지·분류하는 솔루션이다. 이후 분류 결과에 따라 암호화, 레이블링, 격리, 권한 회수, 파기 등 후속 조치를 적용할 수 있다. 새 버전에는 OCR 기능이 추가됐다. 일반 이미지 파일이나 문서 안에 삽입된 이미지에서 텍스트를 추출해 민감정보 포함 여부를 검사한다. 기존 텍스트 기반 탐지로는 확인하기 어려웠던 스캔본, 캡처 이미지, 이미지형 PDF 등에 포함된 개인정보와 민감정보까지 식별할 수 있다는 설명이다. 문서 작업 중 등급 인식을 돕는 기능도 강화됐다. 한글, MS 오피스, PDF 등 주요 문서 작업 환경에서 기밀·민감·공개 분류 라벨을 화면에 지속적으로 표시해 사용자가 해당 문서의 보안 등급을 직관적으로 확인할 수 있도록 했다. 공공기관 업무 환경에서는 문서 작성·검토·공유 단계마다 등급 인식이 필요한 만큼, 사용자 실수로 인한 자료 유출을 줄이는 효과가 기대된다. AI 기반 문맥 분석 기능도 더했다. FDR은 파수 AI의 AI 기반 개인정보보호 솔루션 ‘AI-R Privacy’와 연동해 복잡한 문장 속 개인정보를 탐지하고 마스킹할 수 있다. 단순 키워드나 정규식 기반 탐지를 넘어 자연어처리와 딥러닝 기술로 문맥을 해석해 민감정보를 찾아내는 방식이다. 이번 업데이트는 공공기관의 N2SF 전환 수요를 정면으로 겨냥한 것으로 풀이된다. 기존 망분리 체계에서는 내부망과 외부망의 물리적·논리적 분리가 보안의 중심이었다. 그러나 생성형 AI와 클라우드 서비스를 공공 업무에 활용하려면 모든 데이터를 같은 방식으로 막는 구조만으로는 한계가 있다. 어떤 데이터가 기밀이고, 어떤 데이터가 민감하며, 어떤 데이터는 공개 가능한지를 먼저 구분해야 AI 활용과 보안 통제를 동시에 설계할 수 있다. 특히 초거대 AI 기반 행정서비스가 확산되면 데이터 분류의 중요성은 더 커진다. AI 모델에 입력되는 문서와 데이터셋에 개인정보, 내부 정책 문건, 보안 정보가 섞여 있을 경우 유출이나 오남용 위험이 발생할 수 있다. N2SF가 데이터 등급 분류를 전제로 하는 이유도 여기에 있다. 관련 시범 실증 사업 역시 공공부문에 적합한 AI 보안 적용 모델과 확산 방안을 마련하기 위해 추진됐다. 업계에서는 N2SF 전환 과정에서 데이터 보안 시장이 확대될 것으로 보고 있다. 공공기관이 AI와 클라우드를 도입하려면 데이터 발견, 분류, 권한 관리, 암호화, 반출 통제, 로그 추적, 개인정보 마스킹까지 전 주기 관리 체계가 필요하다. 이 가운데 데이터 식별·분류는 모든 보안 정책의 출발점이다. 분류가 부정확하면 과도한 차단으로 업무 효율이 떨어지거나, 반대로 민감정보가 낮은 등급으로 처리돼 유출 위험이 커질 수 있다. 파수 AI는 FDR 외에도 데이터 보안 솔루션 ‘파수 엔터프라이즈 DRM(Fasoo Enterprise DRM, FED)’과 AI 활용을 위한 민감정보 관리 솔루션 ‘AI-R DLP’ 등을 통해 N2SF 대응 포트폴리오를 강화하고 있다. 데이터 등급을 식별한 뒤 문서 암호화와 접근권한 통제, AI 입력 데이터 차단·마스킹까지 연결하는 구조를 구축하겠다는 전략이다. 향후 관건은 실제 공공기관 업무 환경에서의 적용성과 정확도다. 공공기관 데이터는 문서 형식이 다양하고 오래된 스캔본이나 이미지형 자료, 비정형 문서가 많다. OCR과 AI 문맥 분석 기능이 현장 데이터에서 얼마나 높은 탐지율과 낮은 오탐률을 보이느냐가 솔루션 경쟁력을 가를 전망이다. 또 N2SF 전환이 공공기관 전체로 확산되면 보안 등급 분류 기준의 표준화도 중요해진다. 기관마다 다른 방식으로 기밀·민감·공개 등급을 적용하면 시스템 연계와 클라우드 활용 과정에서 혼선이 생길 수 있다. 데이터 분류 솔루션은 기술 기능뿐 아니라 정부 보안 기준과 기관별 업무 특성을 반영한 정책 설계 역량까지 요구받게 된다. 고동현 파수 AI 상무는 “파수 AI는 FDR 외에도 FED와 AI-R DLP 등 N2SF를 위한 포트폴리오를 지속적으로 강화하고 있다”며 “N2SF의 시작이 등급 분류인 만큼 FDR을 통해 공공기관의 디지털 혁신을 지원할 것”이라고 말했다. 이번 FDR 업데이트는 공공 AI 확산 국면에서 보안의 무게중심이 ‘망을 나누는 방식’에서 ‘데이터를 이해하고 통제하는 방식’으로 이동하고 있음을 보여준다. AI와 클라우드 활용이 공공 업무의 효율성을 높일 수 있다면, 그 전제는 데이터가 어디에 있고 어떤 등급인지 정확히 아는 것이다. 파수 AI가 N2SF 전환 시장에서 데이터 분류·통제 솔루션을 앞세워 공공 보안 수요를 얼마나 확보할지 주목된다.
2026-05-20 16:38:59
-
안랩, 공급망 불안 악용…업무 메일 위장 피싱 주의보
[경제일보] 안랩이 원자재 가격 상승과 공급망 불안 이슈를 악용한 피싱 메일을 발견하고 사용자 주의를 당부했다. 공격자는 ‘단가 인상 공문’으로 위장한 업무 메일을 보내 첨부파일 열람을 유도한 뒤 가짜 로그인 페이지에서 계정 정보를 탈취하려 했다. 안랩은 최근 단가 인상 공문으로 위장해 계정 정보 탈취를 시도하는 피싱 메일을 확인했다고 15일 밝혔다. 이번 사례에서 공격자는 협력업체가 보낸 업무 메일처럼 꾸민 뒤 메일 제목에 ‘단가 인상 공문’을 사용했다. 본문에는 “최근 원자재 가격 상승으로 인해 부득이하게 단가 인상을 시행한다”는 내용을 담아 수신자가 첨부파일을 열어보도록 유도했다. 메일에 첨부된 PDF 파일을 실행하면 공문 내용이 바로 열리는 것이 아니라 PDF 뷰어를 다운로드해야 한다는 화면이 나타난다. 화면의 ‘다운로드’ 버튼을 클릭하면 로그인 페이지로 위장한 피싱 사이트로 연결된다. 사용자가 PDF 뷰어 다운로드 절차로 착각해 이메일 계정과 비밀번호를 입력하면 해당 정보는 공격자 서버로 전송된다. 탈취된 계정은 기업 내부 시스템 침투, 추가 피싱 메일 발송, 거래처 사칭, 내부 자료 유출 등 2차 공격에 악용될 수 있다. 이번 사례는 피싱 공격이 단순한 악성 링크 유포에서 실제 업무 맥락을 정교하게 흉내 내는 방식으로 고도화되고 있음을 보여준다. 원자재 가격 상승, 납기 지연, 단가 조정처럼 기업 실무자가 민감하게 반응할 수밖에 없는 주제를 활용해 정상 업무 메일처럼 보이도록 만드는 것이 특징이다. 최근 피싱 기법도 다양해지고 있다. 이메일뿐 아니라 문자, 업무용 메신저, 전화 등 여러 채널을 활용하고 QR코드, 클라우드 공유 링크, 가짜 캡차 화면 등을 동원해 보안 장비 탐지를 우회하는 시도도 늘고 있다. AI 확산 이후에는 어색한 문법이나 오탈자만으로 피싱 메일을 구별하기도 어려워졌다. 계정 탈취형 피싱은 기업 보안에서 특히 위험하다. 공격자가 가짜 로그인 페이지로 사용자를 유도해 아이디와 비밀번호를 입력하게 만들고 경우에 따라 다중인증 코드까지 노린다. 계정이 한 번 탈취되면 공격자는 정상 계정으로 내부 메일을 보내거나 거래처를 속일 수 있어 피해가 빠르게 확산될 수 있다. 피해 예방을 위해서는 기본 보안 수칙을 지켜야 한다. 발신자 이메일 주소의 도메인이 실제 거래처와 일치하는지 확인하고 발신자가 불분명한 메일의 첨부파일이나 URL은 실행하지 않아야 한다. PC와 운영체제, 소프트웨어, 인터넷 브라우저에는 최신 보안 패치를 적용하고 백신 실시간 감시 기능을 활성화해야 한다. 업무 메일이라도 로그인 페이지로 연결될 경우 반드시 URL을 확인해야 한다. 기존 사내 시스템이나 거래처 포털이 아닌 낯선 주소에서 이메일 계정과 비밀번호를 요구한다면 입력을 중단해야 한다. 메일 본문 링크를 통해 접속하기보다 공식 사이트 주소를 직접 입력하는 습관도 필요하다. 기업 차원에서는 임직원 보안 교육과 함께 메일 보안 솔루션, 웹 필터링, 다중인증, 계정 이상 행위 탐지 체계를 강화해야 한다. 로그인 위치와 기기, 접속 시간, 대량 메일 발송 등 이상 징후를 실시간으로 확인하는 체계도 중요하다. 이익규 안랩 분석팀 매니저는 “최근 중동발 원자재 수급 불안, 메모리 가격 급등 등 업계 관심이 높은 이슈를 악용해 정상적인 업무 메일로 오인하게 만드는 피싱 시도가 이어질 수 있다”며 “업무 관련 메일이라 하더라도 발신자 이메일 주소와 첨부파일, URL의 진위를 반드시 확인하고 의심스러운 웹사이트에는 개인 및 계정 정보를 절대 입력하지 않아야 한다”고 말했다. 안랩 V3 제품군과 샌드박스 기반 지능형 위협 대응 솔루션 ‘안랩 MDS’는 이번 메일로 유포 중인 URL 탐지 기능을 지원한다. 안랩은 차세대 위협 인텔리전스 플랫폼 ‘안랩 TIP’에서도 피싱 공격 동향과 보안 권고문, 침해지표를 제공하고 있다.
2026-05-15 10:50:49
-
-
-
-
오픈AI, '한글' 문서 지원 확대…챗GPT 국내 업무 활용성 강화
[경제일보] 오픈AI가 '챗GPT'에서 한글 문서 형식인 HWP와 HWPX 파일을 지원하면서 국내 문서 기반 업무 환경에서 인공지능 활용 범위가 확대될 전망이다. 특히 공공기관과 기업에서 널리 사용되는 한글 문서를 별도 변환 없이 분석할 수 있게 되면서 국내 사용자 중심 기능을 강화하는 전략으로 풀이된다. 14일 오픈AI는 자사의 대형 언어 모델(LLM)인 '챗GPT'가 한글과컴퓨터의 한컴오피스 '한글'에서 사용되는 대표 문서 형식인 HWP와 HWPX 파일을 지원한다고 밝혔다. 이에 사용자는 한글 문서를 그대로 업로드해 내용을 확인하고 자연어 기반 질의응답을 통해 핵심 내용을 요약하거나 필요한 정보를 추출할 수 있게 됐다. 긴 보고서나 행정 문서, 회의 자료 등 방대한 문서를 빠르게 검토해야 하는 업무 환경에서도 활용성이 높아질 것으로 예상된다. 특히 공공기관과 교육기관, 기업 등 국내에서 널리 사용되는 문서 포맷을 직접 지원하게 되면서 국내 사용자들의 실제 업무 환경에서 챗GPT 활용도가 확대될 것으로 전망된다. HWP와 HWPX는 한국 공공기관과 교육기관, 주요 기업에서 널리 사용되는 문서 형식이다. 그동안 글로벌 AI 서비스 이용 과정에서는 해당 포맷 지원 여부가 실제 업무 도입의 주요 변수로 꼽혀 왔다. DOC, PDF 등 글로벌 표준 문서 포맷은 대부분 AI 서비스에서 지원됐지만 HWP는 상대적으로 지원이 제한적으로 작용했다. 이번 지원 배경에는 한국 시장의 높은 챗GPT 사용 비중도 영향을 준 것으로 분석된다. 한컴 관계자는 "한국은 챗GPT 유료 결제 비율이 높은 순위를 차지하고 있는 것으로 안다"며 "이에 한국에서 널리 사용되는 대표 문서 형식인 HWP와 HWPX를 지원한 것으로 보인다"고 말했다. 기술적 측면에서는 한컴이 제공한 오픈소스 정보도 영향을 미친 것으로 분석된다. 한컴 관계자는 "한컴은 최근 몇 년간 자사의 파일을 분석할 수 있도록 오픈소스를 통해 정보를 제공했다"며 이번 오픈AI의 지원 배경을 설명했다. 앞서 한컴은 오픈소스를 통해 한글 파일을 분석할 수 있는 데이터를 제공했다. AI 시대에 맞춰 사용자들의 불편을 줄이기 위한 행동으로 풀이된다. 한컴 관계자는 "한컴은 문서 구조 분석과 데이터 추출 기술을 통해 AI 친화적인 문서 생태계를 구축하고 있다"며 "업계에서는 수년 전부터 개방형 문서 포맷 의무화를 주장해 왔고, 한컴 역시 정부, 지자체와 함께 공공문서의 개방형 문서 포맷 전환을 꾸준하게 추진해 왔다"고 말했다. 그동안 일부 업계에서는 HWP 포맷이 AI 시스템과 호환성이 떨어진다는 평가가 제기되기도 했다. 다만 한컴 측은 이러한 지적이 문서 포맷 구조에 대한 오해라는 입장을 유지해 왔다. HWP뿐 아니라 DOC, PDF 등 대부분의 문서 포맷은 텍스트뿐 아니라 서식, 표, 이미지 등 다양한 정보를 포함한 구조로 저장되기 때문에 AI 활용을 위해서는 별도의 데이터 추출과 전처리 과정이 필요하다는 설명이다. 특히 한컴은 XML 기반 개방형 문서 포맷인 HWPX를 통해 AI 활용성을 강화해 왔다. HWPX는 문서 구조를 분석하고 데이터를 추출하기 쉬운 구조로 설계돼 AI 학습이나 문서 분석에 유리한 포맷으로 평가된다. 기존 HWP 문서 역시 HWPX로 변환이 가능하도록 지원하고 있어 문서 기반 AI 활용 환경을 확대해 왔다. 글로벌 AI 서비스의 HWP 지원 사례도 확대되는 흐름이다. 앞서 구글은 자사의 LLM인 '제미나이'에서 HWP와 HWPX 지원 기능을 업데이트했으며, 네이버의 클로바X 역시 HWP 파일을 지원하고 있다. 이번 챗GPT 지원까지 더해지면서 글로벌 AI 서비스 전반에서 한글 문서 지원이 확대되는 흐름으로 이어지고 있다. 오픈AI는 이번 기능 지원이 국내 AI 업무 활용 확대의 계기가 될 것으로 전망하고 있다. 특히 공공기관과 기업에서 축적된 한글 문서 데이터를 활용한 AI 분석과 자동화 업무 도입이 가속화될 것으로 분석된다.
2026-04-17 15:39:06
-
한컴, 'AI 오케스트레이션'으로 日 공략… '탈(脫)HWP'로 체질 개선 성공할까
[경제일보] 한글과컴퓨터(대표 김연수, 이하 한컴)가 일본 최대 IT 전시회 ‘재팬 IT 위크 2026 스프링’에 참가하며 ‘탈(脫)HWP’에 방점을 찍은 글로벌 공략을 가속한다. 오는 8일부터 10일까지 열리는 이번 전시에서 인공지능(AI), 생체인식, 전자문서 기반 기술을 결합한 ‘디지털 트러스트 솔루션’을 전면에 내세운다. 이는 단순한 소프트웨어 판매를 넘어 다양한 AI 모델과 기업 시스템을 연결하는 ‘AI 오케스트레이션 플랫폼’ 기업으로 거듭나겠다는 의지다. 한컴은 지난 수십 년간 ‘아래아한글(HWP)’이라는 강력한 브랜드를 통해 국내 문서 시장을 장악해 왔다. 그러나 클라우드와 AI 시대가 도래하면서 특정 포맷에 종속된 소프트웨어 기업은 생존하기 어려운 환경이 됐다. 이에 한컴은 수년 전부터 AI와 전자문서 기술을 중심으로 체질 개선에 사활을 걸어왔다. 이번 재팬 IT 위크에서 선보이는 제품군은 이러한 노력의 결과물이다. 비대면 본인 인증 솔루션 ‘한컴 오스(HancomAUTH)’, AI 학습 데이터 추출 솔루션 ‘한컴 데이터로더(HancomDataLoader)’, 전자문서 솔루션 ‘CLIP e-Form’ 등은 모두 특정 소프트웨어가 아닌 ‘데이터의 신뢰와 흐름’을 관리하는 데 초점이 맞춰져 있다. 특히 올해 초 일본 공적 인증 사업자인 사이버링크스에 ‘한컴 오스’를 공급하며 현지 시장의 교두보를 확보한 것은 매우 긍정적인 신호다. 한컴이 제시하는 미래는 ‘AI 오케스트레이션’이라는 키워드로 요약된다. 이는 구글, 오픈AI, 네이버 등 다양한 거대언어모델(LLM)과 기업 내부 시스템을 유기적으로 연결하고 조율하는 ‘지휘자’ 역할을 하겠다는 것이다. 한컴 데이터로더는 AI의 성능은 결국 학습 데이터의 질에 달렸다. 이 솔루션은 기업이 보유한 방대한 문서(HWP, PDF, DOC 등)에서 텍스트와 표, 이미지를 자동으로 추출해 구조화된 데이터로 변환한다. 이는 AI 모델의 정확도를 높이는 핵심 기술이다. 또한 한컴 오스 & 간편 인증 역시 AI 시대에는 ‘누가 AI를 사용하는가’를 증명하는 것이 중요하다. 한컴의 안면인식 기반 인증 기술은 금융, 공공, 의료 등 고도의 보안이 요구되는 분야에서 AI 서비스의 신뢰를 담보하는 역할을 한다. 여기에 직무별 소형 AI 모듈을 결합하는 ‘마이크로 에이전트’ 전략까지 더해지면 한컴은 고객사에게 ‘맞춤형 AI 비서’를 제공하는 토털 솔루션 기업으로 거듭날 수 있다. 이는 단순한 SaaS(서비스형 소프트웨어)를 넘어 기업의 업무 프로세스 전반을 혁신하는 PaaS(서비스형 플랫폼) 사업으로의 진화를 의미한다. 일본은 디지털 전환(DX)이 더디지만 한번 도입되면 안정적인 수요가 보장되는 보수적인 시장이다. 한컴이 2024년부터 꾸준히 재팬 IT 위크에 참가하며 현지 파트너십을 다져온 것은 장기적인 관점에서의 시장 안착을 노린 전략이다. 다만, 과제는 분명하다. 일본 시장은 어도비(Adobe), 마이크로소프트(Microsoft) 등 글로벌 소프트웨어 공룡들이 이미 강력한 생태계를 구축하고 있다. 한컴이 이들과 경쟁하기 위해서는 단순히 기술적 우위를 넘어 현지 기업 문화에 최적화된 서비스와 강력한 기술 지원 체계를 갖춰야 한다. 김연수 대표는 “일본 현지 파트너와의 협력을 통해 기술 적용 사례를 확대하겠다”고 밝혔다. 이는 직접 판매보다는 현지 유통망을 통해 간접적으로 시장을 공략하겠다는 현실적인 전략이다. 한편 한컴의 성패는 ‘아래아한글’이라는 성공의 그림자를 얼마나 빨리 지우고 ‘AI 플랫폼’이라는 새로운 정체성을 시장에 각인시키느냐에 달려 있다. 일본 시장에서의 성공은 향후 동남아, 유럽 등 글로벌 시장으로 나아가는 중요한 시금석이 될 것이다. ‘국민 소프트웨어’ 기업을 넘어 ‘글로벌 AI 솔루션’ 기업으로 거듭나려는 한컴의 담대한 도전이 어떤 결실을 맺을지 귀추가 주목된다.
2026-04-06 18:03:39
-
오피스 기업에서 AI 인프라로…한컴, PDF 기술로 깃허브 트렌딩 1위
[경제일보] 한글과컴퓨터가 인공지능(AI) 개발 과정에서 핵심 병목으로 지목돼 온 데이터 전처리 영역에서 존재감을 드러내고 있다. 한글과컴퓨터가 공개한 PDF 데이터 추출 오픈소스가 글로벌 개발자 커뮤니티에서 빠르게 확산되며 자사의 기술 경쟁력을 입증하고 있다. 23일 한글과컴퓨터는 자사의 오픈소스 프로젝트 '오픈데이터로더 PDF v2.0'이 오픈소스 개발 플랫폼 깃허브에서 전체 개발 언어 기준 트렌딩 1위를 기록했다고 밝혔다. 공개 직후 하루 만에 1800개 이상의 스타가 증가했고 오후 2시 기준 누적 스타 수는 8400개, 포크 수는 500개를 넘어섰다. 이번 성과는 단순한 인기 지표를 넘어 AI 개발 생태계에서 해결되지 않은 문제를 겨냥했다는 점에서 의미가 큰 것으로 분석된다. PDF는 전 세계에서 가장 널리 활용되는 문서 형식 중 하나로 기업 문서와 보고서, 연구 자료 등 주요 데이터가 집중된 포맷이다. 다만 텍스트와 표, 이미지가 혼합된 복잡한 구조로 인해 AI가 바로 활용할 수 있는 형태로 변환하기 어려워 데이터 전처리 단계의 대표적인 병목으로 꼽혀 왔다. 이에 한글과컴퓨터는 해당 문제를 해결하기 위해 AI 기반 분석 방식과 규칙 기반 직접 추출 방식을 결합한 하이브리드 엔진을 자사의 오픈데이터로더 PDF v2.0에 적용했다. 특히 외부 서버로 데이터를 전송하지 않고 로컬 환경에서 처리할 수 있도록 설계해 보안성을 높였고 처리 속도를 유지하도록 설계했다. 또한 광학문자인식(OCR), 표·수식 추출, 차트 분석 등 다양한 AI 기능을 기본 제공해 복합 문서 처리 범위를 넓혔다. 성능 측면에서도 경쟁력을 강조하고 있다. 자체 벤치마크 테스트에서 읽기 순서, 표 구조 인식, 제목 추출 등 주요 항목 전반에서 기존 오픈소스 대비 높은 정확도를 기록했으며 테스트 데이터와 재현 코드를 함께 공개해 결과의 신뢰성을 높였다. 해당 방식은 단순 기능 제공을 넘어 기술 검증 과정까지 공개해 글로벌 개발자 커뮤니티의 신뢰를 확보하려는 전략으로 풀이된다. 한글과컴퓨터는 200개의 실제 PDF 파일(다단 구성 문서 및 과학 논문 포함)을 기반으로 한 자체 벤치마크에서 전체 정확도 0.90, 표 추출 정확도 0.93을 기록하며 복잡한 문서 구조에서도 높은 인식 성능을 보였다고 설명했다. 특히 복잡한 페이지에 대응하기 위해 규칙 기반의 결정론적 로컬 모드와 AI 기반 하이브리드 모드를 병행 적용한 점이 성능 개선의 핵심으로 꼽혔다. 스캔 문서 처리 기능도 강화됐다. 80개 이상의 언어를 지원하는 내장 OCR 기능이 하이브리드 모드에서 동작하며 300DPI 이상의 저해상도 스캔 파일에서도 안정적인 텍스트 추출이 가능하다. 또한 테두리가 없는 표나 복잡한 레이아웃, LaTeX 수식, 이미지 및 차트까지 함께 인식하고 구조화할 수 있어 비정형 데이터 처리 범위를 확장했다. 오픈소스 정책 역시 확산을 염두에 둔 선택으로 해석된다. 해당 프로젝트에는 상업적 활용이 가능한 아파치 2.0 라이선스가 적용돼 기업과 개발자가 별도 제약 없이 서비스에 도입할 수 있도록 구성됐다. 이에 초기 사용자 기반을 빠르게 확보하고 생태계를 확장하려는 의도로 풀이된다. AI 개발 생태계와의 연계도 강화되고 있다. 앞서 오픈데이터로더 PDF는 지난해 글로벌 AI 개발 프레임워크 랭체인의 공식 구성요소로 등록됐으며 올해에는 '라마인덱스', '제미나이 CLI' 등 주요 AI 프레임워크와의 연동 확대가 예정돼 있다. 다양한 AI 개발 도구와의 호환성을 확보함으로써 데이터 전처리부터 모델 활용까지 이어지는 흐름 속에 자연스럽게 편입시키겠다는 전략이다. 또한 AI 에이전트 환경을 겨냥한 기능 확장도 추진된다. 한글과컴퓨터는 모델 간 맥락을 연결하는 'MCP' 기능을 도입해 AI가 문서 데이터를 보다 효율적으로 이해하고 활용할 수 있도록 지원할 계획이다. 단순한 데이터 추출 도구를 넘어 AI 활용의 기반 인프라로 역할을 확장하려는 시도로 풀이된다. 최근 고성능 모델이 보편화되면서 실제 서비스 구현 단계에서는 데이터 품질과 처리 효율이 핵심 경쟁력으로 부상하고 있는 것으로 분석된다. 이에 한글과컴퓨터의 오픈데이터로더 PDF v2.0 확산을 통해 기존 오피스 소프트웨어 기업에서 AI 데이터 인프라 기업으로 영역을 넓힐 전망이다. 김연수 한컴 대표는 "이번 성과는 한컴의 문서 데이터 추출 기술의 완성도와 실용성이 글로벌 개발자 커뮤니티에서 직접적인 검증을 받은 결과로 다양한 활용을 통한 기술 생태계 확장 가능성도 확인했다"며 "아파치 2.0 라이선스 전환을 통해 전 세계 기업과 개발자가 자유롭게 활용하고 확장할 수 있는 개방형 PDF 데이터 플랫폼으로 발전시켜 나가겠다"고 말했다.
2026-03-23 14:34:05
-
-
-
-
-