[경제일보] 네이버(대표 최수연)가 자사 인공지능 모델에 적용했던 중국산 비전 인코더를 완전히 배제하고 자체 개발한 독자 기술을 전면 적용한다. 이로써 국가 파운데이션 모델 사업 당시 불거졌던 기술 종속 논란을 잠재우고 한국 문화에 최적화된 멀티모달 경쟁력을 한층 끌어올릴 전망이다.
17일 정보기술 업계에 따르면 네이버클라우드는 지난달 초 독자적인 비전 인코더 개발을 마무리 짓고 향후 개발하는 멀티모달 모델 전반에 이를 적용하기 위한 내재화 작업에 돌입했다. 비전 인코더는 이미지와 영상 정보를 인공지능이 이해할 수 있는 형태로 변환하는 핵심 모듈로 텍스트와 음성 등을 종합적으로 다루는 멀티모달 모델에서 시신경 역할을 수행하는 기술이다.
새롭게 개발된 비전 인코더는 네이버클라우드의 기존 자체 기술인 브이유클립(VUClip)의 성능을 대폭 개선한 최신 모델이다. 현재 오픈소스 생태계에서 활용성이 검증된 중국 알리바바의 큐웬 등 글로벌 최상위권 모델의 인코더와 대등한 수준의 정보 처리 성능을 확보한 것으로 알려졌다.
앞서 네이버클라우드는 올해 초 정부가 주도한 독자 인공지능 파운데이션 모델(독파모) 프로젝트에 참여하는 과정에서 거센 비판에 직면한 바 있다. 자사 옴니모달 모델 하이퍼클로바X 시드 32B 싱크에 큐웬 2.5 모델의 비전 인코더와 가중치를 일부 차용했다는 사실이 외부 검증을 통해 알려지면서다.
당시 정부는 모델 학습 초기 단계부터 자체 기술로 구축하는 이른바 프롬 스크래치 원칙을 강력하게 내세웠다. 네이버클라우드는 비전 인코더가 단순한 시각 정보 변환 모듈이며 언제든 자체 기술로 교체 가능한 부품이라고 해명했지만 결국 해당 논란의 여파로 지난 1월 국책 사업 1차 심사에서 고배를 마시는 뼈아픈 결과를 낳았다.
네이버클라우드는 이번 자체 인코더 개발과 전면 적용을 통해 당시의 약속을 기술력으로 증명함과 동시에 외산 모듈 의존도를 완벽히 끊어내게 됐다. 다만 이미 오픈소스로 외부에 배포된 하이퍼클로바X 시드 32B 싱크 모델의 인코더 교체 여부와 적용 시점은 아직 구체적으로 확정되지 않았다.
이번 비전 인코더의 가장 큰 기술적 특징은 인공지능을 학습 단계부터 한국어 중심으로 훈련시켜 이미지와 한국어를 중간 번역 과정 없이 직접 연결하는 구조에 있다. 기존 글로벌 인코더들이 제주 하르방 이미지를 인식할 때 먼저 영어 단어인 석상으로 치환해 처리하는 한계를 보였다면 네이버 모델은 이미지를 보는 즉시 하르방이라는 한글 고유명사를 직관적으로 도출해 낸다.
이러한 다이렉트 데이터 처리 방식은 정보 왜곡 현상을 원천 차단해 한국의 지리와 문화 특유의 복잡한 맥락을 완벽하게 읽어낼 수 있게 만든다. 국내 공공기관이나 금융권처럼 데이터 주권 확보와 문화적 정확성이 생명인 산업군에서는 외산 모델이 범접할 수 없는 차별화된 경쟁력으로 작용할 공산이 크다. 전문가들은 네이버클라우드가 고도화된 시각 데이터 해석 능력을 바탕으로 자사의 핵심 비전인 소버린 인공지능 생태계 확장에 더욱 강력한 드라이브를 걸 것으로 분석한다.
글로벌 빅테크들이 주도하는 인공지능 패권 경쟁 속에서 핵심 기술 자립은 정보기술 기업의 생존을 결정짓는 최우선 과제로 떠올랐다. 단순한 부품 교체를 벗어나 설계부터 데이터 융합까지 완전한 내재화를 이룬 네이버가 글로벌 인공지능 시장에서 독자적인 플랫폼 사업자로서의 입지를 확고히 다질 수 있을지 시장의 이목이 집중되고 있다.































![[재계 DNA 분석① SK] 잿더미 선경직물에서 글로벌 AI 심장부로 비상한 SK 70년 혁신과 파격의 역사](https://image.ajunews.com/content/image/2026/04/17/20260417160457740781_388_136.jpg)


![[중국 경제] 중국 1분기 5% 성장…마오타이는 첫 실적 동반 감소](https://image.ajunews.com/content/image/2026/04/17/20260417172202856818_388_136.jpg)






댓글 더보기