HOME

순혈이냐 개발이냐…국산 AI 독자성 논란 확산

입력 2026-01-09 10:21 수정 2026-01-09 10:36

순혈이냐 개발이냐…국산 AI 독자성 논란 확산

순혈이냐 개발이냐…국산 AI 독자성 논란 확산
업스테이지·네이버·SKT까지 번진 프롬 스크래치 공방
가중치·라이선스 기준 모호…정부 평가 시험대

(서울=연합뉴스) 한상용 조성미 오지은 기자 = 국가대표 AI 모델을 만들겠다며 정부가 야심 차게 추진한 '독자 AI 파운데이션 모델' 프로젝트가 초반부터 거센 독자성 논란에 휩싸였다.
국내 기업들이 기초부터 자체적으로 개발하는 '프롬 스크래치'(From Scratch) 방식으로 국산 AI 생태계를 조성하겠다는 취지지만 일부 중국 모델 차용과 관련해 잡음도 좀처럼 가시지 않는 형국이다.
이른바 100% 순수 우리 기술로 만드는 '순혈주의'를 택할 것이냐 아니면 능력 개발에 방점을 둬 외국 일부 모델은 갖다 쓰는 '개발주의'가 나은지 국대 AI 논쟁에 불이 붙은 것이다.
국책 AI 사업 추진 과정에서 불거진 생산적인 의견 개진과 토론도 분명히 있지만 자칫 경쟁 과열로 상호 비방전으로 흐르는 게 아니냐는 우려도 제기된다.
논란의 핵심은 외국산 AI 모델을 차용했을 때 그 역할 비중이 어느 정도 되는지와 지속적 라이선스(사용 허가)로 귀결된다.
정부는 오는 15일까지 네이버클라우드와 업스테이지, SK텔레콤[017670], NC AI, LG AI연구원 등 국내 5개 정예팀의 AI 모델을 평가한 뒤 1개 팀을 탈락시킬 예정이다.
전문가들은 이러한 논란을 잠재우려면 '독자성' 기준을 명확히 하고 선발 기준을 공정하고 투명하게 설정할 필요가 있다고 조언한다.

◇ 업스테이지 논란 촉발…1주일 사이 네이버·SKT로 확산
국대 AI에 출전한 5개 업체 중 도용 논란이 처음 제기된 곳은 업스테이지다.
지난 1일 고석현 사이오닉AI 최고경영자(CEO)가 지난 1일 소셜미디어(SNS)에 업스테이지 AI 모델 '솔라 오픈'이 중국 기업 지푸AI의 'GLM-4.5-에어'와 일부 레이어에서 결정적인 유사도가 있다는 주장을 내놓으면서다.
업스테이지는 "독자성 문제와는 무관하다"며 즉각 반박에 나섰다.
김성훈 업스테이지 대표는 주말인 지난 2일 공개 검증회까지 열고 "이런 주장은 사실이 아니"라며 솔라 오픈을 프롬 스크래치로 개발했다는 과정도 상세히 설명했다. 이번 의혹을 제기한 고 대표에게 사과도 요구했다.
결국 고 대표가 그다음 날 "엄밀하게 검증하지 못했다"고 사과하면서 도용 논란은 일단락되는 듯했다.
그러나 국대 정예팀의 도용 논란은 여기서 끝나지 않았다.
이번에는 네이버클라우드의 멀티모달 AI 모델을 두고 지난5일 IT 스타트업계 중심으로 프롬 스크래치 논란이 일었다.
네이버클라우드의 하이퍼클로바X 시드 32B 싱크 모델이 중국 알리바바의 비전 인코더 큐웬 2.5 모델 웨이트(가중치) 코사인 유사도와 피어슨 상관계수가 높다는 주장이 나온 것이다.
코사인 유사도와 피어슨 상관계수는 모두 데이터셋의 유사도를 측정하는 방법이다.
코사인 유사도는 방향의 유사성을 판단하고, 피어슨 상관계수는 데이터의 분포가 얼마나 유사한지 나타낸다.
네이버클라우드는 중국 오픈소스를 가져다 쓴 점은 인정하면서도 "인코더는 언제든 교체할 수 있고 핵심적 영역도 아니"라는 입장이지만 국대 AI 경선에 참여한 다른 4곳은 "사실상 두뇌 역할을 하는 영역인 만큼 프롬 스크래치에 어긋난다"고 보고 있다.
네이버클라우드 논란이 가시지 않은 상황에서 SK텔레콤의 초거대 AI 모델 'A.X K1'이 중국 모델 '딥시크'와 유사하다는 지적마저 제기됐다.
업계 일각에는 A.X K1이 딥시크의 핵심 아키텍처로 알려진 MLA와 MoE 세부 설정값이 딥시크 V3 모델과 유사하다는 주장이 나온 것이다.
SKT는 지난 8일 공식 입장을 내고 "A.X K1은 5천190억개의 동일한 파라미터 수가 세계적으로 보고된 적 없는 독자적 구조를 가진 모델"이라고 반박했다.

◇ 논란의 관건은 가중치·라이선스…"활용 성격이 핵심"
이번 논란의 최대 핵심은 외국 AI 모델을 차용했을 경우 해당 모델의 역할 비중과 라이선스의 지속성 여부다.
9일 연합뉴스 취재를 종합하면 업스테이지에서 시작된 '프롬 스크래치' 논란이 네이버를 넘어 SK텔레콤까지 이어졌지만, 이들 기업의 해외 모델 활용 성격은 다를 수 있다는 지적이 나온다.
업스테이지와 SK텔레콤이 중국 모델들과 유사하다고 지목된 부분은 '추론(인퍼런스) 코드'로 AI 모델의 설계도에 해당한다.
AI 모델의 독자성을 따질 때 언급되는 학습 코드와는 구별되는 개념이다.
AI 업계에서는 추론 코드 사용은 프롬 스크래치 기조를 훼손하는 요소로 보지 않는다는 게 중론이다.
그러나 네이버클라우드를 제외한 4개 정예팀은 네이버클라우드가 큐웬 모델에서 차용한 비전 인코더와 가중치는 추론 코드와는 상황이 다르다는 입장이다. 비전 인코더는 이미지나 영상과 같은 시각 정보를 AI 모델이 이해할 수 있는 코드로 변환하는 역할을 한다.
특히, 네이버클라우드가 차용한 인코더 자체는 물론 가중치의 경우 AI의 독자성을 가지는 학습 단계에 오픈소스 모델을 활용했다는 뜻이어서 가중치를 활용하면 프롬 스크래치라고 정의하기 어렵다고 얘기한다.
IBM 등 해외 AI 업계, AI 연구 기관에서도 프롬 스크래치의 기준을 따질 때 가중치 활용 여부를 논하고 있다는 게 이들의 주장이다.
AI 업계 관계자는 "현재 네이버클라우드가 공개 검증을 하지 않았기 때문에 중국 모델에서 갖다 쓴 가중치가 얼마만큼의 비중을 차지하는지를 알 수 없다"고 말했다.
SK텔레콤 관계자도 "A.X. K1 개발 과정에서 추론 코드를 활용했다고 해도 가중치 면에서는 모든 파라미터를 초기화한 상태에서 모델을 학습했다며 가중치 사용 여부가 독자성을 가리는 주요 기준"이라고 강조했다.
여기에다 이들 4개팀 사이에서는 네이버클라우드가 외국 모델 일부를 이미 차용해 100% 독자 기술을 갖춘 상황이 아닌 만큼 향후 라이선스 문제에도 직면할 수 있다는 목소리도 나온다.
AI 업계 한 관계자는 "큐웬이 나중에 혹시라도 라이선스를 회수할 경우 네이버클라우드는 더는 큐웬 모델을 사용하지 못할 수도 있다"고 말했다.
반면, 네이버클라우드는 다소 억울하다는 입장이다.
인코더는 멀티모달 AI 모델에서 핵심 부분도 아닌 '시신경 역할'을 하는 데다 필요에 따라 자체 개발한 인코더 등으로 바꿀 수 있다는 이유에서다.
또한 현재로서는 성능이 우수한 오픈소스를 일시적으로 사용하는 동시에 자체 개발한 인코더의 성능을 향상해 나중에 교체하는 게 더욱 현실적인 개발 방식이라는 논리도 폈다.
네이버클라우드는 이미 VUClip과 같은 독자적 비전 인코더 기술력을 갖춘 상태다.
큐웬 라이선스 문제의 경우에도 사용 기한은 별도로 정해져 있지 않으며 언제든 필요에 따라 바꿀 수 있다고 밝혔다.
네이버클라우드 관계자는 "인코더라는 것은 우리가 안경을 바꾸면 처음에 조금 어지럽고 곧 적응하는 것처럼 소스나 일정을 조율하면 언제든지 바꿀 수 있는 것"이라고 말했다.
일각에서는 중국 모델이 아닌 미국 등 다른 나라의 오픈소스를 사용했을 경우에도 '이처럼 논란이 확산할까'라며 의심스러워하는 시각도 있다. AI 모델 성능과는 별개로 과도한 '중국 프레임'이 씌워졌다는 것이다.
네이버클라우드가 차용한 큐웬의 인코더가 알고리즘의 일부분인 만큼 프롬 스크래치 기조의 대세에는 지장이 없거나 제한적일 수 있다는 분석도 나온다.
위정현 중앙대 가상융합대학 학장은 "미국과 중국 두 나라의 글로벌 AI 기술력이 월등히 앞서 있는 상황에서 지금은 서로가 서로의 오픈소스를 사용하는 상황"이라며 "핵심적 영역을 전부 베껴 쓴다는 것은 문제가 있지만 일부 도움 되는 모델은 부분적으로 사용 가능하다고 본다"고 말했다.

◇ 논란 범위 커지는 독자 AI 프로젝트…정부 "공정 평가" 원칙론
독자 AI 프로젝트를 두고 AI 모델 범위가 커지면서 논란의 영역 역시 확대되는 모양새다.
AI 업계에서는 정부의 독자 AI 파운데이션 모델 사업의 1차 평가를 당초 텍스트 중심의 거대언어모델(LLM) 성능 평가로 하려 했다가 시각, 음성 등 다차원적인 멀티모달 AI로 범위를 확장하면서 지금의 논란을 초래했다는 지적도 있다.
지난해 9월 착수 이후 불과 4개월 만에 1차 평가가 치러지는 상황에서 네이버가 멀티모달을 넘어서 국내 최초 옴니모달 모델 개발이라는 쉽지 않은 목표를 세우면서 중국 모델 인코더, 가중치 차용으로 귀결된 것 아니냐는 것이다.
멀티모달은 텍스트와 음성, 이미지 등 다양한 형태의 정보를 동시에 이해하고 처리·답변할 수 있는 능력이나 기술을 일컫는데, 옴니모달은 멀티모달에서 기능을 더욱 확장한 개념이다.
한 AI 전문가는 "멀티모달 AI를 위한 이미지 학습에서 데이터의 양이 절대적으로 많이 필요한 점 등 단기일 안에 쉽게 이뤄질 목표가 아니었다"고 말했다.
다만, 글로벌 AI 트렌드가 텍스트 중심 LLM에서 멀티모달 AI로 빠르게 이동하는 측면에서 피할 수 없는 대세를 받아들인 결과라는 해석도 있다.
네이버클라우드 외 다른 4개 정예팀도 멀티모달 AI 개발로 목표를 추후 상향할 것으로 예상된다.
한 컨소시엄 관계자는 "단기간에 멀티모달을 완성하기는 어려운 작업으로 차수별로 현실성 있게 계획을 수립해 진행할 것"이라고 말했다.
다만, 이 관계자는 "학습과 관련되고 모델 성능에 영향을 주는 부분은 해외 모델 오픈소스를 쓰지 않을 계획"이라고 덧붙였다.
배경훈 부총리 겸 과학기술정보통신부 장관은 이와 관련해 8일 자신의 SNS를 통해 "평가는 객관적이고 공정하게 진행될 것"이라고 밝혔다.
국대 1차 평가를 앞두고 논란이 잇따르자 정부가 원칙론을 재확인한 것으로 해석됐다.
AI 업계 관계자는 "프롬 스크래치 논란이 커지는데 정부가 명확한 기준을 제시하지 못해 논란을 일으킨 측면이 있다"며 "조속히 독자적 기술 개발의 기준과 표준을 정할 필요가 있다"고 말했다.
gogo213@yna.co.kr
csm@yna.co.kr
built@yna.co.kr
gogo213@yna.co.kr
(끝)

<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>