'국가대표 인공지능(AI)'을 뽑는 과학기술정보통신부의 '독자 AI 파운데이션 모델'(독파모) 프로젝트 1차 평가의 일부 과정이 비판이 나왔다. 블라인드 처리 등 없이 독파모 프로젝트에 참가한 5개 정예팀 업체명이 평가위원단에 그대로 노출됐을 뿐만 아니라, 평가 점수 자체도 1~5점(매우 미흡~매우 우수) 척도로 부여하게 하는 등 허술했다는 지적이 제기됐다.
다만 과기정통부는 이 같은 평가 방식과 지표에 독파모 프로젝트 참가 5개 정예팀이 합의했다고 해명했다.
19일 한경닷컴 취재를 종합하면 과기정통부는 최근 진행된 독파모 1차 평가 절차 가운데 '사용자 평가'의 경우 평가위원단 49명에게 5개 정예팀 이름을 그대로 노출한 채 심사를 진행했다. 사용자 평가 배점은 총점 100점 중에 25점에 달한다.
한경닷컴이 입수한 사용자 평가표와 정예팀 명단을 보면 △1번 LG AI연구원 △2번 NC AI △3번 SKT △4번 네이버 클라우드 △5번 업스테이지 등 실명이 기재됐다. 통상 대규모 국책 과제 심사에서 특정 기업에 대한 선입견을 배제하기 위해 도입하는 '블라인드 평가'가 적용되지 않은 것이다.
심사평가 정밀성도 도마 위에 올랐다. 사용자 평가표의 평가 항목은 세분화되지 않은 채 1~5점 사이 점수를 매우 미흡, 미흡, 보통, 우수, 매우 우수 순서대로 고르는 '단순 척도' 방식으로 매기도록 했다. 수천억원대 규모 사업의 당락을 가를 수 있음에도 마치 설문조사 수준의 단순 선호도 조사처럼 느껴졌다는 것이다.


사용자 평가위원으로 참여한 한 AI 업계 종사자는 "국가 과제가 아니더라도 조달청 평가를 진행할 때는 블라인드가 기본 원칙이다. 보통 원본과 함께 업체 정보를 모두 가린 사본을 제출하고, PT(프레젠테이션) 현장에서 신분을 드러내면 0점 처리를 할 정도로 엄격하다"며 "사용자 평가단 49명이 IT 업계 종사자라면 업체에 대한 기존 인식 기반으로 평가할 수밖에 없다. 기술 자체를 보는 게 아니라 업체에 대한 선입견이 점수에 반영될 위험이 크다"고 꼬집었다.
그는 "평가표를 보고 깜짝 놀랐다. 2000억원이 투입되는 사업에서 단순히 1~5점의 점수를 매기게 하고 (100점 만점에) 25점이라는 큰 배점을 줬다는 게 이해 안 된다"며 "(AI의) 맥락 이해도나 답변 속도, 국내 산업 특성 질문에 대한 대응력, 대화 히스토리 유지 능력, 이미지 판독 능력 등의 구체적 평가 항목이 있어야 평가단도 책임감을 느끼고 임하지 않겠나. 이렇게 단순히 '1등부터 5등까지 찍어라'는 식의 평가를 49명에게만 맡길 거면 이 평가를 왜 하는지 의문"이라고 반문했다.
공공 입찰에 정통한 한 대형 법무법인 변호사도 "바람직하다고 보기 어렵다. 원래 입찰 평가의 기본은 '자기식별 금지의 원칙'을 지켜 경쟁의 공정성을 확보하는 것"이라며 "이름이 공개되면 인지도가 높은 업체가 유리해질 수밖에 없는 구조"라고 말했다.
이어 "업체명이 알려지면 이미 이해관계가 깔려버린다. 대형 업체로부터 지원을 받는 연구 단체나 관계자들이 평가위원으로 들어갈 가능성이 높은데, 그런 분들이 과연 대형 업체를 찍지 않을 수 있겠느냐"며 "나중에 '내가 그때 당신네 팀을 선정해줬다'며 생색을 내기 위해서라도 특정 업체를 찍어줄 여지가 생긴다. 이런 구조에서는 평가의 공정성을 확보하기 어렵다는 비판에서 자유로울 수 없다"고 덧붙였다.
평가의 특성상 선입견 없이 사용자 입장에서 순수하게 성능만 평가할 수 있도록 블라인드 테스트 방식과 함께 정밀한 평가도구를 제공했어야 한다는 지적인 셈이다.
이에 대해 과기정통부 관계자는 "사용자 평가 시 블라인드 방식을 검토 및 제시도 했으나, 최종적으로 5개 정예팀이 하지 말자고 합의한 사항이다. AI 모델 특성상 프롬프트(명령어)를 입력하면 어느 기업 모델인지 금방 알 수 있어 블라인드 방식이 큰 효용이 없다는 판단이었다"면서 "오히려 가렸다가 우회 질문을 통해 모델을 특정하는 식의 어뷰징(부정행위)만 발생할 가능성이 컸다. (5점 척도인) 평가 기준에 대해서도 모든 정예팀이 합의했다"고 설명했다.
앞서 과기정통부는 지난 15일 독파모 프로젝트 1차 평가 결과를 발표하고 5개 정예팀 가운데 네이버클라우드와 NC AI 컨소시엄이 탈락했다고 밝혔다. LG AI연구원, SK텔레콤, 업스테이지 컨소시엄 등 3개 팀은 2차 단계 진출을 확정 지었다.
홍민성 한경닷컴 기자 mshong@hankyung.com
관련뉴스








