전자상거래·물류처럼 관계 데이터가 복잡한 서비스에서 그래프 신경망(GNN)은 핵심 분석 기술로 꼽힌다. 하지만 추론 전 전처리 단계 과정에서 지연율이 커지면서 실제 서비스 적용에는 걸림돌이 돼 왔다.
연구팀에 따르면 오토GNN은 서버급 인텔 CPU 대비 최대 9배, 엔비디아의 고성능 GPU인 RTX3090 대비 2.1배의 속도 향상을 달성했으며 에너지 소비를 3.3배 절감했다. FPGA는 상황에 따라 반도체 코어 구성을 원하는 대로 프로그래밍할 수 있는 로직 반도체(시스템 반도체)다.

그래프는 대상 간 연결 관계를 나타내는 개념이다. 개체를 나타내는 각 점(노드)들을 선으로 연결한 집합체로, 사람 간 관계나 분자 구조처럼 복잡한 현실 정보를 담는다. 그간 대부분의 머신러닝(ML) 알고리즘은 객체들 사이 관계가 규칙적이고 균일한 형태를 다루는 데 강점이 있었다. 이를 보완하기 위해 등장한 GNN은 노드와 간선의 속성을 학습해 그래프 전체를 예측했고, 추천 시스템과 소셜 네트워크 분석 등에서 높은 정확도를 보이면서 산학계에서 각광받았다.

연구팀에 따르면 GNN은 실제 시스템에 적용하기에 여전히 부족하다. 주된 이유는 높은 지연율로 인한 낮은 성능이다. 연구팀은 대규모 그래프 데이터셋을 검증한 결과, 전처리 과정이 전체 GNN 서비스 시간 중 90.8%를 차지한다고 했다.
GPU로 이런 복잡한 관계 구조를 정리하는 연산은 한계가 있다. 정 교수는 "기존 GPU는 사전처럼 단서(색인)를 통해 값을 찾아내는데, 관계를 기반으로 만든 그래프는 처음부터 일일이 탐색해야 하는 구조라 기존 GPU와는 맞지 않다"고 설명했다.
연구팀은 이를 해결하기 위해 GNN 처리 프로세스를 하드웨어 단계에서 새로 설계했다. 전처리에서 반복적으로 등장하는 두 가지 연산 알고리즘을 모듈 형태로 설계한 것이다. 필요한 데이터만 골라내는 통합처리요소(UPE) 모듈과 이를 빠르게 정리하는 단일사이클리듀서(SCR)모듈이다. 필요한 데이터만 신속히 추려낸 뒤 즉시 정리·집계해 전처리 시간을 줄이겠다는 접근이다. 정 교수는 "해당 알고리즘들은 원하는 데이터가 대략 어느 위치에 있는 지 미리 아는 특수한 접근법"이라고 설명했다.

정 교수는 인터넷 커뮤니티에서 흔히 거론되는 '유튜브 알고리즘'과는 다르다고 했다. 그는 “유튜브 추천은 사용자 행동을 기반으로 추론하는 응용 소프트웨어에 가까운데, 오토GNN은 대상 간 관계를 그래프로 표현하는 데이터를 빠르게 처리하고 정리해주는 하드웨어를 만든 것"이라고 했다. 즉 다음 영상으로 넘어가는 추천 추론 자체가 아니라, 앞 단계의 그래프 처리·정리 부분을 빠르게 해주는 것이 연구의 포인트라는 의미다.
본 연구는 삼성미래기술육성사업단의 지원을 받았다. 논문은 지난 4일 호주 시드니에서 열린 컴퓨터 아키텍처 분야 국제학술대회 ‘IEEE HPCA 2026’에서 발표됐다.
최영총 기자 youngchoi@hankyung.com
‘오토GNN’…하드웨어 새로 설계해 데이터 처리 지연율 잡았다
국내 연구진이 특정 조건에서 엔비디아보다 빠른 처리 속도와 높은 에너지 효율을 보이는 필드프로그래머블게이트어레이(FPGA) 기반 가속기 개발에 성공했다. KAIST는 정명수 전기및전자공학부 교수 연구팀과 교원 창업기업인 파네시아가 GNN 추론 속도를 크게 높일 수 있는 FPGA 기반 가속기 ‘오토GNN’을 개발했다고 5일 발표했다.연구팀에 따르면 오토GNN은 서버급 인텔 CPU 대비 최대 9배, 엔비디아의 고성능 GPU인 RTX3090 대비 2.1배의 속도 향상을 달성했으며 에너지 소비를 3.3배 절감했다. FPGA는 상황에 따라 반도체 코어 구성을 원하는 대로 프로그래밍할 수 있는 로직 반도체(시스템 반도체)다.

그래프는 대상 간 연결 관계를 나타내는 개념이다. 개체를 나타내는 각 점(노드)들을 선으로 연결한 집합체로, 사람 간 관계나 분자 구조처럼 복잡한 현실 정보를 담는다. 그간 대부분의 머신러닝(ML) 알고리즘은 객체들 사이 관계가 규칙적이고 균일한 형태를 다루는 데 강점이 있었다. 이를 보완하기 위해 등장한 GNN은 노드와 간선의 속성을 학습해 그래프 전체를 예측했고, 추천 시스템과 소셜 네트워크 분석 등에서 높은 정확도를 보이면서 산학계에서 각광받았다.

연구팀에 따르면 GNN은 실제 시스템에 적용하기에 여전히 부족하다. 주된 이유는 높은 지연율로 인한 낮은 성능이다. 연구팀은 대규모 그래프 데이터셋을 검증한 결과, 전처리 과정이 전체 GNN 서비스 시간 중 90.8%를 차지한다고 했다.
GPU로 이런 복잡한 관계 구조를 정리하는 연산은 한계가 있다. 정 교수는 "기존 GPU는 사전처럼 단서(색인)를 통해 값을 찾아내는데, 관계를 기반으로 만든 그래프는 처음부터 일일이 탐색해야 하는 구조라 기존 GPU와는 맞지 않다"고 설명했다.
연구팀은 이를 해결하기 위해 GNN 처리 프로세스를 하드웨어 단계에서 새로 설계했다. 전처리에서 반복적으로 등장하는 두 가지 연산 알고리즘을 모듈 형태로 설계한 것이다. 필요한 데이터만 골라내는 통합처리요소(UPE) 모듈과 이를 빠르게 정리하는 단일사이클리듀서(SCR)모듈이다. 필요한 데이터만 신속히 추려낸 뒤 즉시 정리·집계해 전처리 시간을 줄이겠다는 접근이다. 정 교수는 "해당 알고리즘들은 원하는 데이터가 대략 어느 위치에 있는 지 미리 아는 특수한 접근법"이라고 설명했다.

전력 효율까지 개선, 그래프 변화에 맞춰 하드웨어도 ‘자동 재구성’
연구팀은 지연시간뿐 아니라 에너지 효율도 개선했다고 주장했다. 기존처럼 그래프를 일일이 따라가며 탐색하면 메모리 접근과 연산이 늘어 에너지가 크게 소모되는데, '어디에 뭐가 있는지'를 사전에 이해해 빠르게 탐색하도록 만들면 불필요한 작업이 줄어 전력 효율이 좋아진다는 설명이다.정 교수는 인터넷 커뮤니티에서 흔히 거론되는 '유튜브 알고리즘'과는 다르다고 했다. 그는 “유튜브 추천은 사용자 행동을 기반으로 추론하는 응용 소프트웨어에 가까운데, 오토GNN은 대상 간 관계를 그래프로 표현하는 데이터를 빠르게 처리하고 정리해주는 하드웨어를 만든 것"이라고 했다. 즉 다음 영상으로 넘어가는 추천 추론 자체가 아니라, 앞 단계의 그래프 처리·정리 부분을 빠르게 해주는 것이 연구의 포인트라는 의미다.
본 연구는 삼성미래기술육성사업단의 지원을 받았다. 논문은 지난 4일 호주 시드니에서 열린 컴퓨터 아키텍처 분야 국제학술대회 ‘IEEE HPCA 2026’에서 발표됐다.
최영총 기자 youngchoi@hankyung.com
관련뉴스








