코스피
5,487.24
(96.01
1.72%)
코스닥
1,152.96
(4.56
0.40%)
버튼
가상화폐 시세 관련기사 보기
정보제공 : 빗썸 닫기

'미세먼지 농도' 예측…어떤 데이터가 쓸모 있나

입력 2022-11-13 18:09   수정 2022-11-14 00:44

마지막으로 해볼 인공지능(AI) 모델링은 ‘미세먼지 수치 예측’이다. 주어진 데이터는 측정 일자의 평균 온도와 습도, 미세먼지 농도, 초미세먼지 농도, 이산화탄소(CO2) 농도, 소음, 유해가스 농도, 쾌적지수, 그리고 다음날(D+1) 미세먼지 평균 농도 등이다.

맞혀야 하는 D+1 미세먼지 농도가 레이블(label), 그 외의 정보는 피처(feature)다. 쓸모 있는 데이터와 그렇지 않은 데이터를 가려내기 위해 에이아이두 이지(AIDU ez)를 실행하고 데이터 분석에 나섰다.

‘기초 정보 분석’ 탭에서 항목별 데이터를 보면 결과에 영향을 주지 않는 데이터를 볼 수 있다. 행 번호를 기록한 인덱스와 모두 동일한 값을 보여주는 장치 서비스 ID, 하나의 값이 대다수를 차지하는 장치 모델명 등이 대표적이다. 평균 CO2 농도는 전체 2만 개 데이터 중 98.6%의 값이 ‘0’이라는 사실도 알 수 있다. 이 같은 데이터를 AI에 학습시키면 예측의 정확도를 떨어뜨릴 수 있으니 삭제한다.

다음으로 할 일은 값이 없는 데이터, 결측값을 채우는 일이다. 측정 범위와 평균 온도 데이터는 각각 300여 개의 결측값이 존재한다. ‘데이터 가공’ 탭에서 손쉽게 결측값을 입력할 수 있다. 측정 범위는 최빈값을, 평균 온도는 평균값을 선택했다.

데이터 전처리를 마쳤다면 AI 모델 학습을 시작할 차례다. 필요 없는 인덱스, 장비, CO2 등의 데이터는 피처에서 제외했다. 장소 코드 데이터의 유형은 숫자형(numerical)에서 범주형(category)으로 바꿔야 한다. 숫자형으로 두면 AI가 학습 과정에서 숫자 크기에 따른 가중치를 줄 수 있어서다.

D+1 미세먼지 농도를 아웃풋 데이터로 옮겨놓고 ‘학습 시작’을 누르면 AI 모델이 만들어진다. 변수 영향도를 확인한 결과 평균 쾌적지수가 다음날 미세먼지 농도에 가장 큰 영향을 미친다는 사실을 확인할 수 있다. AI 모델에 새로운 데이터를 입력하면 다음날 미세먼지 농도를 예측할 수 있다.

앞서 배운 타이타닉 생존자 예측 문제는 생존과 사망 가운데 하나를 예측하는 ‘분류(classification)’에 해당한다. 미세먼지 예측은 구체적인 수치를 맞히는 ‘회귀(regression)’ 문제로 볼 수 있다. 분류와 회귀는 머신러닝 방식 가운데 정답을 주고 AI를 학습시키는 ‘지도 학습’의 대표적인 유형이다. 제1회 AICE 정기시험에서 도 분류와 회귀에 관한 문제가 하나씩 출제됐다.

이승우 기자 leeswoo@hankyung.com


관련뉴스

    top
    • 마이핀
    • 와우캐시
    • 고객센터
    • 페이스 북
    • 유튜브
    • 카카오페이지

    마이핀

    와우캐시

    와우넷에서 실제 현금과
    동일하게 사용되는 사이버머니
    캐시충전
    서비스 상품
    월정액 서비스
    GOLD 한국경제 TV 실시간 방송
    GOLD PLUS 골드서비스 + VOD 주식강좌
    파트너 방송 파트너방송 + 녹화방송 + 회원전용게시판
    +SMS증권정보 + 골드플러스 서비스

    고객센터

    강연회·행사 더보기

    7일간 등록된 일정이 없습니다.

    이벤트

    7일간 등록된 일정이 없습니다.

    공지사항 더보기

    open
    핀(구독)!