DATACASE 데이터케이스리뷰

데이터케이스리뷰

코로나 데이터 분석과 AI
별5 

 

데이터케이스 Review

​2020.3.9

 

올해 초는 코로나19 바이러스로 전 세계가 시끄러운 요즘입니다. 모든 사람들이 이 위기가 빨리 지나가길 바라겠지만 중국-한국-일본을 거쳐 이제는 전 세계로 퍼져 나가는 바이러스들 때문에 이 사태가 글로벌 전체로 번지지 않을까 예상됩니다. 아무래도 빨리 끝날 것 같진 않네요. 이 와중에 문득, 반가운 기사 한 건이 눈에 들어옵니다.

 

즉, 한국의 한 연구팀이 코로나19를 사전에 예측할 수 있는 데이터세트를 전 세계로 배포하겠다는 것입니다. 기사를 한번 들여다보아야겠네요. 전 세계 최고 실력자들이 AI를 통한 데이터 과학기술 능력을 발휘하는 플랫폼인 캐글이라는 곳이 있습니다. 아래 기사 제목처럼 AI 고수들의 전쟁터(?)라고도 불리네요....

암튼, 전 세계 글로벌로 수많은 AI 고수들의 각축장에 정작, 대한민국의 고수들은 별로 보이지 않는다는 기사입니다.  이 기사의 내용처럼 날아다는다는 고수들 속에서 정작 한국의 데이터 과학자들이 안보인다는 이야기입니다. 아직 참여를 하지 않을 뿐, 한국의 실력자들이 각종 경연에서 곧 두각을 나타내겠죠?

 

다시 본론으로 돌아가서, 지금 벌어지고 있는 비상사태를 예측하기 위한 데이터셋을 한국의 대학원 한 연구진이 캐글에 보란듯이 올려놓았다는 사실은 그만큼 한국의 데이터과학의 발전 가능성을 보여주는 것이겠죠? 여기서 주목할 부분을 살펴봅시다.

첫 번째 기사내용을 살펴보면, 먼저 '기계학습'이란 용어가 등장합니다. 다른 용어로 '머신러닝'이라고도 하는데, 기계가 직접 데이터를 학습함으로써 그 속에 숨겨진 데이터의 규칙성을 찾는 것을 의미합니다. 즉, 현상에서 놓여진 각종 데이터를 통해 컴퓨터가 학습을 통해 새로운 데이터를 만들고 평가하면 그것을 우리가 활용하게 되는 것이죠. 요즘 우리가 누리고 있는 AI(인공지능) 기술의 한 분야라고 보시면 되겠습니다.

중요한 것은 한국의 이 연구진이 기계학습을 통해 코로나19의 패턴을 찾으려고 한 것입니다. 아마도 전 세계적으로 발병이 먼저 된 부분도 있겠지만 기준이나 체계가 전무한 상태에서 데이터셋을 개발하였다는 것은 일정한 패턴을 위한 분석모델링에 성공했다는 것을 증명해보이고 있는 것입니다.

질병관리본부와 공공기관, 지방자치단체 등에서부터 나오는 자료들을 재가공하여 1차로 데이터셋을 개발한 것으로 보이며 10명이 데이터 세팅작업에 동참하고 있다고 합니다. 아무래도 우리가 정부기관이나 언론에서 얻을 수 있는 데이터는 제약이 있고 한계가 있습니다. 단순한 예로 확진자를 예측하기 위해서는 활동지역, 환자특성, 감염경로, 방문장소, 사회적 네트워크, 직업, 감염차수 등 수많은 변수들을 고려해야 합니다.

이들 변수들을 모두 고려하여 데이터 코딩을 가능하게 하였을 것이고 이러한 데이터셋을 캐글에 올리게 되면 수많은 참여자들이 아이디어를 공유하여 보다 정확한 코로나 발병 예측모델을 AI기술로 완성할 수 있을 것입니다. 즉, 역학조사와 데이터 분석기술이 결합된다면 그 시너지 효과는 매우 클 것입니다.

사실 현재 언론에서는 확진자 수와 지역, 검사자 수 위주로만 발표를 하고 있어서 그 속에 어떤 데이터의 특성들이 숨어 있을지는 아무도 모릅니다. 대구지역 검사자 수가 표본이라면, 전국 지역의 표본은 대구 지역 표본과는 또 다른 특성들이 숨어 있을 가능성이 크고 결국 이러한 다양한 지역적 특성들 속에서 일정한 패턴들을 찾으려면 결고 쉬운 과정은 아닐 수 있습니다.

기사내용에서는 기계학습(머신러닝)이 대체로 회귀분석과 분류분석으로 이루어진다고 소개하고 있습니다. 회귀분석은 다양한 변수들이 어떤 특정한 변수에 미치는 영향을 분석하는 방법이고 분류분석은 어떤 특성을 기준으로 분류하여 분석하는 방법입니다.

사실, 기계학습에서는 이들 두 방법 외에 보다 다양한 방법론들이 제시되고 있습니다. 두 변수의 상관성을 분석하는 관계분석부터, 다양한 데이터 분석결과를 시각화 할 수 있는 데이터시각화, 텍스트로서 어떤 관련성을 분석하는 텍스트마이닝, 사회적인 관계나 변수의 다양한 관계를 분석할 수 있는 네트워크분석과 인공신경망 분석 등 다양한 방법론들이 존재합니다. 즉, 코로나19 발병을 예측할 수 있는 방법은 무수히 많을 수 있다는 것입니다. 이 연구팀이 정말 멋진 예측모델을 계속해서 발전시켜 나갈 수 있었으면 좋겠습니다.

By 데이터케이스 코칭그룹

manager@datacase.co.kr

www.datacase.co.kr