유전학까지…통계는 정말 의미가 있는가 빅데이터 혁명, 천문학에서

대규모 식단추적 데이터 분석·동물 이동 생태학 빅데이터 성과 데이터 과잉이 가져온 우연 확률치는 5%로 과학 신뢰성이 낮아

올해 초 네이처는 대규모 식단 추적 데이터는 음식 환경과 식단 간 다른 연관성을 보여준다는 논문을 소개했다. 이번 연구는 106만4926명을 대상으로 마이피트니스팔(MuFitness Pal) 앱을 통해 평균 197일간 23억개의 식품 항목을 조사했다. 대상과 항목 측면에서 이 연구는 미국 내 최대 규모의 빅데이터 연구였다.

빅데이터가 데이터 과잉으로 비판을 받고 있다. 무작위 데이터 추출과 연관성 찾기는 과연 얼마나 통계적으로 유의미한 것일까. 사진=픽사베이

그 결과 패스트푸드에 대한 접근성이 낮고 식료품점에서 신선한 과일과 야채에 대한 접근성이 높을수록 과체중의 영향을 적게 받는 것으로 나타났다. 높은 소득과 교육도 관련이 있었다. 이 같은 연관성은 우편번호를 통해 집계한 히스패닉, 흑인 인구밀집지역에서 더 우세해졌다. 식이요인은 세계적으로 심혈관질환, 제2형 당뇨병, 암과 같은 사망과 만성질환 위험에 크게 기여한다. 이번 연구결과는 주거와 식환경, 사회경제적 요소가 식단에 큰 영향을 미칠 것임을 암시한다. 이전의 연구 결과는 작은 표본에 의해 각각 혼합된 결과를 보였다.

디지털 대전환 시대에 빅데이터는 더욱 각광받고 있다. 지난달 29일 <포브스>는 ‘데이터 탐색이 더 나은 비즈니스 성과 창출의 핵심이 이유’라는 칼럼을 게재했다. 이에 따르면 2025년까지 직원의 거의 70%가 업무에서 데이터를 매우 많이 사용할 것으로 예측된다. 빅데이터 분석에는 데이터 캡처, 데이터 저장·분석, 검색, 공유, 전송, 시각화, 쿼리(정보 요청), 업데이트, 개인정보 보호, 데이터 소스 등이 있다. 빅데이터 처리·분석을 위해서는 수백 혹은 수천 대의 서버에서 실행되는 대규모 병렬 소프트웨어가 필요하다. 세계 1인당 정보 저장 용량은 1980년대 이후 40개월마다 약 2배씩 증가했다. 2025년까지 전 세계 데이터량은 163제타바이트(163X1조1000억 기가바이트)의 데이터가 있을 것으로 예상된다.

빅데이터가 나타내는 동물 이동 생태학

최근 <사이언스>는 ‘빅데이터가 동물 이동 생태학에 대한 이해를 높인다’는 논문을 공개했다. 빅데이터는 천문학에서 유전학에 이르기까지 연구 분야에 혁명을 가져왔다. 이번 연구결과는 동물이 환경을 어떻게 이용해 상호작용하는지 빅데이터 분석을 통해 알려준다. 빅데이터를 통한 연구방법론의 변화는 생물종 전반에 걸쳐 연구와 보존에 대한 새로운 길을 열 것이다. 대규모 고해상도 데이터셋은 야생동물 추적 시스템을 효율적으로 자동화해 줄 것이다.

예를 들어 역GPS 기술은 20g짜리 새 등 여러 작은 동물을 동시에 추적할 수 있는 자동화된 고해상도 시스템이다. 역GPS 기술은 1초 간격, 수m를 수개월에 걸쳐 수중 음향 신호와 육상 무선 신호를 사용한다. 다만 시스템 설치가 필요하며 대개 지역 규모 폭 100킬로미터로 제한된다. 반대로 GPS 기반 시스템은 쉽고 오래 이용할 수 있어 전 지구적인 규모를 커버할 수 있다. 역GPS 기술과 마찬가지로 공간적으로 정확하고 지역 규모로 주기적으로 고해상도 추적이 가능하다. 그러나 더 많은 비용과 전력이 필요하고 더 큰 동물만 추적 가능하며 수중에서는 적용할 수 없다. 레이더와 컴퓨터 비전(vision)일에 이용한 추적 기술도 여러 개체의 이동에 대한 고해상도 스냅샷을 만들어낼 수 있다. 또 이 두 기술은 추적장치(tag)가 없는 동물을 비침습적으로 추적할 수 있게 해준다. 하지만 비용 효율이 낮고 일반적으로 소규모로 제한돼 개별적인 식별을 어렵게 한다.

빅 무브먼트 데이터(Bigmovement data)는 개체별 변화를 행동, 특성, 인지 및 생리와 연결하는 데 도움을 준다. 고해상도 데이터는 보다 대담한 새들이 경관을 가로질러 더 많은 곳을 방문한다는 것을 알려준다. 대담한 새는 그리 대담하지 않은 새와 새로운 발자국이 자주 교차해 질병 전파 가능성이 높다. 또한 물고기는 어업을 피하고 작은 범위(patch) 내에서 자주 국지적으로 탐색하는 것을 알 수 있다. 그러나 이 같은 결론 모두 저해상도 데이터에서는 도출하지 못했다.

고용량 추적 데이터는 멸종 위기에 처한 유럽장어(Anguillaanguilla)가 하류로 이동하는 동안 음향 삼각 측량법으로 관측됐다. 유럽 뱀장어는 댐 인근에서 유속의 급격한 변동에 직면했을 때 빠른 행동 변화를 보였다. 이는 실험으로 유도한 것이다. 유럽 뱀장어의 행동 변화는 긴 간격을 두고 샘플링할 때 감지할 수 없었던 움직임이다.

빅데이터를 활용한 국제적 협력도 활발하다. 예를 들어 캐나다 노바스코샤 주에 있는 다르하우 지대에 있는 해양 추적 네트워크가 있다. 이곳은 물고기의 이동 패턴을 연구하기 위해 이식된 음향 송신기를 사용한다. 또 유럽추적네트워크는 유럽 전역의 수생생물을 추적해 더욱 이해하고 보호 관리하려 한다. 여기서는 원격 측정(telemetry)을 이용하여 수생종의 생태 및 이동 형태를 조사한다. 아울러, ‘북극동물운동기록보관소’는 1987년부터 현재까지 247개 연구, 1만 3800마리 동물에 대한 4700만개 이상의 위치를 기록하고 있다. 이곳은 북극과 북극 근처의 동물 이동과 동물 매개 센서 데이터를 축적하고 있다. 이런 데이터는 기후변화와 생물 다양성 보전을 위해 중요하다.

나쁜 빅데이터가 신뢰를 뒤흔들다

하지만 빅데이터에 대해 통계적 오류가 지적되기도 한다. 지난달 26일 <워싱턴포스트>는 “당신은 과학을 믿습니까? 나쁜 빅데이터 연구는 당신의 신뢰를 뒤흔들 수 있다는 소식을 전했다. 과학혁명의 초석은 무작위로 통제된 실험으로 데이터를 사용해 주장을 검증해야 한다는 이상적인 주장에 놓여 있다. 그 이상은 통계적으로 얼마나 의미 있는 결과를 양산할까.

17세기 스웨덴에서 커피는 큰 인기를 끌었지만 불법이었다. 당시 스웨덴의 왕이었던 구스타프 3세는 커피가 사람을 천천히 죽이는 독이라고 간주했다. 그는 이를 증명하기 위해 현명한 실험을 고안했다. 참수를 기다리고 있는 살인자의 쌍둥이 형제를 감형한 것이다. 대신 형제 중 한 명은 매일 커피를 마시게 했다. 다른 형제는 매일 차를 세 병 마시도록 했다. 그 결과 커피를 마시던 형제 중 한 명이 오래 살았다. 하지만 스웨덴은 1820년대에 계속 마신 커피를 결국 법적으로 인정하지 않았다. 구스타프 3세의 실험은 성별 연령 유전자 등의 영향력을 제거한 것으로 유명하다. 쌍둥이 형제 2명만으로 통계적으로 설득력 있는 결과를 이끌어내기에는 무리가 있었다.

오늘의 문제는 데이터의 부족이 아니라 과잉이다. 데이터의 과잉으로 과학의 신뢰성이 손상된다. 행운은 무작위 시험에 내재되어 있다. 통계적으로 유의미한 결과라도 우연히 의지한 경우도 있다. 의학에서 일부 환자는 더 건강해질 수 있다. 농업연구로 일부 토양은 더 비옥해질 수 있다. 교육 연구에서 학생들은 더 많은 학습에 집중할 수 있다. 연구자들은 결과가 우연히 발생할 확률값을 계산한다. 낮은 확률값은 우연히 발생한 행운을 역추적할 수 없음을 의미한다.

데이터는 실은 모두 난수(randomnumber)이다. 난수란 다음에 나올 수를 예측할 수 없는 수열이다. 연구자들은 수백 개의 변수 간 상관관계를 계산하는데 평균적으로 20개의 연관성 중 1개 정도(5%)만 통계적으로 유의미하다. 나머지 연관성은 우연의 일치일 뿐이다. 통계적 유의성을 위한 무작위 검색은 바로 데이터 마이닝이다. 난수와 마찬가지로 무작위로 선택된 변수와 독립 변수(irrelevantvariables)와의 관계에서 통계적으로 유의미한 확률은 5%이다. 따라서 연구자들은 통계적 유의성을 위해 더 많은 테스트를 실행하고 더 많은 의미 없는 결과를 보고해야 한다. 결국 통계적으로 유의미하다는 이유만으로 우연에 의해 발생한 연관성이 좋은 저널에 게재된다.

스탠퍼드대 존 이오아니디스 교수(예방의학)가 이끄는 연구팀은 34개의 매우 저명한 의학연구를 연구 재현하려 했다. 하지만 20개만 가능했다. 또 연구팀은 주요 심리학 저널에 발표된 97건의 연구를 재현하려 했으나 35건의 연구만 확인됐다. 실험경제학 분야에서는 주요 경제저널에 보고된 18개 실증연구 중 11개 연구만 확인됐다. 더 많은 데이터가 더 많은 지식을 가져올까. 그러나 측정되고 기록되는 것의 수가 폭발적으로 늘어나면 유사(pseudo) 통계적 관계를 부풀려 우리를 속이는 경우가 많다.

#빅데이터 #빅데이터 #빅데이터의한계 #김재호SF #sciencefollow #데이터 #디지털대전환 #디지털

[김재호의 SF 빅데이터 한계] 디지털 대전환 시대에 빅데이터는 더욱 각광받고 있다. 지난달 29일에는 ‘데이터 탐색이 더 나은 비즈니스 성과 창출의 핵심이 이유’라는 칼럼을 게재했다. 이거에 따르면 20…www.kyosu.net

error: Content is protected !!