2012. 6. 9. 09:27ㆍC.E.O 경영 자료
집단지성으로 과학의 비밀을 풀다
시사INLive 윤신영 입력 2012.04.19 10:02
웹을 바탕으로 한 최근의 집단지성 프로젝트('위키백과'가 대표적이다)에는 공통점이 있다. 바로 대용량 데이터와 관련이 깊다는 사실이다. 오늘날의 대용량 데이터는 그 자체로 새로운 현상이다. 데이터의 생산 속도가 과거와는 비교할 수 없을 정도로 빨라졌다. 소수의 사람이 활용해 의미 있는 결과물을 낳을 수 있는 수준을 넘어섰다.
자발적이고 개방적인 집단지성이 위력을 발휘한 것이 이 대목이다. 모두가 조금씩 개미처럼 참여해 지식을 모으고 구조화하고 검증한다. 틀린 내용을 찾으면 새로운 것으로 교체한다. 이 과정이 실시간으로 이뤄진다. 개인은 자기 능력만큼만 일하지만, 결과는 전 지구적·전 인류적인 거대 지식체계다.
푸에르토리코 아레시보에 있는 전파망원경. 외계의 전파를 수신한다. |
과학이 이런 흐름에 동참한 것은 어쩌면 당연하다. 다른 어떤 분야보다 대용량 데이터가 많이 만들어지고 있기 때문이다. 특히 과학은 전문가와 비전문가의 활동 영역이 유난히 갈리는 분야이다. 과학 연구에서 집단지성을 활용하려면 필연적으로 비전문가(시민)의 연구 참여도 늘 수밖에 없다. 즉 시민과학을 활성화시키는 효과가 있다. 지금까지 어떤 시민과학 프로젝트가 있었으며, '백인천 프로젝트'는 이들과 어떤 점이 같고 다른지 살펴보자.
■ 외계인 찾는 컴퓨터 '세티(SETI)'
잘 알려진 '외계인 찾기' 연구. '만약 외계에 지적 생명체가 존재하고 19세기 말 이후의 지구 정도로 문명이 발달했다면 반드시 인공적인 전파를 우주로 내보낼 것'이라는 가정 아래 우주전파를 수집해 분석한다. 수집한 전파 데이터 속에서 의도성을 지닌 것으로 해석 가능한 전파를 찾으면 외계 지적 생명체의 존재를 간접으로 증명할 수 있다.
이 작업은 해변의 모래 속에서 병뚜껑 하나 찾는 일로 비유할 수 있을 만큼 데이터가 많다. 해결 방법은 성능 좋은 슈퍼컴퓨터를 이용하는 것인데, 연구 성과에 비해 비용이 너무 들어 미국에서도 정부 지원을 끊은 상태다. 현재는 대학과 민간 연구소를 중심으로 연구가 이어지고 있다.
부족한 컴퓨터 자원은 인터넷에 연결된 다수의 사용자 컴퓨터를 빌려 분산컴퓨팅으로 해결하는데, 이것이 미국 버클리 대학의 '세티앳홈(SETI@HOME)' 프로젝트다. 사용자가 화면보호기 프로그램을 설치해두면 컴퓨터가 쉴 때 데이터 일부를 계산한다. 그래서 연구에 직접 참여한다기보다는 자원을 제공한다는 표현이 맞다.
■ 단백질 구조 규명 게임 '폴딧(Foldit)'
2008년 미국 워싱턴 대학 데이비드 베커 교수팀이 개발한 온라인 게임이다. 단백질의 구조는 아미노산 서열과 주변 환경(물의 산성도나 온도 등) 사이의 관계에 따라 결정된다. 그런데 이 요소가 조합될 경우의 수는 무수히 많다. 이를 일일이 계산해 3차원 구조를 파악하려면 컴퓨터 성능이 높아야 한다.
사용자들이 아미노산 사슬을 풀어 단백질 구조를 파악하는 '폴딧' 게임. |
그래서 분산컴퓨팅 기술을 도입했다. 아미노산 사슬을 웹에 공개해두고 사용자가 들어와 게임처럼 풀도록 한다. 높은 점수가 나온 구조들이 실제 구조와 비슷할 가능성이 높다. 이들을 추려 엑스선 관측 자료와 비교하면 쉽게 구조를 찾을 수 있다.
실제로 이 프로그램을 이용해 단백질 구조를 풀어 저명한 저널에 논문이 실린 사례가 심심치 않게 나오고 있다. 지난해 9월18일 학술지 < 네이처 구조 및 분자 생물학 > 에는 원숭이에게 에이즈를 일으키는 바이러스의 효소 구조를 규명했다. 시민이 구조 규명에 직접 참여한다는 점에서 세티보다 능동적이다.
■ 분산컴퓨팅으로 물리학의 비밀을: '그리드(Grid)'와 'e-사이언스'
세계에서 가장 많은 연구 데이터가 생성되는 곳은 입자물리학 실험장치다. 유럽 입자물리연구소(CERN)의 거대강입자가속기(LHC)는 양성자나 중이온을 충돌시키는 실험을 하는데, 한 해에 130억MB나 되는 데이터가 생긴다.
이 데이터를 분석할 컴퓨터를 한곳에서 운영하기란 현실적으로 불가능하다. 이 때문에 CERN은 2000년대 초반부터 데이터를 분산하기 위한 연구망을 건설했다. 현재 34개국에 있는 20만 개 CPU를 이용해 계산 중이며, 참여하는 과학자도 수천 명에 이른다.
이 연구망을 '그리드', 연구 방식을 'e-사이언스'라고 한다. e-사이언스와 그리드는 대용량 데이터를 과학 연구에서 본격적으로 분산컴퓨팅과 협업, 그리고 집단지성을 활용해 처리하는 예다. 하지만 전문 과학자가 주로 참여한다는 점에서 시민의 참여가 주를 이루는 세티나 폴딧과는 다르다.
ⓒReuter=Newsis 유럽 입자물리연구소의 거대강입자가속기. |
■ 시민의 관찰로 구축한 생태계 정보
국제자연보전연맹(IUCN)이나 야생동물보호기금(WWF)은 매년 신종 생물을 발표하고 멸종위기 생물에 대한 보고서('적색목록')를 만든다. 또 멸종 위기에 빠진 지역종들을 조사해 그 등급을 매긴다. 이 일을 하기 위해 수많은 생태 전문가가 필요할 것 같지만 실제로는 그렇지 않다. 일부 전문가(생물학자)가 비전문가(시민)와 공동으로 조사해도 충분하기 때문이다.
일본 규슈 구마모토 대학 생명과학과는 매년 시민들을 모집해 간단한 교육을 한 뒤, 함께 갯벌에 나가 갯벌 생물종 조사를 한다. 조사 결과는 WWF 공식 보고서에 실릴 정도로 정확성과 전문성을 인정받는다. 인근 가시마 시는 야생조류동호회 회원들이 매년 새의 개체수를 조사하고 있다. 현장조사가 중요한 생태학에서 시민들의 참여와 연구는 날로 중요성을 더한다.
■ 은하 직접 분류하는 '우주동물원'
생물뿐 아니라 천문학도 일반인들의 집단지성을 기다린다. 은하는 형태에 따라 여러 가지 다른 종류로 분류된다. 그런데 하늘에는 무수히 많은 은하가 있고, 지금까지 관측된 은하의 수도 만만치 않다. 이것을 하나하나 분류하는 작업은 천문학자들이 감당하기 어려울 정도로 오래 걸리는 일이다.
이에 2007년 7월, 은하 사진을 웹사이트에 공개한 뒤 사람들이 들어와 직접 분류 작업을 할 수 있는 시스템을 만들었다. '우주동물원(Galaxy Zoo)'이라는 이름이 붙은 이 프로젝트는 2009년 '우주동물원2', 2010년 '우주동물원: 허블'이라는 후속 프로젝트로 이어졌다.
■ 스스로 데이터를 모으고 연구 방향도 정한 '백인천 프로젝트'
이제까지의 시민과학 프로젝트는 전체 연구 방향을 정하거나 이끌 수 없었다. 일손이 많이 필요한 비교적 단순한 작업이 주였다. 하지만 이런 한계를 극복한 또 하나의 실험이 '백인천 프로젝트'다.
막연한 주제('굴드의 연구를 한국 데이터로 다시 해본다')와 소재('한국 프로야구 30년 데이터')만을 가지고 모인 뒤, 연구 데이터 수집부터 확인·분석까지 모두 자발적으로 수행했다. 연구 주제도 데이터를 가공해가면서 거기에서 나온 결과를 바탕으로 설정했다. 이는 대용량 데이터 시대의 새로운 과학 연구 패러다임이 된 '데이터 기반 연구'를 떠오르게 한다.
물론 연구에 사용된 야구 데이터는 투수·타자 합해서 28만 개 항목에 불과(!)해 오늘날의 기준으로 빅 데이터는 아니다. 또 첫 연구 결과가 완벽하지 않을 수도 있다. 하지만 벌써 다음 연구 주제를 정하는 움직임이 내부에서 나오는 중이다. 자율적인 참여와 공유가 또 다른 참여와 공유를 불러 제2, 제3의 백인천 프로젝트를 낳고 있다. 차별화된 또 하나의 시민과학 프로젝트라고 볼 수 있을 것 같다.
윤신영 ( < 과학동아 > 기자) /
'C.E.O 경영 자료' 카테고리의 다른 글
1g에 7경 1200조원씩이나! 세상에서 가장 비싼 물질 16가지 (0) | 2012.06.12 |
---|---|
우리에게 최고의 행복을 안겨주는 것은 (0) | 2012.06.11 |
인간에게서 빼앗아 갈 수 없는 한 가지 (0) | 2012.06.08 |
하루 아침에 성공을 거두는 방법 (0) | 2012.06.07 |
코스닥 2세 경영자들, 나이도 어린데 실력이… (0) | 2012.06.06 |