2011년 8월 4일, 영국 토트넘에서 흑인 남성 마크 더건(Mark Duggan)이 사망했다. 경찰이 쏜 두 발의 총알 탓이라고 가디언은 보도했다. 같은 기사에서 경찰은 그가 총을 꺼내 어쩔 수 없었다고 설명했다.(1년 뒤 거짓으로 밝혀진다.) 하지만 네 아이의 아빠였던 마크의 사망에 사람들은 분노했다. 가디언은 그 바탕에 일상이 된 불심검문이 자리했다고 분석했다. 8월 6일부터 유족들과 지인들은 경찰의 과잉대응에 항의하는 집회를 열었다. 분개한 시민들이 합류했다. 시위 규모는 하루가 다르게 커졌다. 런던 북부 토트넘에서 버밍엄과 리버풀, 브리스틀 등 인근 도시로 확대됐다.

그 규모만큼 경찰의 대응은 강경해졌다. 경찰이 방패를 들면, 시위대는 돌을 던졌다. 시위대의 폭력에 경찰은 진압으로 맞섰다. 긴장의 악순환 속에서 시위는 폭동으로 변했다. 시위대는 토트넘 상점가를 약탈하고 방화했다. 매일 불타는 건물과 차량 사진이 가디언 1면에 실렸다. 마크 더건의 사망 사건 이후 2주일 만에 3,100여 명이 체포됐다. 이 사건을 오늘날 ‘2011년 영국 폭동’이라고 부르는 이유다.

당시 데이비드 캐머런 총리는 “범죄조직이 사건의 배후에 있다”고 주장했다. 폭동의 상흔이 큰 탓에 동조하는 목소리가 나왔다. 하지만 가디언은 주장보다 증거가 중요하다고 판단했다. 가디언은 시민들과 시위 참가자들의 목소리를 직접 들었다. 바로 <폭동을 읽어내다(Reading the Riots)> 프로젝트다. 이 기사의 결과부터 말하자면 캐머런 총리의 말은 거짓이었다. 영국 폭동의 진짜 배경은 ‘누적됐던 경찰에 대한 적의’, ‘복지정책 축소로 인해 누적됐던 빈곤계층의 폭발’이었다.

▲ Reading the Riots 프로젝트.

 

이런 진실을 밝히는데 기여한 한 축이 가디언 데이터 저널리즘 팀이었다. 특히 데이터 저널리즘의 선구자라고 불리는 사이먼 로저스(Simon Rogers)의 역할이 컸다. 당시 가디언의 기자였던 그가 2009년 처음 데이터 저널리즘을 시도하면서 주창했던 것이 ‘오픈 데이터 저널리즘(Open Data Journalism)’이기 때문이다. 그와 데이터 저널리즘 팀은 이 프로젝트로 2013년에 열린 제1회 데이터 저널리즘 어워드 데이터시각화·스토리텔링 부문 상을 수상했다. 제1회 데이터 저널리즘 어워드는 글로벌 에디터 네트워크와 구글이 주최했다.

 

주장보다 증거가 중요하다

<Reading the Riots>에서 로저스가 접근했던 영역은 크게 세 가지였다. 우선 트위터에 공유됐던 당시 시위상황 정보 270만 건의 내용을 분석했다. 시위 중 주요 사건이 발생한 지역 정보를 공개해 독자가 해당 위치에서 목격했던 정보를 직접 입력할 수 있도록 했다. 끝으로 시위가 발생한 지역과 시위 참가자들의 거주 지역을 분석했다.

이전까지 언론의 트위터 분석은 사람들이 자주 쓰는 단어를 집계하는 수준이었다. 좀 더 발전한 형태가 어떤 계정이 이슈 확산을 주도했는지 살펴보는 방법이었다. 로저스는 이런 방식이 문제의 본질을 이해하는 데 한계가 있다고 판단했다. 그는 6편의 온라인 기사에 걸쳐 영국 폭동과 관련한 트위터 속 루머가 어떻게 퍼지고 또 반박되는지를 짚었다. 로저스는 “그들이 몇 살인지, 일은 하고 있는지, 어디에서 왔는지 등을 알고자 했다”고 말했다.

우선 사실과 루머를 구분하기 위해 독자들이 참여한 목격자 정보와 경찰의 수사 정보를 종합했다. 이를 바탕으로 원그래프를 만들었다. 루머는 붉은색 원으로, 반박은 초록색 원으로, 의문 제기는 노란색 원으로 표시했다.

예를 들어 ‘경찰이 폭동 진압을 위해 탱크를 동원했다’는 루머를 붉은색 원으로 표시했다. 파란색 선으로 연결된 초록색 원에는 ‘현장에서 탱크를 본 적이 없다’는 반박이 있다. 그리고 최초에 크기가 컸던 붉은 색 원은 초록색 원의 등장과 함께 시간이 지나며 작아진다. SNS에서도 자정 작용이 있었고, 폭동이 가짜뉴스 탓만은 아니라는 사실을 명징하게 보여준 사례였다.

▲ <Reading the Riots>의 인터랙티브 차트

177건의 관련 연속보도를 온라인과 지면에 이어갔다. 그 결과 폭동의 배경이 빈곤이라는 사실도 로저스는 데이터 저널리즘으로 밝혀냈다. 먼저 영국 폭동의 시위가 발생한 지점, 시위 참가자들의 거주 지역을 표시했다. 그리고 지역별 소득을 가난할수록 붉은색으로, 부유할수록 파란색으로 그린 지도와 대조했다. 결과는 명확했다. 시위가 발생한 지점, 시위 참가자들의 거주 지역은 붉은색 영역 위에 뭉쳐져 있었다. 당시 캐머런 총리가 주도했던 복지정책 축소의 결과라는 결론을 내릴 수 있었다.

로저스는 이 프로젝트를 데이터 저널리즘에 대해 의문을 갖고 있던 편집국의 분위기를 바꾼 변곡점 중 하나로 꼽았다. 그는 2013년 연합뉴스와의 인터뷰에서 “2010년 위키리크스 보도와 2011년 영국 폭동보도, 2012년 런던 올림픽 보도 이후에 사람들이 열광하기 시작했다”고 말했다. 자연스레 독자의 피드백도 활발해졌다.

기자가 모든 데이터에 전문가가 될 수는 없다

비록 그 평가가 빛을 발하기까지는 시간이 걸렸지만, 사이먼 로저스가 시작한 가디언의 ‘데이터 블로그(Data Blog)’는 늘 독자의 참여를 유도했다. 데이터 블로그에 2009년 3월 9일 게재한 첫 게시물 <영국 성인과 아동의 비만(Obesity among British adults and children)>부터 그랬다. 이 게시물에는 기사는 없고, 데이터에 대한 짧은 설명만 있다. 대신 ‘비만’ 관련 데이터 세트(Data Set)를 제공하고, 독자의 아이디어를 구했다.

최근까지도 데이터 블로그의 주요 게시물은 이런 데이터세트들이다. 이는 로저스가 인터뷰마다 독자와의 협업을 강조한 것과 같은 맥락이다. 그는 2013년 한국 디지털 전문매체 블로터와의 인터뷰에서 “기자가 모든 데이터에 대해 전문가가 될 수는 없기 때문에 데이터를 공개하고 해당 데이터의 전문가가 분석과 기사 작성 과정에 참여할 수 있도록 만드는 것”이 데이터 저널리즘의 핵심이라고 말했다.

물론 절대 다수의 독자 대부분은 데이터 블로그의 데이터세트를 직접 분석해보지 않았다. 로저스의 표현을 빌리자면 독자는 데이터를 살피기에 너무 바빴다. 로저스는 데이터를 공개하는 방식을 단순 공개에서 ‘재가공’하는 것으로 전환했다. 2010년 보도된 <위키리크스의 아프가니스탄 전쟁 기록들 : 우리 데이터 저널리즘의 작업 방식(Wikileaks' Afghanistan war logs: how our datajournalism operation worked)>가 대표적이다. 위키리크스가 공개한 아프가니스탄 전쟁 관련 정보를 다룬 기사였다.

위키리크스의 자료를 분석한 기사에서 로저스는 기사분량의 약 40%를 데이터를 어떻게 접근하고 분석했는지를 설명하는데 썼다. 급조 폭발물(IED, Improvised explosive device) 테러가 발생한 지점을 제시하고, 바로 그 아래에는 함께 작업을 진행한 시민단체에 대한 정보가 따라붙는 식이었다. 분석 과정에 활용된 가공데이터도 모두 공개하고 있다. 독자의 이해를 돕기 위해 자료를 정리하면서도, 자의적 해석을 경계하기 위해서였다.

▲ <Wikileaks' Afghanistan war logs>의 인터랙티브 차트

그는 이런 과정이 더 좋은 데이터를 모으기 위해서 반드시 필요하다고 주장했다. 더불어 독자가 제시한 데이터가 맞는지를 검증하기 위해서도, 더 많이 공개해야 한다고 말했다. 그는 “지금도 엄청난 정보가 돌아다니고 있다. 데이터 저널리스트는 그 중에서 어떤 정보를 정리해 보여줄지를 선택하면 된다”며 “당연히 정보가 많이 공개되면 공개될수록 옳은 정보를 얻을 확률도 높다”고 말했다.

팥소 없는 찐빵, 한국식 데이터 저널리즘

로저스의 데이터 저널리즘이 성과를 거두면서, 그의 콘텐츠 형태를 재현하는 사례가 늘어났다. 대표적 사례가 가디언의 <Olympics 2012: the alternative medals table(올림픽 2012 : 대안 순위표)> 기사다. 이 기사는 메달 수로 줄 세우는 기존의 올림픽 순위에 의문을 던졌다. 그는 국가별 GDP나 팀 규모 등을 토대로 메달의 가치를 재평가해 새로운 순위표를 제시했다. 기존의 순위에서는 미국이 1등이지만, 인구 당 메달 수로 따지면 그레나다가 1등이었다.

이 기사가 보도된 후 다른 언론에서도 경쟁적으로 종교, 복지비용, 군사비용 등을 바탕으로 한 다양한 대안 메달 순위표를 만들었다. 국내 언론에서도 유사한 기사를 다뤘다. 2018년 평창동계올림픽 당시 중앙일보 데이터 저널리즘 팀에서 제작한 ‘평창올림픽 최장신ㆍ최단신 종목은?’과 같이 종목별, 선수별 세부 분석 기사도 등장했다.

▲ 중앙일보 평창올림픽 데이터저널리즘 기사

이밖에도 그가 활용한 구글 스프레드시트, 맵핑(Mapping) 작업은 데이터 저널리즘의 기본처럼 쓰였다. 하지만 정작 사이먼이 강조했던 원 데이터를 독자에게 공개해, 협업을 시도하는 일에는 소홀했다. 한국에서 데이터 저널리즘 팀을 운영하는 주류 언론 KBS와 SBS, YTN, 중앙일보, 한국경제 모두 각각 수십 건의 보도를 이어오고 있지만 원 데이터를 공개하는 경우는 드물다. SBS의 친일파 명단의 경우 이미 공개돼있던 정부의 친일인명사전 자료를 그대로 제공하고 있을 뿐이고, 뉴스타파의 ‘파나마 페이퍼 보도’ 역시 국제 탐사기자협회의 자료를 가공 없이 링크해놓았다.

<신문과 방송> 2018년 4월호 ‘한국 데이터 저널리즘 중간점검’에는 현 상황에 대한 진단과 과제가 제시돼있다. 이 글을 쓴 한국경제 데이터저널리즘 담당 강종구 기자는 데이터 공개가 잘 이뤄지는 쿼츠(Quartz), 파이브서티에이트(fivethirtyeight), 프로퍼블리카(Pro Publica)는 “데이터를 서비스하는 일 자체에서 저널리즘의 가치를 창출하고 있다”며 “이는 데이터 수집 단계부터 체계적으로 공개를 염두에 둬야만 가능한 일”이라고 말했다.

하지만 이런 체계가 없는 한국식 데이터 저널리즘은 데이터의 투명성 문제는 차치하더라도, 현실적으로 지속가능성이 없다고 진단했다. 데이터 저널리즘에 필요한 시간과 비용은 긴 데 비해, 뉴스가 된다는 보장이 없기 때문이다. 이 때문에 현재의 구조 안에서는 각 언론사가 입수하는 개개의 데이터마다 시간과 비용을 투입할수록, 데이터 저널리즘 생태계가 소진되는 것은 자연스럽다고 강 기자는 주장했다.

데이터를 공개해야 다양한 저널리즘이 가능하다

한국식 데이터 저널리즘의 미래 역시 로저스가 2013년 가디언을 떠난 뒤 보인 행보에서 그 답을 찾을 수 있다. 로저스는 2013년 5월부터 트위터(Twitter)에서 데이터 에디터로 일했다. 트위터 안에서 발생하는 수많은 트윗을 시각화해 공개하는 리버브(Reverb)라는 데이터 시각화 도구 개발에 참여했다. 기자들이 트위터에서 더 다양한 목소리를 듣고, 기사에 반영할 수 있도록 돕기 위해서였다.

로저스는 이후 2015년부터 구글 뉴스랩 에디터로 일하고 있다. 현재 그는 구글 뉴스랩에서 무료로 제공하는 데이터 시각화 도구를 개발하는 일을 하고 있다. VR차트까지 구현할 수 있는 플러리쉬(Flourish)가 대표적이다. 이 일 역시 기자들이 쉽게 데이터 시각화 도구를 배우고, 독자들에게 더 다양한 방식으로 데이터를 공개하는 것을 돕기 위해서다.

▲플러리쉬 활용 사례

곽효원(충남대 4학년) 씨는 지난 4월 구글 본사를 방문해 로저스와 인터뷰했다. 곽 씨는 블로터가 주최하고 구글 코리아가 후원한 넥스트 저널리즘 스쿨(Next journalism school) 4기 우승자다. 그는 “로저스와 만나서 제일 많이 들었던 단어가 쉽다(easy)와 시각화(visualization), 그리고 공개(open)였다”며 “여전히 그가 믿는 데이터 저널리즘의 바탕은 더 많은 기자가 더 적극적으로 독자에게 정보를 공개하고 신뢰를 쌓는 일이었다”고 말했다.

실제로 로저스는 2014년 그의 개인 블로그에, 데이터를 공개하는 일이 “저널리즘인가?”라는 질문에 답한 바 있다. 그는 “우선 누가 이런 질문에 신경을 쓰겠나”라며 “그저 경쟁자들이 가능한 한 오래 이런 논쟁을 하길 바랄 뿐”이라고 말했다. 그러면서도 로저스는 데이터 저널리즘이 앞으로 데이터를 공개하고, 이를 통해 협업을 확대할 때 궁극적으로 다양한 기사를 만들어낼 수 있다고 주장했다. 무엇보다 이런 작업이 독자의 관심을 끄는 데 도움이 된다는 게 그의 생각이다. 그저 데이터를 다루는 기사에서, 관련 이야기로, 또 지역의 이슈로 나아가 탐사보도의 기반이 될 수 있기 때문이다.

로저스가 이야기하는 데이터 저널리즘이 한국에서도 구현될 수 있을지도 개인 블로그에 로저스가 2012년 TEDx 강연내용으로 갈음할 수 있다. “기자들이 아름다운 글을 전하기 위해 세상과 단절할 수 있는 시대는 다행히도 또 정말로 사라졌다. 많은 데이터가 존재하고, 무료 소프트웨어가 있다. 그 어느 때보다 데이터 저널리즘을 구현하기 쉬운 시대다. 단지 기자가 그 길을 밝히는 몫만 남아있다.”

 

 

 

 

 

저작권자 © 스토리오브서울 무단전재 및 재배포 금지