주최=삼성언론재단‧한국언론학회‧한국기자협회
주제=로봇 저널리즘과 정보 서비스의 미래
일시=2019년 4월 23일(화) 오후 7시~8시 40분
장소=한국프레스센터 20층 국제회의장
강연=이준환 서울대 언론정보학과 교수

 

“끝내 SK는 극적인 역전승을 보여줬다. 오늘 경기의 결과 SK는 현재 3위(승률 0.563) 기록 중이다. 한편 KIA는 7연승에 저지당해 아까워했고 80번째 경기에서 52승 28패 0무를 기록 중이며 현재 1위(승률 0.650)이다. 팀은 21안타 6홈런 4볼넷 16타점 17득점으로 노력하는 모습을 보여줬다.”

로봇이 만든 프로야구 기사의 마지막 문단이다. 작성에 걸린 시간은 0.3초에서 1초 사이. SK 팬과 기아 팬을 위해 각각 다른 내용으로 전달하기도 한다. 증권, 재난, 선거 기사는 거의 실시간으로 뽑아낸다.

사람이 할 수 없는 일, 혹은 귀찮아하는 일을 빠르고 정확하게 해낸다! 서울대 이준환 교수가 4월 23일 삼성언론재단 강연회에서 소개한 로봇 저널리즘의 현주소다.

이 교수는 로봇 저널리즘을 “데이터의 수집부터 분석, 처리, 핵심내용 발견, 작성, 배포에 이르는 전 과정에 관여하며 자동으로 뉴스기사를 생성하는 분야”라고 설명했다. 여기서 로봇은 소프트웨어 알고리즘을 말한다.

연구팀은 2015년부터 한국 프로야구의 모든 경기를 분석해 뉴스를 제공했다. 증권기사는 2016년 파이낸셜뉴스를 통해 처음 선보였다. 2017년 19대 대선 때는 SBS와 함께 투‧개표율과 득표율을 실시간으로 전달했다. 2018년에는 지방선거 카드뉴스를 만들었다.

알고리즘은 대용량의 데이터를 빠르고 정확하게 처리한다. 이 교수는 “가까운 시일 내에 기자와 편집자보다 데이터 속의 유용한 정보를 빠르게 찾아낼 것”이라고 했다. 그러면서 미국 로스앤젤레스타임스의 지진봇(QuakeBot)을 예로 들었다.

지진봇은 지진이 발생했을 때 입수한 정보를 토대로 기사를 써야 할지, 말아야 할지를 자체적으로 판단하고 송고한다. 서버의 알고리즘이 미국 지질연구소의 이메일을 분석해 지진강도에 따라 뉴스 가치를 판단하고 기사를 홈페이지에 올린다.

같은 신문사의 살인사이트(homicide)도 소개했다. 총격사건 희생자의 정보를 재빠르게 정리해 스트레이트 기사를 만든다. 저장된 포맷에서 이름, 지역, 나이만 바꾸는 방식이다. 기자는 이를 토대로 보다 구체적이고 확장된 기사를 쓴다.

로봇 저널리즘의 첫 단계는 데이터 수집(Data Crawling)이다. 대상은 API, 공공데이터, 웹사이트 콘텐츠, 소셜미디어 등. 각각의 데이터는 독자구조를 가지므로 분석 가능한 형태로 바꿔야 한다. 야구에서는 프로야구 문자중계를 데이터로 사용하기도 한다.

두 번째는 이벤트 추출(Event Extraction)이다. 수집된 데이터에서 의미 있는 일을 찾는 과정이다. 사람이 관찰과 경험, 문화적 배경, 직관에 따라 판단하듯 알고리즘에게도 데이터를 해석하는 규칙이 필요하다.

세 번째는 키 이벤트 디텍션(Key Event Detection)이다. 더 중요한 이벤트가 무엇인지 찾아내는 단계. 다양한 수치를 활용해 평가절하된 투수나 타자를 찾거나, 팀의 승리에 선수가 미치는 영향이나 상황 별 기대득점을 통계적으로 산출한다.

네 번째는 무드 디텍션(Mood Detection)이다. 중요 이벤트를 묶어 사건을 바라보는, 즉 기사 분위기를 결정한다. 특정사건이 자주 발생하면 ‘과잉적 경향이 보인다’는 서술어를, 생소한 일이 발생하면 ‘놀랍게도’라는 수식어를 붙이는 식이다. 

마지막은 기사 생성(News Article Generation)이다. 분위기에 따라 추출된 중요 이벤트를 설명할 문장을 선택한다. 사람이 무언가를 학습하듯, 알고리즘도 상황에 적합한 문장을 학습하기 때문에 가능하다.

▲ 이준환 교수가 한국프레스센터의 국제회의장에서 강연하는 모습

개인화된 기사를 전송할 때, 애플워치 등 사용자 디바이스에 최적화해서 제공하는 기술도 확보했다. 하지만 아직 상용화되지는 않았다.

이 교수는 질의응답 대화형 에이전트도 언급했다. 모든 정보를 분절화해 입력하면 관련 질문을 했을 때 알맞은 답변을 하는 방식이다. 예를 들어 “OOO 어떻게 됐어?”라고 물으면 “며칠 전에 구속 됐잖아”라고 알려준다. 로봇이 만든 초안으로 기자가 완성하는 일도 가능하다.

문제는 기사 완성도. 이 교수는 아직 사람이 앞선다고 평가했다. 다만 정보량에 관한 점수는 로봇이 더 높았다는 동아일보의 보도를 소개하면서 로봇 저널리즘의 의미에 대해 설명했다.

먼저 저널리즘의 현주소. 정보가 폭발적으로 증가하고 빠른 속도로 확산돼 언론의 게이트키핑과 아젠다세팅 기능이 축소됐고 검증된 정보의 수집이 점점 더 어려워졌다.

필요한 내용을 정보의 바다에서 어떻게 찾아서 어떻게 전달해야 하나. 로봇 저널리즘의 가치는 이런 정보 서비스의 측면에서 고민해야 한다고 봤다.

“중요한 정보를 정확하고 빠르게, 개인적인 니즈를 고려해서 전달하고 단순한 일과의 효율적인 보완 수단으로서 인간 곁에 존재하는 것이 로봇 저널리즘의 가치다.”

이 교수는 로봇 저널리즘이 인간을 완전히 대체할 수는 없다고 했다. 동반자 역할에 머문다는 뜻이다. “인간의 통찰력을 대체할 수 있는 기술은 없다. 인공지능 변호사가 미국에 실제로 존재하지만, 인간을 도와줄 뿐 스스로 판단하지 않는다.”

강연이 끝나고 질의응답이 이어졌다. 기존 정보를 사람이 수용할만한 수준으로 가공하고 재배열해서 보여주는 기술이 전부일까. 주가의 상승과 하락을 예측해서 독자에게 도움을 주는 게 저널리즘의 중요한 소임 중 하나가 아니냐는 뜻이다.

이 교수는 “무에서 유를 창출해내고자 하는 노력은 있다. 다만 그것이 과연 유용할 것인가에 대해선 논란의 여지가 많다. 내부적으로는 그러지 않는 게 좋겠다고 판단했다”고 답했다.

한국 로봇 저널리즘의 가능성을 묻는 질문에는 연구의 선순환 구조를 만드는 게 우선이라고 했다.

“한국에는 연구에 쓸 데이터가 없고, 데이터를 처리할 수 있는 기계도 없다. 있는 기계로는 데이터를 한 번 입력하고 학습하는 데 1년이 걸린다. 이에 반해 구글 등 미국회사는 데이터를 많이 갖고 있고 학습시간이 빨라 경쟁이 어렵다.”

로봇 저널리즘이 악용되면 가짜뉴스로 이어지지 않을까. 이 교수는 “우려하는 부분이고 실제로 (가짜뉴스가) 엄청나게 생산될 것이다. 그렇다고 기술개발을 안 할 수는 없다. 정보의 진위 여부를 가려내려는 디지털 리터러시가 필요하다”고 했다.

저작권 문제에 대한 질문도 나왔다. 질문자는 최신 뉴스의 저작권을 미국은 강력하게 인정한다고 했다. 이교수도 공감했다. 지금도 데이터를 쓸 때 저작권자와 협의하지만 이런 과정이 일반화되려면 관련 법규를 정리해야 한다고 봤다.

“두루 쓰이는 10대 유행어 같은 건 문제가 안 되겠지만, 특정 기자의 표현이나 문장을 가져다 쓰면 문제가 된다. 제도적‧법적 장치를 마련해야 한다. 사람(기자)이 본 건 저작권에 저촉이 안 되고, 알고리즘이 본 건 되느냐에 대한 답도 내려야 한다.”

 

 

 

 

저작권자 © 스토리오브서울 무단전재 및 재배포 금지