Programming/Data

1. 데이터 저널리즘은 왜 마법이 아닌가?

리버김 2022. 8. 24.

(이 글은 미국 Knight Center의 강의 'Data Visualization with free tools'의 번역 포스팅 시리즈 중의 하나다. 목차 링크: )

 

 이 챕터에서는 먼저 데이터를 찾고, 다운로드 하는 법을 배운다. 그리고 나서 그 데이터를 정제하고, 탐험하고, 변형하고, 시각화하고 또 그것을 기반으로 이야기를 만드는 일을 할 것이다.

 

 이는 꽤 많은 일이 될 것이다. 적어도 많은 일인 것처럼 들린다. 그리고 교수로서 내가 경험한 바로는 학생들이 데이터 저널리즘을 하는 데 요구되는 스킬과 전문성에 다소 압도되는 것처럼 보였다. 데이터 저널리즘, 통계, 코딩, 도구 사용법 배우기, 개념과 원칙들, 자원 다루기, 전문가들과 상담하기, 통계 전문가들과 데이터 과학자들과 대화하기 등 이 모든 것들에 말이다.

 

 그러나 여기서 내 목표는 단지 여러분들에게 시작은 그렇게 어렵지 않다고 말해주는 것이다. 데이터 저널리즘과 데이터 시각화에 대한 여러분의 흥미를 이끌어내기 위해, 이것들을 시작하는 것이 얼마나 쉬운지를 보여주는 몇가지 예시를 보여드리겠다. 2006년, 한스 로슬링 교수는 한 유명한 TED 강연을 진행했다. 국제적인 건강 문제에 관한 데이터 관련 내용이었다. 그는 세계 여러 나라들의 기대 수명부터 사망률, 영아 사망률 등을 비교했다. 그는 전 세계의 인구 관련 통계의 몇몇 패턴들에 대해 이야기했는데, 여기서 그는 수많은 아름다운 인터랙티브하고 애니메이션 요소가 있는 시각화 자료들을 대중들에게 선보였다.

 

https://youtu.be/hVimVzgtD6w

이 챕터에서 나의 목표는 로슬링 교수가 강의에서 사용한 것과 같은 시각화를 오늘날 만들어내는 것이 얼마나 쉬운 것인지를 알려주는 것이다. 로슬링 교수의 웹사이트는 이곳이다.

 

Gapminder

 

Gapminder

 

www.gapminder.org

 

 웹사이트의 영상 메뉴에서 여러분은 그가 수 년 간 했던 강의들을 볼 수 있을 것이다. 또, 그가 발표에서 사용한 데이터들을 다운로드할 수도 있다. 실제로 2006년 발표에서 그가 실제 사용했거나 그와 매우 유사한 데이터셋을 다운로드받을 수 있었다. 이 데이터셋에는 나라 이름이 담긴 한 개의 컬럼이 있다. 또 다른 하나의 컬럼은 대륙의 이름이, 또 다른 하나의 컬럼은 연도가 적혀 있다. 그리고 이어서 각 나라의 출산율, 기대수명 그리고 인구수가 있다.

 

 내가 사용할 시각화 툴은 로슬링 교수가 그의 유명한 발표에서 사용했던 것과 매우 유사한 것이다. 나는 여러분들이 이 코스에서 배울 도구 중 하나인 ‘Flourish’를 사용할 것이다.

 

Flourish | Data Visualization & Storytelling

 

Flourish | Data Visualization & Storytelling

Beautiful, easy data visualization and storytelling

flourish.studio

 

 Flourish를 사용하고 싶다면 이 강의를 따라할 필요는 없다. 그냥 Flourish에 로그인하고 시작하라. 무료이다. 나는 이 과정을 미리 끝내 나의 프로필을 생성해 놓았다. 먼저 ‘new visualization’으로 가서 국제 건강에 대한 나만의 한스 로슬링 시각화를 만들어보자. 그리고 나는 데이터 시각화의 기초적인 방법 중 하나인 scatter plot(산점도)를 만들 것이다. 산점도를 클릭한 후 ‘data’를 클릭해 ‘GapminderDATA_MOOC’라는 이름의 데이터를 import 해오도록 하자. 그러면 이제 시각화할 준비가 끝났다.

 

 첫째로, 나는 Flourish에게 무엇을 만들건지, x축에 무엇을 만들건지를 알려줘야 한다. 따라서 나는 나라별 출산율을 x축에 넣으려고 한다. 컬럼 번호인 ‘D’를 입력한다. y축에는 기대 수명을 넣을 것이기 때문에 컬럼명 ‘E’를 입력한다. ‘Name’에는 각 나라의 이름이 들어갈 것이기 때문에 컬럼 ‘A’가 된다. Color. 나는 이 점들이 대륙 별로 색칠되길 바라기 때문에 컬럼 ‘B’를 입력한다. 버블의 크기는 나라의 인구수에 비례해야 한다. 때문에 컬럼 ‘F’를 입력한다. 모양은 바꾸지 않는다. 스크롤해 내려가서 ‘Time’ 컬럼을 찾는다. 여기서 시간은 연도이기 때문에 컬럼 ‘C’를 입력한다. 마지막으로 버블의 크기를 더 크게 조정한다.

 

 만약 여기까지 잘 따라오지 못했다고 하더라도 걱정할 필요 없다. 이 강좌 동안 배우게 될 것이다.

놀라운 것은 우리의 결과물이 한스 로슬링 교수의 유명한 발표에서 사용된 시각화와 거의 같은 것이라는 사실이다. 여러분은 대부분의 나라가 좌측 상단에 위치한 것을 볼 수 있다. 이것은 대부분의 나라가 매우 높은 기대 수명과 매우 낮은 출산율을 보이고 있다는 것을 말해준다. 이것이 데이터 저널리즘의 힘이며, 데이터 시각화의 힘이다. 또 이것은 데이터 저널리즘의 세계에서 첫 발을 내딛는 것이 얼마나 쉬운 지를 보여준다.

 

Photo by Bruno Souza on Unsplash

'Programming > Data' 카테고리의 다른 글

'Data Journalism and Visualization with Free Tools' 번역  (0) 2022.08.24

댓글