고동의 데이터 분석

[분석] 데이터를 접할 때 우리가 갖춰야 할 몇 가지 자세

by 소라고동_

이번 포스팅은 '숫자는 거짓말을 한다'라는 책을 읽고 생각한 부분을 정리한 글입니다.


0. 들어가며

요즘의 우리는 유투브, 뉴스, 책, 인터넷 등 다양한 매체로부터 정말 쉽게 데이터와 차트들을 접하게 됩니다.

그리고 이러한 데이터와 차트를 접하면 우리는 어째서인지 그 정보가 믿을 수 있는 정보라고 여기는 경향이 있습니다.

특히 단순 수치보다 데이터가 정리된 표나 그래프로 시각화된 차트의 경우는 이러한 경향이 더욱 심하죠.

 

그런데 우리가 데이터를 읽는 방법, 차트를 바라보는 방법에 대해 배워본 적이 있는지 생각해 보니 그럴 기회가 거의 없었다는 생각이 들었습니다. (배우신 분도 당연히 있겠지만 저는 배운적이 없더라고요!)

 

그래서 이번 글에서는 데이터를 받아들일 때 어떠한 자세를 취하면 좋을지에 대해서 이야기해보려 합니다.

 

 


1. 데이터란?

완전 처음으로 돌아가서 데이터란 무엇인지를 먼저 생각해 봅시다.

우리가 지겹도록 듣는 데이터,,, 이 데이터가 가지는 의의가 뭘까요?

아마도 '데이터는 요약된 수치로 또는 대푯값으로 어떠한 현상을 쉽고 간편하게 설명하기 위한 도구가 아닐까?' 싶습니다.

그래서 우리는 이 데이터라는 객관적인 도구는 효율적인 의사결정에 도움을 줄 수 있는 믿을만한 도구라고 생각을 하죠.

 

그런데 사실 데이터라는 것은 예쁘게 정리되어 있는 경우가 잘 없는데요.

우리가 접하는 데이터들은 대부분 지저분하게 널려있는 Raw Data를 누군가가 원하는 형태로 가공한 모습의 데이터입니다.

가공된 데이터를 보여주는 방법을 크게 나눠보면 아래와 같은 2가지 방법으로 나눠볼 수 있습니다.

 

1.1. 수치로 나타내는 데이터 표

데이터를 표로 나타내는 방법은 흩어져있는 데이터를 집계 기준에 따라 집계하고 그 값(=지표)을 표에 채워 넣는 방법입니다.

아래의 간단한 예시는 출생연도별로 중학교 2학년 시기의 평균 IQ를 나타내고 있는 표입니다.

각 출생연도의 사람들의 IQ를 하나의 대푯값(=평균)으로 나타내어 정보를 한눈에 전달하고 있죠.

예시 데이터 - 표

늘 생각해야 할 부분은 위의 표에서 출생연도별로 하나의 대푯값을 보여주고 있지만 저 대표값 안에는 많은 정보(= 개인별 중학교 2학년 시점의 IQ)가 녹아져 있다는 것을 염두에 두는 것이 좋습니다.

 

 

1.2. 그래프로 나타내는 데이터 시각화 차트

데이터를 시각화하여 차트로 나타내는 방법은 데이터의 분포나 추세를 더욱 쉽게 바라볼 수 있게 해 줍니다. 

아래의 그래프는 위의 표에 있는 데이터들을 시각화한 차트입니다.

시각화 예시 - 주의!!! 잘못된 차트임

확실히 표로 데이터를 확인할 때 보다 추세를 쉽게 파악할 수 있음을 알 수 있네요.

마찬가지로 저 하나하나의 막대에는 많은 데이터가 녹아져 있다는 것을 생각하며 그래프를 바라보는 것이 좋습니다.

 

이렇게 데이터를 표나 차트로 나타내는 것은 데이터 전달을 도와주는 유용한 방법입니다.

하지만 앞서 언급했듯 많은 데이터가 녹아져 만들어진 대푯값들은 데이터 해석에 있어 왜곡 및 편향을 만들어낼 수 있다는 단점이 있습니다.

특히 시각화된 차트의 경우 뭔가 더 그럴싸하게 보이기 때문에 차트의 내용이 더욱 쉽게 진실인 것처럼 받아들이는 경향이 있습니다.

 

이러한 이유로 우리는 데이터를 바라보는 방법을 익힐 필요가 있는데요.

데이터를 접할 때 우리가 취해야 할 몇 가지 자세에 대해 이야기해 보겠습니다.

 

 


2. 데이터를 대하는 자세

위에서 언급했듯 우리는 데이터를 읽어내는 방법을 배워볼 필요가 있습니다.

'숫자는 거짓말을 한다' 책에서는 이를 도해력이라는 단어로 표현하는데요.

책의 내용 전체를 다루지는 못하겠지만 읽으면서 조심하면 좋겠다고 생각되는 부분들을 정리해 보겠습니다.

 

우선 그전에 아래의 데이터와 차트를 살펴보시죠!

최근에 우연히 보게 된 데이터와 해석이었는데 데이터가 재미있어서 한 번 가져와봤습니다.


< 출생연도별 중학교 2학년의 평균 IQ >

우리나라 사람들의 출생연도별 중학교 2학년 IQ 점수를 살펴봤을 때, 출생연도가 최근일수록 IQ 점수가 점차 낮아지고 있음을 확인할 수 있다.
이는 유년기 시절 독서 및 활동적인 시간이 적어지고 영상 및 미디어에 사용하는 시간이 많아져 떨어진 것으로 보인다.
아이들에게 수동적인 정보 습득이 아닌 스스로 생각을 하고 움직이는 시간을 늘려야 할 필요가 있다.

 

차트를 살펴보면 1995년생에 비해 2005년의 IQ 점수가 2.9점이 떨어진 것으로 보이는데요.

확실히 차트로 살펴보면 점차적으로 IQ 점수가 낮아짐을 확인할 수 있죠.

 

이를 시각화하여 표현하면 더욱 뚜렷하게 확인할 수 있습니다.

그래프로 살펴보니 출생연도에 따라 평균 IQ 값이 뚝 떨어지는 것처럼 보이네요.

유년기 시절에 독서와 밖에서 뛰어노는 시간을 늘려서 건강한 사고방식과 IQ 점수를 다시 높일 필요가 있어 보입니다.


 

위 데이터와 해석을 봤을 때 어떤 생각이 드셨나요?

별생각 없이 그렇구나 하며 정보를 받아들이셨나요? 아니면 어떠한 의구심이 들었나요?

 

사실 저 데이터는 제가 이 글을 작성하면서 제 마.음.대.로. 작성한 수치들입니다.

내 맘이야~

 

그런데 뭔가 그럴싸하지 않나요? (아니라면 이미 제대로 데이터를 바라보고 계실지도 모르겠네요~!)

그럴싸하게 느껴졌다면 지금부터 제가 작성하는 내용이 도움이 되실지도 모르겠습니다.

위 예시를 통해 우리가 데이터를 접했을 때 가져야 할 태도들에 대해서 살펴보시죠.

 

 

2.1. 데이터 신뢰도 (= 차트를 구성한 데이터의 출처는 어디인가?)

이 데이터에 들어간 수치는 어디서 어떻게 수집이 된 거지?

위 질문은 우리가 데이터를 접하게 될 때 가장 먼저 습관적으로 확인해야 하는 부분이라고 생각합니다.

위 예시에서도 표와 차트 그 어디에서도 데이터의 출처를 알아낼 수 없는데요. (사실... '출처 = 내 머릿속')

그런 경우라면 일단 그 데이터를 믿지 않는 것이 좋다고 생각합니다.

 

제가 저 위의데이터를 마음대로 끄적여본 뒤 실제로 IQ에 대한 정보를 찾아봤습니다.

출생연도별 IQ 에 대한 정보는 없고 국가별로 IQ 차이를 보여주는 정보는 있더라고요

위 자료를 보면 리처드 린 홈페이지에서 가져온 자료라고 적혀있네요.

저렇게 출처가 적혀있으니 정확한 정보이겠네! 하며 받아들일 수 있는데요. 

사실 출처를 적어놓았더라도 출처가 낯설다면 해당 출처로 들어가서 직접 확인을 해보는 것이 좋습니다.

 

그래서 저 페이지의 링크로 들어가 봤는데, 접속이 안되더라고요?

그래서 저는 저 정보를 아직도 의심하고 있습니다.

어디에 가서 당당하게 '우리나라는 세계 2위로 IQ 가 높은 국가야!'라고 확신에 찬 이야기를 하지 않는다는 것이죠.

 

저 정보를 활용하려면 리처드 린이라는 사람이 누구인지, 저 사람은 이 값을 어떻게 집계했는지 등을 알아본 뒤 값을 받아들여야 합니다.

(찾아보니 리처드 린이라는 사람은 교수인데 IQ가 높을수록 경제력이 높아진다는 주장을 반박하는 논문을 썼고 그 논문에 활용한 자료라고 하네요.)

 

아무튼 데이터 신뢰도를 확인하기 위해 아래와 같은 프로세스를 거치는 것이 좋습니다.

< 데이터 신뢰도를 확인해 보는 과정 >
1. 이 데이터/차트를 구성한 값의 출처는 어디지?
2. 이 출처는 믿을만한 곳인가?

 

 

2.2. 데이터 수집 및 집계 기준 확인하기

만약 데이터 신뢰도를 확인하는 과정을 거쳐서 이 출처가 믿을만한 곳이라는 것을 확인했다면 그 값을 그대로 믿으면 될까요?

아쉽지만 그래서는 안됩니다.

우리는 한 단계 더 나아가서 '이 출처에서는 어떻게 데이터를 수집하고 집계했을까?'라는 생각을 해야 합니다.

 

제 머릿속에서 나온 데이터를 예시로 상황을 가정해 보겠습니다. (그저 예시를 위한 가정이니 보고 잊으시면 됩니다.)

(상황 - 가정)
1995년 출생자들의 경우엔 비교적 교육 환경이 좋은 지역에서만 IQ테스트를 진행했었지만,
시간이 지나면서 IQ테스트가 보편화되어 전국의 모든 학생들이 IQ 테스트를 하게 되었다.

위 상황이라면 데이터 수집이 애초에 동질한 집단에서 이루어지지 않았음을 생각할 수 있습니다.

1995년 출생자들의 데이터들은 교육 환경이 좋은 지역의 데이터만 수집되어 있고, 2005년 출생자들에 가까울수록 모든 학생들의 데이터가 수집된 것이죠.

그렇다 보니 1995년 출생자의 IQ가 높게 집계되고 2005년 출생자의 IQ가 비교적 낮게 집계된 것일지도 모릅니다.

 

즉, 우리는 데이터를 접했을 때 해당 데이터가 어떤 기준에 따라 수집되고 집계되었는지를 확인해야 합니다.

 

 

 

2.3. 인지편향 주의하기

만약 제가 IQ에 대한 정보를 접했을 때 평소에도 이러한 생각을 하고 있었다고 생각해 봅시다.

요즘애들은 놀이터에서 뛰어놀지도 않고 맨날 유튜브나 틱톡 같은 걸 보니깐 스스로 사고하는 능력이 점점 떨어질 것 같은데?

(실제로 그런 생각을 한다는 건 아님 주의!)

 

이 생각을 하고 있었는데 출생연도에 따른 IQ 데이터를 접했다고 생각해 봅시다.

그러면 어떤 생각이 들까요? 

'어라? 내 생각과 같은 정보잖아? 역시.. 애들은 밖에서 뛰어놀면서 커야 하는데 큰일이다.'라는 생각을 하며 저 정보를 쉽게 믿어버립니다.

 

즉, 우리는 심리적으로 자신의 주장을 뒷받침할 수 있는 정보들을 접했을 때 해당 정보를 쉽게 믿게 되는 경향이 있습니다.

하지만 이 부분을 우리는 조심해야 합니다.

실제로 출생 연도에 따라 IQ 가 떨어지는 추세가 있다면 다행이지만, 만약 그렇지 않다면 전혀 다른 정보를 사실인 것 마냥 생각하게 되기 때문이죠.

 

그렇기 때문에 우리는 어떠한 정보를 접했을 때 중립의 자세를 가지고 접근해야 합니다.

< 잘못된 생각의 과정 >
- 오? 출생연도에 따라 IQ가 이렇게 다르다고? 심지어 점점 떨어지고 있네!
- 역시 내 생각이 맞았네!

< 중립의 자세를 갖춘 생각의 흐름 >
- 오? 출생연도에 따라 IQ가 이렇게 다르다고? 심지어 점점 떨어지고 있네!
- 그런데 이 데이터를 믿을 수 있는 건가? (중립을 지키며 신뢰성 확인)
- 이 데이터의 출처가 어디지?
- 이 출처는 믿을만한가?
- 데이터의 수집 기준과 집계 기준이 어떻게 되는 거지? (집계 기준 확인)

 

 

2.4. 여러 지표를 함께 살펴보기

만약에 제가 적었던 IQ 데이터가 실제이고 명확한 출처에서 제대로 된 수집/집계 기준을 반영해서 나온 값이라고 가정해 봅시다.

이렇게 가정한 상황에서 제가 적은 멘트를 함께 살펴보면 이런 부분을 발견할 수 있습니다.

이는 유년기 시절 독서 및 활동적인 시간이 적어지고 영상 및 미디어에 사용하는 시간이 많아져 떨어진 것으로 보인다.
아이들에게 수동적인 정보 습득이 아닌 스스로 생각을 하고 움직이는 시간을 늘려야 할 필요가 있다.

(이것도 그냥 제 머릿속에서 생각나는 대로 적어본 내용입니다.)

 

그런데 데이터가 제대로 된 값이라고 저렇게 해석을 할 수 있는 것일까요?

IQ에 영향을 미치는 요소는 교육 수준, 경제력, 환경 등 다양하게 존재할 수 있습니다.

 

그렇기 때문에 우리는 어떠한 데이터를 통해 인사이트를 만들어내기 위해서는 다양한 지표를 함께 확인해야 합니다.

예시 데이터를 생각해 본다면 IQ 테스트를 하게 된 학생들의 수를 함께 살펴보거나, 지역별 IQ테스트 결과를 살펴보는 등 데이터를 다방면으로 살펴볼 필요가 있습니다.

그리고 어떠한 대푯값만을 확인하는 것이 아닌 분포 전체를 확인하는 것도 방법이 되겠죠.

 

이러한 방식으로 데이터를 바라본 좋은 예시가 있어 첨부합니다.

해당 링크의 '지표 분해' 부분에서 임차권 등기 명령 부분을 보시면 하나의 지표만 보지 않고 여러 지표와 함께 보면 데이터를 살펴보는 것을 확인할 수 있습니다.

 

이렇듯 우리는 데이터를 해석할 때 여러 지표를 함께 살펴보는 습관을 가질 필요가 있습니다.

< 생각의 흐름 >
- 오? 출생연도에 따라 IQ가 이렇게 다르다고? 심지어 점점 떨어지고 있네!
- 그런데 이 데이터를 믿을 수 있는건가? (중립을 지키며 신뢰성 확인)
- 이 데이터의 출처가 어디지?
- 이 출처는 믿을만한가?
- 이 데이터의 수집 기준과 집계 기준이 어떻게 되는거지? (집계 기준 확인)
- 그런데 이 지표만 살펴보고서 이렇게 해석을 할 수 있는건가? 
- 다른 지표와 함께 살펴보면서 판단을 해야겠다.

 

 

2.5. 분포를 생각하기 (이분법적으로 받아들이지 않기)

만약 예시 데이터가 사실이고 여러 지표를 확인했을 때에도 아래와 같은 해석이 올바른 해석이라고 가정해봅시다.

이는 유년기 시절 독서 및 활동적인 시간이 적어지고 영상 및 미디어에 사용하는 시간이 많아져 떨어진 것으로 보인다.
아이들에게 수동적인 정보 습득이 아닌 스스로 생각을 하고 움직이는 시간을 늘려야할 필요가 있다.

 

그렇다면 이 해석을 받아들일 때 '와 요즘 애들은 IQ 가 떨어지는구나..' 라고 해석해도 될까요?

당연히 그렇지 않겠죠. 

 

평균적으로 저러한 추세를 가진다는 것이지 당연히 동일한 출생연도 안에서도 높은 IQ 를 가진 학생과 낮은 IQ 를 가진 학생이 나뉩니다.

저 대표값만 살펴보고 이분법적으로 판단을 하는 것은 너무나도 적은 데이터(대표값)만을 가지고 결론을 내려버리는 것이죠.

 

이런 이분법적인 판단을 보여주는 아주 간단한 예시가 있죠.

위의 사진의 '요즘 젊음 사람들은' 이라는 부분을 생각해보면 알 수 있듯,

최근에 'MZ들은 다 저래?', 'MZ라서 그런가봐'하며 어떠한 세대를 하나로 묶어버리면서 일반화해버리는 경우가 많았습니다.

하지만 동일한 세대 안에서도 사람에 따라 당연히 다른 생각과 행동을 하기 때문에 너무 이분법적으로만 판단하는 것은 문제가 있죠.

 

이렇듯 데이터를 해석할 때 이분법적인 해석이 아닌 '이러한 경향이 있더라'라는 정도로 해석을 하는 것이 좋다고 생각이 됩니다.

 

 

2.6. 차트의 축 살펴보기

제가 예시로 그렸던 그래프를 살펴보면 출생연도가 최근으로 올수록 IQ가 뚝뚝 떨어지는 것 처럼 보일 수 있는데요.

사실 저 차트는 완전히 엉터리 차트입니다.

막대 그래프의 축이 0이 아닌 102 에서 시작하기 때문이죠 (더 극단적으로 만들고 싶어서 100도 아닌 102로 설정한 악질 그래프..)

그래서 사실은 아래의 그래프 중 오른쪽 형태의 그래프가 그려지는게 맞습니다.

(왼) 잘못 그려진 엉터리 차트 / (오) 제대로 그려진 차트

제대로 그려진 그래프를 보면 사실 IQ가 그렇게 극적으로 감소하고 있는 것 처럼 보이진 않습니다.

그러니 막대그래프에서는 축의 시작점을 잘 확인해야 합니다.

 

하지만 무조건 축이 0부터 시작해야 하는 법칙이 있는 것은 아닌데요.

만약 IQ 테스트의 최저점수가 70 점이라면 축의 시작을 70점 정도 부터 표현할 수도 있겠죠.

70점 아래의 값은 절대 나오지 않는 값이니깐요.

이렇게 축의 시작을 70점으로 했을 때 (만약 테스트 최저 점수가 70점이라면) 보다 변화가 잘 보이면서 축의 시작점은 합리적인 나쁘지 않은 차트를 그릴 수 있습니다.

 

 

2.7. 지표 변화가 가지는 영향력 확인하기

그런데 우리가 데이터를 확인하고 해석을 할 때 근본적으로 질문하게 되는 내용이 있습니다.

저렇게 수치가 변화한 것이 얼마나 큰 영향이 있는건데?

 

경제학에서는 '한계 (Marginal)'라는 개념이 있는데요.

이는 독립변수가 한 단위가 바뀔 때 종속변수가 얼마나 영향을 미치는지를 의미하는 값입니다.

이러한 개념처럼 우리는 이 지표의 변화가 어떠한 종속변수에 얼마나 영향을 미치는지를 생각해야합니다.

 

예를 들어 '우리나라의 합계출산율이 0.68 을 기록했다' 라는 데이터를 봤다고 합시다.

우리는 '이 수치가 낮은건 알겠는데 뭐 얼마나 심각한거야?' 라는 의문을 가질 수 있죠.

그래서 이 수치의 영향력을 파악하기 위해 합계출산율이 인구수에 얼마나 영향을 미치는지를 살펴봐야합니다.

출처 :&nbsp;https://www.sisain.co.kr/news/articleView.html?idxno=51890

위 사진의 내용처럼 '합계 출산율이 0.7 이다 => 세대가 지날수록 인구수가 기하급수적으로 줄어든다.'라는 의미로 지표를 해석해야 합니다.

이렇게 지표가 해석되면 이 지표의 변화를 심각하게 받아들여야할지, 가볍게 넘겨도 될지를 판단할 수 있게 되죠.

(여담이지만 위 사진의 내용을 담고있는 해당 기사를 읽어보시는걸 추천합니다! 데이터를 접하고 해석하는 일련의 과정을 잘 담고있는 것 같아요!)

 

즉, 어떠한 지표의 변화를 마주했을 때 이 지표의 변화가 가지는 의미가 무엇인지를 생각해보는 것이 중요합니다.

 

 


3. 끝맺으며

이렇게 데이터를 접했을 때 우리가 취하면 좋을 자세들에 대해서 이야기를 해봤습니다.

사실 저도 이 글을 작성하면서 '이렇게까지 데이터를 읽는 것이 귀찮은 일인가..'라는 생각을 많이 했는데요.

모두가 정직하게 데이터를 집계하고 그래프로 표현하는 아름다운 세상에 살고 있다면 좋겠지만,

그렇지 않은 경우도 많이 있기 때문에 어쩔 수 없이 데이터를 받아들이는 사람들의 노력이 필요해진 것 같습니다.

 

이번 글에서 이야기했던 내용들을 정리하며 이번 글을 마칩니다.

최소한 무작정 데이터를 받아들이는 자세는 지양하고 조금씩 아래의 체크리스트를 의식해보는 것으로도 큰 도움이 되지 않을까 싶네요!

< 데이터를 받아들일 때의 체크리스트 >
□ 이 데이터를 믿을 수 있는가? 판단 (중립을 지키며 신뢰성 확인)
□ 이 데이터의 출처는 어디지? 이 출처는 믿을만한가?
□ 이 데이터의 수집 기준과 집계 기준이 어떻게 되지?
□ 이 지표의 변화가 어떤 영향을 미치는거지?
이 지표만 보고 이렇게 해석이 가능한가?

 

읽어주셔서 감사합니다.

블로그의 정보

고동의 데이터 분석

소라고동_

활동하기