▶lecture_웹진강의 :: 웹진으로 하는 강의, 인터넷강의입니다!


왜 통계를 아는 것이 중요한가?

 



수유너머N 회원 조원광



 

1.     빅데이터 시대: 모든 것이 자료가 되는 시대

 


이 코너에서는 대표적이며 기초적인 통계 방법을 소개하려 합니다. 그런데 뜬금없이 왜 통계 방법을 이야기하느냐고요? 여기에 답하기 위해서는 데이터에 대해서, 특히 최근에 뜨고 있는 빅 데이터에 대해서 말씀 드려야 할 것 같습니다. 빅 데이터라는 말은 이제 너무 많이 쓰여 식상할 지경입니다. 별 관련 없는 사람이라면 이렇게 물을 법도 합니다. 아니 대체 그게 뭐길래 이렇게 난리냐고 말입니다.


 빅 데이터 때문에 벌어지고 있는 일을 몇 가지 말씀드리는 것으로 그 물음에 답을 대신하려 합니다. 미국에 타겟(Target)이라는 유통업체가 있습니다. 대형 마트 같은 거죠. 포보스(Forbes)라는 유명한 잡지에 따르면, 하루는 타겟 한 지점에 한 아버지가 화가 나서 찾아왔습니다. 이 업체가 이제 고등학생인 딸아이에게 임신 및 육아 용품 쿠폰을 잔뜩 발송한 것을 확인하고는 이게 뭐하는 짓이냐고 따지러 온 것입니다. 담당 메니저는 황급히 사과할 수 밖에 없었죠. 그런데 재미있는 일이 며칠 후에 일어났습니다. 이 아버지가 업체로 사과 전화를 걸어온 것입니다. 알고 보니 그 고등학생이 정말 임신을 했던 것입니다!


 어떻게 이런 일이 가능했을까요? 비밀은 소비자들의 구매가 데이터로 차곡 차곡 쌓이고, 업체들이 이를 분석하고 있다는 사실에 있습니다. 유통업체들은 회원카드 등을 발부함으로써, 한 개인이 무엇을 얼마나 사고 있는지 기록합니다. 이 구매 기록은 마케팅에 큰 자원이 됩니다. 어떤 사람이 이제까지 무엇을 샀는지 알 수 있다면, 그 사람이 어떤 취향을 가지고 어떤 생애주기를 경험하고 있는지 추적하는 일이 쉬워지기 때문입니다. 그리고 그것에 기반해서 적합한 광고를 발송하여 구매를 극대화할 수 있지요. 예를 들어 제가 1년 전에 신생아용 기저귀를 지속적으로 구매했다면, 1년이 지난 지금 보행기 광고를 보내는 식이지요. 그러면 별 상관없는 쿠폰을 보내는 것보다 저의 구매를 이끌어내는데 훨씬 용이할 것입니다. 그래서 업체 마다 구매 기록 등을 분석하는 것에 열심인데, 그 고등학생이 초기 임산부가 보이는 전형적인 구매 패턴(저자극 화장품 등의 갑작스런 구매)을 보였던 것입니다. 그래서 타깃의 컴퓨터는 이 학생이 임신을 했다고 판단하고는 자동으로 관련 쿠폰을 보낸 것이지요. 부모도 모르는 임신 사실을 컴퓨터가 먼저 안 것입니다.



한 유통업체가 구매 데이터를 분석해봤더니, 희한하게도 기저귀와 맥주가 동시 구매되는 빈도가 높았다고 합니다. 아내의 기저귀 심부름을 온 남편들이 맥주를 사갔다는 재미난 추리가 떠돌곤 했습니다. 그래서 마트에서 둘을 동시 진열했더니 매출이 상승했다고 합니다. 요즘 진위 여부가 의심받고 있는 이 이야기 또한 데이터의 힘을 보여주고 있습니다. 



(사진 출처: "Cloth diaper2" by Ossi Mauno - 자작. Licensed under CC BY-SA 3.0 via 위키미디어 공용 - http://commons.wikimedia.org/wiki/File:Cloth_diaper2.jpg#/media/File:Cloth_diaper2.jpg

"Dutch beers" by uploaded by Nejmlez - uploaded by Nejmlez. Licensed under CC BY-SA 3.0 via 위키미디어 공용 - http://commons.wikimedia.org/wiki/File:Dutch_beers.jpg#/media/File:Dutch_beers.jpg)



특히 기업들이 빅데이터에 많은 관심을 기울이는 것은, 바로 이처럼 데이터에 기반한 수요 예측과 마케팅이 가능하기 때문입니다. 페이스 북이 높은 가치를 가진다고 평가받는 것도 이런 연장입니다. 왜냐하면 페이스 북에 표현된 취향에 대한 정보나 개인 정보에 접근할 수 있다면, 단순히 구매기록을 분석하는 것보다 그 사람에 대해 훨씬 더 많은 것을 알아낼 수 있고, 이는 기업의 생존과 직결될 것이기 때문이죠.


 빅데이터가 이런 마케팅이나 돈 버는 일에만 관련이 된 것은 아닙니다. 빅데이터는 새로운 사실을 알아내는 일에 폭 넓게 쓰일 수 있습니다. 미국에 제임스 맥퍼슨이라는 존경받는 역사가가 있습니다. 그는 united states 가 복수형으로 이해되다가 단수형으로 이해된 것이 남북 전쟁 이후부터라고 지적합니다. 즉 그 전에는 미국이 하나의 국가라는 이미지보다 복수의 자치체들이 연합한 것이라는 인식이 강했는데, 남북 전쟁에서 남부가 패한 이후 하나의 국가로서 자리매김했다는 말입니다. 개연성이 큰 설명인데다가 대가가 말한 바라, 모두가 그렇다고 믿고 있었는데, 최근 이것이 아주 정확한 주장이라고 하기는 어렵다는 점이 드러났습니다. 그것을 밝혀내느데 큰 공헌을 한 것이 구글 엔그램 뷰어(Google Ngram Viewer) 였습니다. 구글 엔그램 뷰어는 과거부터 지금까지 영어로 된 책을 많은 부분 전산화하여 특정 키워드의 출현 빈도를 자동으로 검색할 수 있게 한 서비스입니다. 여기에 “the united states is” “the united states are”를 검색해서 비교해보면, 맥퍼슨 말처럼 남북 전쟁 이전에는 단수형 표현이 적지만, 남북 전쟁 이후 갑자기 사람들이 단수형을 쓴 것은 아닌 것으로 드러났습니다. 단수형 표현이 복수형 표현을 앞지른 것은 1880년을 훌쩍 넘은 지점이었습니다. 지금 우리가 바로 할 수 있는 간단한 검색이 전에 알려지지 않은 여러 가지 사실을 드러내고 있는 셈입니다(에레즈 에이든&장바티스트 미셸, [빅데이터 인문학: 진격의 서막], 12).


 공공 정책 역시 이런 데이터를 활용할 수 있습니다. 예를 들어 사람들의 검색 데이터를 통해 효과적인 질병 정책을 쓸 수 있습니다. 우리는 언제 감기에 대해 검색할까요? 감기에 걸렸을 때 그렇습니다. 그렇다면, 어떤 지역에 갑자기 특정 질병을 검색하는 빈도가 잦아진다면, 이는 해당 질병이 해당 지역에 늘어나고 있음을 보여주는 지표일 수 있습니다. 그러면 여기에 대응하는 것이 필요하겠지요. (에레즈 에이든&장바티스트 미셸, [빅데이터 인문학: 진격의 서막], 24)


구글 앤그렘 뷰어의 첫화면 입니다. 보시다시피 다양한 키워드를 검색할 수 있습니다. 지금 들어가서 해보세요!



 이런 여러 신기하고 흥미롭고, 한편으로는 섬뜩하기도 한 일들 때문에 온 사람들이 빅 데이터를 떠들고 있지 않은가 합니다. 이런 일들은 기본적으로 우리의 모든 활동이 자료로 기록되기 시작했기에 가능한 것입니다. 우리가 소비하는 일은 물론이고, SNS 등을 통해 우리의 취향과 과거의 일상이 기록됩니다. 지금 일어나고 있는 일뿐만이 아닙니다. 구글 엔그램 뷰어에서 볼 수 있듯이, 과거의 기록과 책 또한 속속 디지털화되고 있습니다. 과거에 나왔던 여러 잡지의 목차 정도는 지금 당장 국립중앙도서관 홈페이지에 접속하면 쉽게 볼 수 있습니다. 바야흐로, 우리의 모든 일상이 컴퓨터로 다룰 수 있는 형태로 자료화되고 있습니다.

 

 

2.     통계, 자료를 다루는 기술

 

 이렇게 방대한 자료를 잘 활용할 수 있는 사람이 현대 사회에서 큰 힘과 통찰을 가지게 될 것이라는 점은 따로 말씀드리지 않아도 될 것 같습니다. 통계란, 이런 방대한 자료를 활용하는 대표적인 방법입니다. 사실 자료 그 자체로는 큰 효용이 없습니다. 예를 들어 우리가 사람들이 SNS에 남긴 모든 코멘트를 가지고 있어봤자, 이를 그대로 활용할 수는 없습니다. 거기서 가장 많이 등장하는 키워드는 무엇이고 얼마나 자주 등장하는지, 혹은 연령이나 성별에 따라 어떤 변화가 나타나는지 알아내야 비로소 우리에게 유의미한 정보가 됩니다. , 전체 자료가 보여주는 경향이나 그 안에서 나타나는 여러 현상들 사이의 관계를 추출할 필요가 있다는 말입니다. 통계가 하는 일은 바로 그것입니다.


 수많은 사람들이 이처럼 큰 자료에서 경향을 추출하고 현상들 사이의 관계를 알아내기 위해 여러 방법을 개발해왔습니다. 덕분에 우리는 연령이나 소득의 변화에 따라 결혼을 할 확률이 어떻게 달라지는지 따위를 수학적으로 추정할 수 있게 되었습니다. 게다가 간단한 원리만 알면, 컴퓨터에게 이런 계산을 대신 시킬 수 있게 되었지요. 덕분에 우리는 수없이 많은 자료와 그를 분석한 통계치에 둘러싸여 살아갑니다. 그 수많은 자료를 우리가 분석해낼 수 있다면, 나아가 남들이 분석한 통계치를 독해할 수 있다면, 그래서 그것이 사실인지 거짓인지 혹은 과장인지 과장이 아닌지 알아낼 수 있다면, 정말 좋지 않을까요? 우리가 무엇을 하려 하든, 이런 지식은 우리가 하려는 바를 좀 더 수월하게 달성할 수 있게 해줄지 모릅니다.


 물론 통계가 자료를 투명하게 보여주는 것은 결코 아닙니다. 통계가 보여주는 측면이 있으면 가리는 측면도 있기 때문입니다. 무엇보다, 대부분의 통계는 전체적인 경향을 보여줍니다. 예를 들어 평균을 생각해봅시다. 그건 그 집단의 중심적인 경향이지요. 그런데 해당 집단에는 중심적인 경향에서 벗어난 특이한 존재도 있기 마련입니다. 그런데 통계는 이런 특이한 존재에는 큰 관심이 없습니다. 전체적인 추세만 볼 뿐이지요. 하지만 이런 특이한 것들이 중요하지 않은 것은 아닙니다. 오히려 세상을 바꾸는 것은 집단 전체에서 벗어난 특이한 것들인 경우가 많거든요. 또한 통계가 세우는 모델은 앞으로도 이제까지와 비슷한 경향이 계속될 것이다라는 가정에 기반하는 경우가 많습니다. 덕분에 급격한 변화나 이탈을 감지하기는 쉽지 않습니다. 하지만 인간사를 이해하는 일에는 계속되는 추세보다 이탈이나 변화가 더 중요한 경우가 많지요. 이처럼 통계가 포착하지 못하는 면도 있기에, 통계적 지식을 잘 활용하기 위해서는 그것이 보여주는 것뿐만 아니라 가리는 것까지 잘 알아야 합니다.



유명한 정규분포표입니다. 평균에서 3표준편차 바깥의 지점이 출현할 확률은 0.3%이하가 됩니다. 

하지만, 그런 이탈과 비정상이 세상을 바꾸기도 합니다. 

(사진 출처: "Empirical Rule" by Dan Kernler - Own work. Licensed under CC BY-SA 4.0 via Wikimedia Commons - http://commons.wikimedia.org/wiki/File:Empirical_Rule.PNG#/media/File:Empirical_Rule.PNG)



 이 코너에서는 우선 가장 기초적인 통계적 원리와 방법을 알아볼 예정입니다. 그리고R이라는 통계 프로그래밍 언어를 통해 컴퓨터를 통해 이를 실제로 어떻게 해볼 수 있는지도 말씀드릴 예정입니다. 그리고 각각의 방법이 가지는 장점은 무엇인지는 물론, 그것이 간과하게 만드는 측면은 무엇인지도 지적할 예정입니다. 구체적으로 아래와 같이 향후 4번 정도는 전통적이고 대표적인 통계 방법론에 대해 말씀드릴 것입니다. 이 코너의 연재가 끝날 때 즈음이면, 독자 여러분이 자기의 목적에 맞게 자료를 다루는 일에 조금이나마 익숙해지는데 보탬이 되었으면 합니다. 그럼, 앞으로 잘 부탁드립니다^^

 

##    집단간 차이 검정: 내가 보는 차이는 진짜 차이인가? (t-test, anova, 카이스퀘어)

 

##    두 현상의 관계 살피기: 상관관계

 

##    여러 가지 조건으로 현상 예측하기: 회귀분석

 

##    여러 가지 조건으로 확률 예측하기: 로지스틱 회귀분석




번호 제목 글쓴이 날짜 조회 수
128 [해석과 사건9] [보론 1] 들뢰즈에게 ‘플라톤주의의 전복’이란 무엇인가? file nomadia 2018.02.06 1168
127 번역 :: [칸트의 경험의 형이상학] 번역 _ 3회 file 김민우 2018.01.20 1595
126 [번역-동물권리선언] 동물과 비장애인중심주의 file 큰콩쥐 2018.01.12 779
125 [해러웨이] 반려종과 실뜨기 하기(2) file compost 2018.01.03 943
124 [해러웨이] 반려종과 실뜨기하기(1) file compost 2017.12.31 1231
123 [헤러웨이] 선언의 사상가 다나 해러웨이 file admin 2017.12.25 2986
122 번역 :: [칸트의 경험의 형이상학] 번역 _ 2회 file 김민우 2017.12.05 694
121 번역 :: 게으름과 근면의 관계를 스스로 분배하는 노동을 위해 file Edie 2017.11.20 659
120 [해석과 사건8] 데카르트와 프루스트-삼중의 질서와 타자의 왜상 file nomadia 2017.11.08 3123
119 번역 :: [칸트의 경험의 형이상학] 번역 _ 1회 김민우 2017.11.02 1293
118 [헤러웨이] 선언과 함께하기-다나해러웨이 인터뷰(마지막 편) file compost 2017.10.28 750
117 [헤러웨이] 선언과 함께하기-다나해러웨이 인터뷰(2편) file compost 2017.10.20 1438
116 [헤러웨이] 선언과 함께하기(1)-다나해러웨이 인터뷰 [4] file compost 2017.10.10 4158
115 번역 :: ‘일본인 위안부’ 담론에 대한 내재적 비판의 시도 [2] file Edie 2017.09.19 990
114 [해석과 사건7] 주체와 타자-코기토의 전복 [1] file nomadia 2017.09.05 5600
113 번역 :: 폭동과 학살의 남성성(후지노 유코, <도시와 폭동의 민중사 – 도쿄 1905-1923>) [1] file Edie 2017.06.18 695
112 번역 :: [가게모토 츠요시] 한국전쟁 시대의 "공작자"들의 문화=정치 수유너머웹진 2016.12.23 42
111 [해석과 사건6] "홀림"-목적론과 결정론 수유너머웹진 2016.12.04 232
110 [칼 슈미트 입문강의] 7강 첫번째 부분 수유너머웹진 2016.11.23 389
109 [해석과 사건5] 아리스토텔레스와 아우구스티누스 [1] 수유너머웹진 2016.11.20 572
CLOSE