◈ 이 책의 구성 ◈
이 책에서 다루는 몇몇 사례들은 기존에 출간된 연구 내용이고, 다른 경우는 데이터에 대한 내 나름의 관찰과 탐구 내용이다. 이전 연구 결과를 그대로 보고하거나 수치를 베끼기보다는 해당 분석을 따라해 보고, 스스로 수치를 만들었다. 어떤 경우는 오리지널 작업이 검증을 통과하지 못했고, 그런 사례는 이 책에서 제외했다. 일부 사례의 경우, 나는 더 최근 데이터를 가지고 같은 분석을 수행할 수 있었다. 이런 업데이트는 미처 예상하지 못한 깨우침도 주었다. 예컨대 ‘출생 시 저체중의 역설’은 1970년대에 처음 관찰됐고 1990년대까지 지속됐지만 최근 데이터에서는 사라졌다.
이 책에 소개된 모든 작업은 재현 가능한 과학 분야의 툴과 방법론에 근거하고 있다. 나는 주피터(Jupyter) 노트북을 사용해 글과 컴퓨터 코드와 결과들을 한 문서로 통합했다. 이 문서들은 버전 관리 시스템으로 정리함으로써 일관성과 정확성을 확보했다. 최종적으로 나는 넘파이(NumPy), 사이파이(SciPy), 판다스(pandas) 등과 같이 신뢰할 수 있는 오픈소스 라이브러리를 이용해 약 6000줄의 파이썬 코드를 작성했다. 물론 내 코드에 버그가 있을 수도 있지만, 결과들에 심각하게 영향을 미치는 오류의 위험을 최소화하기 위해 테스트를 거쳤다. 나의 주피터 노트북은 온라인에 공개돼 있기 때문에 누구라도 내가 실행한 분석을 손쉽게 재현해 볼 수 있다.
◈ 옮긴이의 말 ◈
“세상에는 세 가지 종류의 거짓말이 있다. 거짓말, 새빨간 거짓말, 그리고 통계다.” 마크 트웨인을 통해 유명해진 벤저민 디즈레일리의 이 말은 통계가 현실에서 얼마나 자주 오용되거나 남용되는지 잘 드러낸다. 통계의 배후에 도사린 정치적 의도를 경계해야 하며, 따라서 통계 자료를 볼 때는 겉으로 드러난 결과와 해석에만 무작정 휩쓸리지 말고 꼼꼼하고 엄정하게 ‘팩트 체크’를 해볼 필요가 있다는 경고로도 해석된다.
최근 몇 년간 세상을 휩쓴 COVID-19(코로나바이러스감염증-19)와 그를 둘러싼 통계 논쟁은 ‘거짓말, 새빨간 거짓말, 그리고 통계’의 냉소적 경고를 새삼 상기시켰다. 팬데믹 기간 거짓 정보의 발원지 중 하나로 악명 높았던, 그러나 구독자가 워낙 많아 사회적 영향력 또한 매우 컸던 한 팟캐스트를 통해 나온 “영국에서 60세 이하의 백신 접종자는 같은 연령대의 비접종자보다 두 배 더 높은 사망률을 보인다”라는 주장은 일파만파의 글로벌 논쟁으로 비화했다. 그 주장을 펼친 장본인은 당시 「뉴욕타임스」 기자였고, 더욱이 근거가 영국의 국립통계청이 내놓은 공식 자료여서 더욱 큰 파장을 불러일으켰다. 언뜻 보기에 아무런 왜곡도 없어 보이는 공식 자료에 근거한 그 주장은 백신 접종 거부자들, 그리고 팬데믹 음모론자들에게 엄청난 무기가 됐다.
국립통계청의 공식 데이터를 정확히 반영한 것처럼 보이는 그 자료와 그래프는 그러나 두 가지 치명적인 문제를 안고 있었다. 첫째, 백신이 도리어 사망률을 높인다고 주장한 기자는 통계 자료를 제대로 해석할 아무런 지식과 전문성을 갖고 있지 않았다. 둘째, 자신의 주장과 부합하는 연령대와 시간 간격만 선택하고 그렇지 않은 데이터는 무시했다. 그래서 실상은 백신의 효과를 입증하는 자료로 나온 통계청의 자료를 그 반대의 목적으로 왜곡한 것이었다. 개별 연령대나 성별로 나눠 해당 데이터를 보면 감소 추세 - 혹은 증가 추세 - 를 보이는데, 전연령대와 성별을 한데 묶어 데이터를 보면 거꾸로 증가 추세 - 혹은 감소 추세 - 를 보이는 소위 ‘심슨의 역설’이 이 언론인의 백신 위험론에 작용했다.
이 책의 10장 ‘펭귄, 염세주의자 그리고 역설’은 팬데믹 상황을 더욱 악화하는 데 일조한 위 주장의 허점들을 쉽게 명쾌하게 드러낸다. 남극 펭귄에 대한 측정값의 수수께끼와, 과연 우리는 나이가 들수록 예외 없이 염세주의자가 되느냐는 질문을 풀어가는 일은 그 허점을 명확하게 보여주기 위한 두 가지 관련 사례이다.
저자 앨런은 어려운 - 혹은 어려워 보이는 - 통계를 쉽게 풀어내는 데 발군이다. 이 책은 그의 그런 재능을 유감없이 발휘한 증거물이다. 통계를 제대로 이해하면 정치, 경제, 사회, 심지어 우리의 마음까지 좀더 잘 이해할 수 있겠다는 생각이 들게 할 만큼, 그가 제시하는 사례들은 우리 주변에서 흔히 찾아볼 수 있는 내용들이다. 달리기 대회에서 왜 나를 추월하는 사람들은 전부 나보다 엄청 더 빠른 것 같고, 내가 추월하는 사람들은 훨씬 더 느린 것처럼 여겨질까? 왜 지진이나 자연 재난을 예측하기는 어려울까? 왜 똑같은 유형의 암 진단을 받았는데도 생존 기간은 다를까? 왜 ‘나는 평균이야’, 혹은 ‘나는 정상이야’라는 말은 틀릴까? 왜 운전할 때, 나보다 더 느리게 운전하는 사람은 다 바보처럼 여겨지고 더 빨리 운전하는 사람은 미쳤다고 여기게 될까?
한국 사회는 요즘 너무 낮은 출산율로 고민이 깊다. ‘인구 절벽’이라는 말이 유행어처럼 회자될 정도다. 이 책의 3장 ‘전통을 거부하고 세계를 구하라’는 그런 면에서 시의성이 각별한 대목이다. 특히 정책 입안자들에게 일독을 권하고 싶은 장이기도 하다. 저자는 중국의 ‘한 가정 한 자녀’ 출산 정책이 어떤 영향을 몰고 왔는지 통계학의 시각에서 분석하는 한편, 적절한 출산 정책이 감안해야 할 여러 변수도 제시하고 있다. 좀더 눈 밝은 통계적 시각으로 사안을 바라본다면 인구 절벽의 위기에서 벗어날 수 있는 좀더 획기적인 정책과 아이디어가 나올 수 있을지도 모른다.
번역은 다른 한편 좋은 배움의 기회이기도 하다. 내게는 이 책이 특히 더 그런 역할을 많이 했다는 생각이다. 그 다음 내용을 알고 싶어 조바심이 자주 일었다. 그래서 더욱 즐겁게 번역할 수 있었다. 이 책과 만나는 독자 여러분도 모쪼록 그런 즐거움을 느끼실 수 있기를 기대한다.