통계학은 비즈니스의 필수 항목이다.
비즈니스를 하려면 고객과 시장 동향을 항상 피부로 느끼며 전략을 짜야 한다. 그럴 때 산전수전을 겪은 베테랑이라면 전문가의 감으로 정답을 맞힐 수 있을지도 모른다. 그러나 만화 속의 지수처럼 경험이 그리 풍부하지 못한 중견 사원이나 신입 사원이 어떤 일을 감으로 판단하고 행동하는 것은 위험한 일이다. 자칫 예상치 못한 함정에 빠질 수도 있다. 또 전문가의 감이라는 것은 전달하거나 공유할 수 없다. 그 노하우는 그 사람만 알 수 있기 때문이다. 그럴 때 전문가의 감을 대체할 수 있는 것이 있다. 그것이 숫자에 의한 검증이다. 숫자는 객관적이며 거짓말을 하지 않는다. 또한 숫자를 모르는 사람은 거의 없으므로 숫자를 이용해 어떤 사실을 공유할 수도 있다. 다만 숫자로 어떤 사실을 도출하려면 그에 맞는 특정한 기술이 필요하다. 그 기술을 노하우화한 것이 통계학이다.
95퍼센트가 의미하는 것은…
왜 95%죠 99%가 더 안전하지 않나요
가설검정과 구간추정에는 두 가지 위험이 있다는 걸 이해해야 해.
두 가지 위험이요 그게 뭐죠
하나는 올바른 가설을 버리게 될 위험. 또 하나는 잘못된 가설을 유지할 위험이야.
올바른 가설을 버린다는 건 어떤 경우가 있을까요
기각할(유지하지 않을) 확률을 크게 설정할 경우지. 95%가 99%보다 기각하는 경우가 많아지지.
그렇군요. 또 하나의 위험은 그 99%가 95%보다 유지하는 경우가 많아진다는 거겠죠
맞아. 둘 다 엄밀하게 하기란 불가능하니까 어느 하나는 포기해야 하지.
구간추정의 95% 신뢰구간이 확률 95%로 그 구간에 추정치가 들어간다는 의미가 아니라고 설명했다. 그 이유를 말하자면 추정치는 모집단의 파라미터이므로 하나의 확률적 구조 하에서 불확실한 값을 갖는 것이 아니기 때문이다. 다른 표현을 하자면 확률의 순문제가 아니라 확률의 역문제이기 때문이다. 그렇다면 95%의 95는 어떤 수치일까 앞에서 구간추정이 가설검정을 다른 측면에서 본 것임을 알았으니 이제 이 물음에 정확하게 답할 수 있을 것이다. 가설검정의 0.95는 같은 방법으로 검정하면 5%의 확률로 틀린다는 의미라고 설명한 것을 떠올리자. 구간추정에서도 이 점은 똑같다. 같은 구간추정을 반복하면 특정하고 싶은 파라미터가 신뢰구간에 들어가지 않는 일이 0.05의 확률로 일어난다는 것이다.
초보 중의 초보, 기본 중의 기본으로 한정했다.
이 책을 읽고 몇 가지 더 알고 싶은 점이 생길 수도 있다. 그중 하나가 ‘모표준편차도 미지수일 때의 추정 방법’이다. 이 책의 통계적 검정을 할 때 모표준편차는 항상 미리 주어져 있었다. 이것은 지면상 그렇게 한 것이며, 물론 모표준편차를 모르는 상태가 자연스럽다. 이런 상황에서 추정할 때는 카이니제곱이나 t검정이라는, 정규본포와는 또 다른 확률분포가 필요하다. 하나는 본문에도 나오는 ‘95% 신뢰구간의 95라는 숫자는 진짜 모평균이 구간에 들어갈 확률을 말하지 않는다’라는 점이다. 이 점이 구간추정의 핵심이지만 우리가 원하는 추정과는 약간 동떨어진 느낌을 받을 수도 있다. 그런데 추정이 말 그대로 ‘진짜 모평균이 구간에 들어갈 확률’이 되는 별도의 통계 이론이 있다. 그것이 최신 통계학인 ‘베이즈통계학’이다. 베이즈통계학은 마이크로소프트사와 구글사 등이 비즈니스에 실제로 활용하여 각광을 받게 된 최신 통계학 방식이다.