통계이야기 1
  통계이야기 2
  통계이야기 3
  통계이야기 4
  통계이야기 5
 
[여론조사]95% 신뢰도가 뭐예요?
신뢰도와 정확도


일반인들이 흔히 접하는 통계 중 학교에서 배우는 통계와 가장 접근한 것이 여론조사의 신뢰구간 추정일 것입니다.
그러나 일반인은 물론 당연하지만 통계학을 전공하는 사람조차 신뢰도와 정확도가 의미하는 뜻을 잘 모르는 것 같습니다.



여기서 우리가 일상적으로 쓰는 말을 통해 신뢰도와 정확도의 뜻을 알아 보겠습니다.



광고문구를 쓰는 사람들을 카피라이터(copywriter)라 하지요.
카피라이터가 광고문구를 생각할 때도 문구의 다양한 특징(attributes, characteristic)들을 생각합니다.
[“문구가 간결한가?], [사람들의 의표를 찌르는가], [강력한 인상을 주는가?] 등등.. 이런 식으로
우리가 쓰는 말에도 다양한 특징들이 있습니다.




통계학에서 보고자 하는 것은 말의 특징은 [신뢰도][정확도]입니다.
A를 우리가 주장하고자 하는 명제라 합시다. 그러면 그 명제의 신뢰도와 정확도는 다음과 같이 정의됩니다.





신뢰도: 주장 A가 맞을 확률

정확도: 주장 A의 구체성






아직도 무슨 말이지 잘 이해가 되지 않는다고요? 그러면 다음의 예를 봅시다.





보기1)

100m 떨어진 곳에 어떤 물체가 보입니다. 이때 아래의 주장들을 비교해 봅시다





S1: 저건 사람이다.

S2: 저 사람은 여자이다

S3: 저 사람은 할머니이다.





이 상황에서 3개의 주장(명제)중 맞을 확률이 높은 명제는 무엇일까요? 당연히 S1이지요.
반면에 물체에 대한 S1의 묘사는 가장 불투명하고 S3가 가장 구체적입니다.
그래서 신뢰도는 S1이 가장 높고 정확도는 S3가 가장 높습니다. 즉





신뢰도: S1 > S2 > S3

정확도: S1 < S2 < S3





입니다.






보기 2)

또 다른 예를 들어 볼까요. 어떤 사람의 키에 대해서 우리가 이야기 한다고 생각해 봅시다.





S1: 저 사람 키는 150 cm 이상이다.

S2: 저 사람 키는 170 cm 이상이다.

S3: 저 사람 키는 190 cm 이상이다.






여기서 어떤 주장이 신뢰도가 가장 높을까요? 당연히 S1입니다.
반면에 정확도는 S3가 가장 높고 S1이 가장 낮습니다.





보기1)과 보기2)에서 보듯이 이 [신뢰도][정확도]는 상충관계(trade-off)입니다.
즉 신뢰도를 높이려면 정확도는 어느정도 희생하는 수 밖에 없습니다.
정확도를 높이려면 신뢰도를 희생할 수 밖에 없고요.


그러면 정확도와 신뢰도를 동시에 높이는 방법이 없을까요?
통계학에서는 표본 크기를 크게 하면 됩니다. 그러나 이 경우 시간과 돈이 문제가 되겠지요.






그러면 신뢰구간 추정에서 이야기는 주장,명제는 어떤 것일까요?
통계학에서 이야기하는 주장은 모수 θ에 관한 것입니다.



여론조사의 경우 [모집단의 지지도 p]에 관한 주장(명제)입니다.
그러면 신문에서 흔히 보는 신뢰도 95%하에서 지지도 0.23 그리고
표본오차 0.025라 가정합시다.



정확하게는 이야기 하면 표본오차가 아니고 [1.96*표준오차]입니다. 신문 방송에서 가끔 표본오차라는 말을 사용하는데
표준 편차라는 말은 있어도,이런 용어는 통계학에 없습니다. 또 최대 허용 오차라는 말도 사용하는데 좀 더 정확하게 표현하면
1.96*최대 허용 오차가 더 적합한 표현입니다. 이후부터 나오는 표준 오차 값은 정확한 값이 아닙니다.



사실 정확한 표준오차 값은 구하기 힘듭니다. 관심 있는 분은 동시추론(simultaneous inference) 이론에 관해서
찾아보기 바랍니다.



신문에 나오는 이 표현은 도대체 무얼까요?
여기서 지지도 0.3은 표본의 지지도를 이야기합니다. 즉 r=0.3이라는 이야기이죠. 그래서





Pr(0.3-0.025< 모집단의 지지도 p < 0.3+0.025 이다)=0.95





가 됩니다.





만약에 95% 신뢰도를 99%까지 올려서 이야기 하고 싶다면 어떻게 될까요?
당연히 정확도가 떨어져 모집단의 지지도 p에 관한 진술을 좀 더 넉넉하게 잡고 이야기 해야 합니다.
그래서 1.99
예를 둘어 [0.3-0.035< 모집단의 지지도 p < 0.3+0.035 이다] 이런 식으로. 그래서





Pr(0.3-0.035< 모집단의 지지도 p < 0.3+0.035 이다)=0.99






가 되는 것이죠. 신뢰도를 자꾸 높일수록 정확도가 떨어져서 사실 쓸모가 없어져 버립니다.
예를 들어 [모집단의 지지도 p가 0부터 1 사이다] 이 말은 신뢰도가 100%입니다.
그러나 이런 주장은 아무런 도움이 되지 않겠지요. 여론 조사한 돈만 아깝지요.





그러면 위에서 이야기 한 것처럼 신뢰도와 정확도를 동시에 높이려면 표본 크기를
올릴 수 밖에 없는데 시간과 비용의 문제가 생깁니다.


현재 대통령 선거 같은 중요한 여론조사는 표본 수를 1500정도가 보통입니다.
그리고 표본 수 하나 올리는데 2만원 정도의 추가 예산을 생각하면 될 것입니다.