통계이야기 1
  통계이야기 2
  통계이야기 3
  통계이야기 4
  통계이야기 5
 
[확률] 왜들 그리 싸우니?(빈도학파와 베이지안)
[확률] 왜들 그리 싸우니?(빈도학파와 베이지안)



통계학이 학문으로서 정립될려면 그 밑바탕에 확률이 학문 또는 이론으로서 먼저 정립이 되어야 합니다.
그러자니 당연히 확률의 정의(definition)부터 사람들간의 합의가 이루어져야 합니다.



그런데 이 출발점인 확률의 정의부터 사람들 간에 피터지게 싸우게 되었습니다.
일단 가장 먼저 나온 확률의 정의부터 알아볼까요?



자.. 친구끼리 홀짝 놀이를 해 봅시다. 우선 친구가 동전 3개를 가지고 있다고 가정하지요.
물론 동전을 하나도 잡지 않으면 이건 무효입니다. 친구 손에 있는 동전 수가 홀수인지 짝수인지가 문제이므로
나올 수 잇는 경우의 수는 {홀수, 짝수} 두가지 경우입니다.



그러면 홀수가 나올 확률은 0.5일가요? 그렇지 않을겁니다. 왜냐하면 홀수의 경우 동전1개 또는 동전 3개을 쥐는 두가지 경우가
있기 때문입니다. 반면에 짝수인 경우는 동전 2개를 쥐는 단 한가지 경우밖에 없습니다.
아마 대부분 사람들이 홀수가 나올 확률은 2/3 이라고 대답할 것입니다.



그래서 이런 문제를 풀때는 소위 표본 공간(sample space)이라는 것을 다음과 같이 규정할 것입니다.



{동전 1개 쥔다, 동전 2개 쥔다, 동전 3개 쥔다}



그러면 위의 {홀수,짝수}와 같이 표본공간을 규정하는 것과 무슨 차이가 있을까요?
그 차이점은 표본공간의 원소들이 나올 가능성이 전부 같은가 아닌가 하는 점입니다.
즉 표본 공간 {동전 1개 쥔다, 동전 2개 쥔다, 동전 3개 쥔다}의 경우 각 원소들이 나올 가능성은 전부 같습니다.
그러나 표본 공간 {홀수,짝수}의 경우 각 원수가 나올 가능성이 같지 않습니다.



그래서 가장 오래된 확률의 정의는 나올 가능성이 같은 원소들로 구성된 표본 공간 S에서 사건 A의 확률은



Pr[A]= (사건 A에 속하는 원소의 갯수)/(표본공간 S 전체의 원소의 갯수)



로 정의 됩니다.



이 정의에 대한 비판은 여러가지가 있습니다.



1.변수가 키나 몸무게인 경우 원소의 갯수들은 무한대 입니다. 무한대/무한대 이거 계산이 안되죠.

2. 만약 동전이 3개가 아니고 20개라고 가정합시다. 친구가 딱 1개를 쥘 경우나 20개 다 쥘 경우와 10개 근처의
동전을 쥘 경우가 나올 가능성이 전부 같다고 이야기 할 수 있을까요?
아마 10개 근처의 동전을 쥘 경우가 훨씬 크다고 생각할 것입니다.

3. 이 정의의 결정적인 약점은 확률을 정의 하는데 사실상 확률과 같은 말이 가능성이라는 말을 사용하였습니다.
일종의 순환론에 빠지게 된 것이죠.




그래서 나온 것이 여러분들들이 고등학교에서 배운 확률의 정의입니다.



Pr[A]=lim (n번 실험중 A가 관찰된 횟수/실험의 횟수 n)



여기서 극한은 실험의 횟수 n을 무한대로 한다는 이야기입니다. 따라서 표폰공간의 원소가 나올 가능성이 같은지는 알 필요가
없습니다. 실험을 해 보니 홀수가 나오는 횟수와 짝수가 나오는 횟수의
비율이 1:99 정도를 유지하면홀수가 나올 확률은 0.01 입니다.


이런 입장을 따르는 사람들은 빈도학파 사람(Frequencist)이라 합니다.



그런 이 입장에도 큰 문제가 있습니다. 우리가 옛날의 역사적 사실을 이야기 할 때는
그 당시 상황을 정확하게 알 수 없기 때문에 현재 남아 있는 기록이나 유물을 보고서 판단합니다.
즉 확률적으로 추론한다는 이야기입니다. 그러나 빈도학파의 주장대로 할려면 옛날 상황을
현재에서 무한대로 재현시켜 봐야 합니다.



또는 내년도에는 주식이 올라갈 가능성이 크다 아니면 떨어질 것 같다는 등 확률적인 표현을 우리가 자주 쓰는 표현입니다.
빈도학파에 따르면 내년도 주식시장을 지금 무한대로 실험해야 확률적인 표현을 할 수 있다는 이야기가 되지요.



빈도학파와 달리 모든 것은 확률적으로 표현된다고 생각하는 사람들이 베이지안(Bayesian) 입니다. 따라서 어떠한 대상도 확률적
표현을 하는데 거리낌이 없지만 반면에 빈도학파는 실험으로
관찰되는 실재적인 것만을 확률표현의 대상으로 삼고 있습니다.



결구 이 차이는 통계 이론에 가서 모수(parameter)를 확률 표현 대상으로 보는가
아니면 하나의 숫자로 보는가에 따라 극명하게 갈라집니다. 빈도학파의 입장에서는 모수는 우리가 모르지만 분명히 하나의값만을
취하는 하나의 숫자로 보고 베이지안은 모르는 것은 확률적이다고 봅니다.