1. Thomas Bayes의 사고의 출발점
- David Hume: cause and effect에 관한 회의론. 특히 궁극의 모든 cause가 되는 신(God)에 관한 회의론 제기
- 한편으로 George Berkeley의 뉴튼(Issac Newton)의 calculus 공격
: 1734년 버클리의 논문에서는 뉴튼의 미분공식에서 고계항(higher order terms)을 생략하는 것은, 논리적 모순이라고 공격
"Berkeley's concern was that if the increment vanished, then one did not really have an increment in the first place. The expansion of (x+h)^h is based on having an increment so that there is a contradiction and hence the whole doctrine falls apart." (D.R. Bellhouse, The Reverend Thomas Bayes, FRS: A Biography to Celebrate the Tercentenary of His Birth, Statistical Science 19(1), 2004)
- Abraham de Moivre의 cause --> effect 연구
- Thomas Bayes의 effect ->> cause의 inverse probability 연구 시작
: 평평한 테이블 위에 당구공을 무작위적으로 내려놓는 실험
: 공의 위치에 대해 실험자는 테이블을 보지 않고, 선험적으로 자신의 확률을 갖고 (주관적 사전확률) 예측
: n번째의 데이터를 보고, n+1에 관한 예측을 하면서 확률을 revise
: 이런 과정을 계속 반복
- 결국 오늘날의 Bayesian modelling의 출발 Thomas Bayes의 논문
2. 베이지언 시대의 도래
2차 세계대전 당시 베이지언은 암호 크랙킹에 사용되었으며, 전후에도 베이지언 모델링은 미사일 잔해의 탐색 등 다양한 분야에서 적용되었지만, 이들 연구의 대부분은 군사기밀 차원에서 세간에 널리 알려지지 않았다. Adrian Smith와 같은 일부 연구자들에 의해 베이지언이 응용되기 시작하였으나 수치적분의 연산과정이 지난하였고, 베이지언 기법은 1960-70년대를 거쳐 쇠퇴기를 맞이한다.
베이지언 기법이 자연스럽게 받아들여지는 오늘날, 1980년대 쓰여진 B. Efron의 "Why isn't everyone a Bayesian?"이라는 짧은 논문과, 그 논문에 관한 반박 내지 동의하는 리뷰 논문을 읽어보는 것도 빠질 수 없는 재미일 것이다. 결론적으로 말해서, Fisher류의 frequentist보다 Bayesianist가 적은 이유는 후자가 전자에 비해 계산이 복잡하다는 현실적인 이유에서이다. 오늘날은 컴퓨팅의 발달로 그러한 문제가 해소되었다고 볼 수 있다.
frequentist와 Bayesian과의 전선에서 극적인 반전이 생긴다. 많은 과학적 진보가 그렇듯이 베이지언도 우연의 연속에서 제대로 된 임자를 만나게 되었다.
Metropolis-Hastings 알고리즘으로 알려진 MCMC는 물리학과 화학 분야에서 처음 적용되었지만, 이들의 연구가 통계학이나 경제학, 수리과학 등의 연구자들에게 당장 전파되지는 못했다. Alan Gelfand와 Smith 는 서로 연구 교제를 하는 사이에, MCMC, Gibbs sampling 등을 전해 듣게 되고, 이와 같은 sampling 기법이 베이즈의 복잡한 적분연산을 대체하는 방법임을 깨닫게 된다. 이후 Smith는 1989년 퀘벡에서 열린 한 컨퍼런스에서 MCMC가 거의 모든 통계적 문제에 적용될 수 있음을 보여줌으로써, 새로운 장이 열리게 되었다: "It was a revelation. Bayesians went into shock induced by the sheer breadth of the method. By replacing integration with Markov chains, they could finally, after 250 years, calculate realistic priors and likelihood functions and do the difficult calculations needed to get posterior probabilities. (McGrayne, p.222)"
컴퓨터 알고리즘에 기반한 베이지언 기법이 이후 컴퓨터의 성능 향상으로 더욱 더 전성기를 맞게 되는 것은 어찌보면 자연스러운 것이었다.
3. Frequentist vs. Bayesian
likelihood 함수, 그리고 사전확률분포(prior distribution)
Gamerman&Lopes, Markov Chain Monte Carlo, p.43
4. MCMC
Monte Carlo Markov Chain (MCMC)의 계보는 Metropolis-Hastings 알고리즘과 Gibbs Sampling 두 개로 나눌 수 있다. Metropolis-Hastings 알고리즘은 먼저 개발된 Metropolis 알고리즘과 이를 보다 일반화한 Metropolis-Hastings 알고리즘으로 다시 구분한다.
1) Metropolis Algorithm
간략한 역사
Metropolis 알고리즘은 20세기의 10대 알고리즘에 포함될 정도로 그 기발함을 인정받는다. Nocholas Metropolis와 공동 연구진은 Los Alamos 연구소에서 분자의 움직임을 설명하기 위해 궁리 중에 이 알고리즘을 만들게 되었다. 하지만, 아래 설명을 보면 알겠지만, 오늘날 프로그래밍에서는 몇 줄 정도면 간략하게 처리될 수 있다. 지금에야 아~하, 하고 간단하게 생각할 문제이겠지만, Metropolis 알고리즘은 이후 Hastings의 알고리즘과 결합하여 가장 강력한 도구로 등장하는 일종의 코페르니쿠스적인 발상이었다. 셜록 홈즈도 '춤추는 인형' 편에서 왓슨과의 대화에서 이런 말을 남겼다: "How absurdly simple!", I cried. "Quite so!", said he, a little nettled. "Every problem becomes very childish when once it is explained to you."
논문 이름: Metropolis, N.; Rosenbluth, A.W.; Rosenbluth, M.N.; Teller, A.H.; Teller, E. (1953). "Equations of State Calculations by Fast Computing Machines". Journal of Chemical Physics 21 (6): 1087–1092.
왼쪽 그림은 Metropolis와 그의 동료가 세계 최초의 컴퓨터인 MANIAC과 체스를 두고 있는 장면이다. (자료제공: http://www.computerhistory.org/chess/full_record.php?iid=stl-431614f64c5ba)
1953년의 논문을 보면, 신기한게 Metropolis만 제외하면 같은 성을 가진 두 커플이 보인다. Teller와 Rosenbluth의 아내들이 저자에 포함되었기 때문이다. 일반인들에게는 폐쇄적인 환경의 Los Alamos에서 연구자들의 아내가 연구소에서 함께 일한 경우가 많았기 때문이다.
1953년 논문에서 Teller는 미국의 ‘수소폭탄의 아버지’로 불리는 Edward Teller와 그의 아내를 말한다. 유대인인 Edward Teller는 헝가리에서 출생하여, 2차세계 대전 이전에 미국으로 귀화하였다. 그는 John von Neumann과 함께 미국으로 탈출한 헝가리 출신의 국보급 학자를 뜻하는 이른 바, Martians의 선두그룹에 있었다. 시카고대학에서 천재급 학자를 찾고 있었을 때, 당시 고참물리학자인 Merle Tuve는 문의하자 그는 “천재를 원한다면 Teller는 아니니 데려가지 마라. 하지만, 천재는 흔하지만 Teller는 그보다 더 비범하다. 그는 모든 이의 문제에 매달려서 도와준다”며 추천했다. Teller 자신도 그의 비망록을 보면, 자신을 genius가 아니며 problem-solver로 부른다.
하지만, 이런 Teller도 인생에서 어느 누군가를 더욱 곤경에 처하게 만드는데, 그 주인공이 오펜하이머다. 맥카시즘 열풍 하에서 오펜하이머가 이적성을 의심받아 청문회에 섰을 때, Teller는 오펜하이머가 국가안보에 위협이 될 수 있다는 식으로 증언을 하게 된다. 원만한 성격으로 평가받는 Teller가 이처럼 오펜하이머를 공격하게 된 배경에는 동유럽과 독일에서의 나치의 만행을 목격한 경험이 있다고 한다. 그는 자유를 지키기 위해서는 강력한 무기가 필요하다고 보았다. 유럽과 독일에서 Los Alamos와 선의의 경쟁을 하도록 세운 Lawrence Livermore National Laboratory의 감독으로서 그가 신임 박사를 채용할 때에도 무기개발에 우선순위를 둘 것을 언제나 강조하였다고 한다. 1980년대 레이건 행정부 당시에는 결국 성공하지 못한 ‘스타워즈’ 사업을 적극 옹호하기도 하였다.
Marshall Rosenbluth는 그의 아내 Arianna Rosenbluth와 함께 공저자로 이름이 올라가 있다. Rosenbluth와 Teller의 아내 모두 컴퓨터 프로그램에 능숙하여서 작업을 같이 하였다. Teller가 반공사상 아래서 무기개발에 몰두한 것과는 달리, Rosenbluth는 그의 연구방향을 핵의 평화적 이용으로 돌렸다
Metropolis 알고리즘의 탄생 50주년을 기념하기 위해 학회가 개최되었을 때, 이 알고리즘의 본산지인 Los Alamos의 과학자인 J.E., Gubernatis가 Marshall Rosenbluth을 인터뷰하였다. 그에 의하면, Rosenbluth는 ‘Metropolis played no role in its development other than providing computer time’이라고 회고하였다.** 하지만, 그가 말하는 Metropolis의 그 컴퓨터는 단순한 컴퓨터가 아니고, 바로 MANIAC이기 때문에, 이 논문에서 Metropolis의 역할은 인정되어야 할 것이다.
(** J.E. Gubernatis, "Marshall Rosenbluth and the Metropolis Algorithm", Physics of Plasmas, 12, 057303,2005)
Rosenbluth는 Teller만큼이나 외향적이지도 않고, 정치나 정책의 논쟁에서도 벗어나 있었기 때문에, 세간에는 많이 알려져 있지 않지만 플라스마, 핵융합 기술 분야에서 독보적인 업적을 남겼다. 오늘날 원자력 발전도 그의 연구에 빚진 바가 많다. 2003년 그의 사망 시에 가디언 지는 그를 온화하고 친화적인 사람으로 평가하고 있다.
Metropolis 알고리즘
위에서 설명한 것처럼 Metropolis 연구팀은 입자의 움직임을 설명하기 위한 모의실험을 진행하는 과정에서 이 알고리즘을 개발하게 되었다. Metropolis 알고리즘 탄생 50주년 기념회에서 Rosenbluth는 이 알고리즘의 기본철학을 다음과 같이 간결하게 표현하였다.“A simple way to do this ...would be to make a trial move: if it decreased the energy of the system, allow it; if it increased the energy, allow it with probability ... as determined by a comparison with a random number"
기본적으로 accept-reject 의 룰이 적용된다. 아래 그림은 1953년 논문에 소개된 것인데, 가상의 사각형 안에 입자들이 있을 때 이들의 움직임을 볼츠만 방정식을 이용하여 시뮬레이션하였다. 검은 점이 입자의 위치인데, 입자끼리는 서로 overlap될 수는 없다는 조건 하에서 입자가 적절한 반경 내에서 확률적으로 움직이는 과정을 표현해주고 있다.
임의의 방향으로 한 점을 움직일 때에, 미리 정해놓은 룰에 의해 accept를 할지, reject를 할지 결정하는 방식으로 진행된다. 이를 위해서는 난수, 즉 random number를 생성해야 하는데 요즘은 엑셀 정도에서도 간단하게 할 수 있지만, 그 당시 컴퓨터로 난수를 생성한다는 아이디어 자체도 획기적인 것이었다. MANIAC을 만든 후, 이 컴퓨터가 어떻게 작동하는지 실험하는 것은 아마 매우 스릴 넘치는 일이었을 것이다.*
* random number generating이라는 말은 약간의 어폐가 있다. 폰 노이만은 난수생성이 엄밀히 말해 난수생성이 아님을 잘 알고 있었다 (Stephen Marsland, Machine Learning, p.306): "No matter what algorithm generates the numbers, though, it is important to remember that they are not genuinely random, and to genuflect to the wisdom of John von Neumann, one of the fathers of modern computing, who stated: "Anyone who considers arithmetic methods of producing random digits is, of course, in a state of sin."
알고리즘의 기본 순서는 첨부 파일을 보면 된다.
5. Bayesian models applied in econometrics
6. Bayesian learning (Adaptive learning)
; rank and selection problem
* google site math editor