Session 9(editing)
Last updated
Last updated
변수선택
Freq approach
T-test: 여러 계수들을 함께 비교하기에 적절치 않음(해결: Bonferroni, Tukey):
AIC:
Bayesian approach
각각의 모델을 확률을 가지고 있는 확률변수로 바라본다.
두 가지를 비교
Indicator Variable 사용.
화살표 간 부분이 조건으로 걸리는 것으로 보자.
z가 어떤 값을 가지는지에 따라 z와 model을 일대일로 대응시킬 수 있다.
P(z): 각 Model에 Prior를 부여
P(Y|X,z): 각 모델에 대하여 데이터가 말하는 Likelihood를 계산한다.
Parameter의 개수가 많지 않은 경우에 모델의 사후분포를 직접 구해낼 수 있다. 가장 확률이 높은 모델을 선택하면 된다.
분모항의 경우 파라미터 개수가 적은 경우 좌변을 구할 수 있지만 파라미터의 개수가 많으면 계산이 힘들다. 따라서 분모항을 계산하지 않고도 모델을 비교하는 방법을 사용할것이다.
해당 방식을 다음과 같이 정리할 수 있다. posterior odds = prior odds * "Bayes factor"
g가 커지면 prior가 의미가 없어졌음.
이 경우 는 알고 있고, 의 경우 베타의 사전분포가 g-prior이면 구할 수있다.