Variation Version
Last updated
Was this helpful?
Last updated
Was this helpful?
을 첫번째 모형으로 시작(하고, X변수는 zero mean, unit norm을 가지도록 정규화를 시킨다.
와 가장 관련성이 높은 를 찾는다. 다시 말해, 를 찾는다.
같은 인덱스 j를 가지는 계수를 0에서 으로 값을 키운다. 이 때 모형은 . 값을 다음의 부등식을 유지하는 범위에서 키운다.
위의 인덱스 j,k를 가지는 계수 를 으로 값을 키운다. 이 때 모형은 . 값을 다음의 부등식을 유지하는 범위에서 키운다.
이러한 방식을 p개의 x들이 모두 모형에 들어갈 때 까지 반복한다. 스텝 이후 이는 full-least-squares solution과 같아진다.
Full least squares을 구하기 위해서 계산을 그저 p번만 행하면 되므로 매우 계산 효과적인 알고리즘이다. 변수를 표준화하는 이유는 corr을 바로 내적으로 계산하기 위해서이다.
보통의 경우 상관관계가 높은 다량의 독립변수가 존재한다. 이 경우 해당 변수들을 PC로 줄여서 독립변수로 사용하는 것이 PCR이다.
Partial Least Squares는 Y와의 공분산이 높은 k개의 선형조합을 추출한다.
Y와 high variance&high correlation을 가지도록 집중한다.
이 때 은 principal components이다. 참고로 PC는 다음과 같이 정의된다. Ridge regression과 마찬가지로 해당 방식은 입력변수의 scale에 영향을 많이 받기 때문에 먼저 표준화를 시킨다.(Shrinkage의 경우 변수들간에 scaling이 다르면 불균형한 shrinkage가 일어난다.)
PC 변수 결국 표본분 의 scaled 고유벡이다. 이 때 이다. 고유벡터 표기에서 상수 n은 무시하자. 는 고유값으로 스케일링된 고유벡터를 의미한다. 이는 PC변수들로 결국 y를 적합하는 것이다. 이는 ridge regression과 비슷한데, 왜냐하면 ridge에서도 결국 PC축 스케일링으로 데이터를 적합시켰기 때문이다.
해당 식은 의 고유공간에 y를 정사영 내린 후 스케일링 하는 것을 의미한다.
를 표준화시킨다.
Orthogonalizae each with respect to :