block-quote On this pagechevron-down
copy Copy chevron-down
Machine Learning chevron-right Linear method: Regression Variation Version ✏️ LAR(Least Angle Regression)
r 0 = y − β ^ 0 = y − y ˉ r_0=y-\hat{\beta}_0=y-\bar{y} r 0 = y − β ^ 0 = y − y ˉ 을 첫번째 모형으로 시작(∀ β = 0 ) \forall \beta=0) ∀ β = 0 ) 하고, X변수는 zero mean, unit norm을 가지도록 정규화를 시킨다.
r 0 r_0 r 0 와 가장 관련성이 높은 x j x_j x j 를 찾는다. 다시 말해, a r g m a x x j ⟨ x j , r 0 ⟩ argmax_{x_j}\langle x_j,r_0\rangle a r g ma x x j ⟨ x j , r 0 ⟩ 를 찾는다.
같은 인덱스 j를 가지는 계수β j \beta_j β j 를 0에서 ⟨ x j , r 0 ⟩ \langle x_j,r_0\rangle ⟨ x j , r 0 ⟩ 으로 값을 키운다. 이 때 모형은 r 1 = y − y ˉ − β ^ j x j r_1=y-\bar{y}-\hat{\beta}_jx_j r 1 = y − y ˉ − β ^ j x j . 값을 다음의 부등식을 유지하는 범위에서 키운다.⟨ x j , r 1 ⟩ ≤ ⟨ x k , r 1 ⟩ \langle x_j,r_1 \rangle \leq \langle x_k,r_1\rangle ⟨ x j , r 1 ⟩ ≤ ⟨ x k , r 1 ⟩
위의 인덱스 j,k를 가지는 계수 β j , β k \beta_j,\beta_k β j , β k 를 ⟨ x j , x k ⟩ \langle x_j,x_k \rangle ⟨ x j , x k ⟩ 으로 값을 키운다. 이 때 모형은 r 2 = y − y ˉ − β ^ j x j − β ^ k x k r_2=y-\bar{y}-\hat{\beta}_jx_j-\hat{\beta}_kx_k r 2 = y − y ˉ − β ^ j x j − β ^ k x k . 값을 다음의 부등식을 유지하는 범위에서 키운다. ⟨ x j , x k ⟩ ≤ ⟨ x l , r 2 ⟩ \langle x_j,x_k \rangle \leq \langle x_l,r_2\rangle ⟨ x j , x k ⟩ ≤ ⟨ x l , r 2 ⟩
이러한 방식을 p개의 x들이 모두 모형에 들어갈 때 까지 반복한다. m i n ( N − 1 , p ) min(N-1,p) min ( N − 1 , p ) 스텝 이후 이는 full-least-squares solution과 같아진다.
Full least squares을 구하기 위해서 계산을 그저 p번만 행하면 되므로 매우 계산 효과적인 알고리즘이다. 변수를 표준화하는 이유는 corr을 바로 내적으로 계산하기 위해서이다.
✏️ PCR(Principle Component Regression)
보통의 경우 상관관계가 높은 다량의 독립변수가 존재한다. 이 경우 해당 변수들을 PC로 줄여서 독립변수로 사용하는 것이 PCR이다.
y ^ = β ^ 0 + ∑ m = 1 M θ ^ m z m X v m = z m , θ ^ m z m = P r o j z m y , β ^ p c r ( M ) = ∑ m = 1 M θ ^ m v m \hat{y}= \hat{\beta}_0 + \sum^{M}_{m=1}\hat{\theta}_m z_m \\
Xv_m=z_m, \quad \hat{\theta}_m z_m=Proj _{z_m}{y}, \quad \hat{\beta}^{pcr}(M)=\sum^M_{m=1}\hat{\theta}_mv_m y ^ = β ^ 0 + m = 1 ∑ M θ ^ m z m X v m = z m , θ ^ m z m = P ro j z m y , β ^ p cr ( M ) = m = 1 ∑ M θ ^ m v m 이 때 z m z_m z m 은 principal components이다. 참고로 PC는 다음과 같이 정의된다. Ridge regression과 마찬가지로 해당 방식은 입력변수의 scale에 영향을 많이 받기 때문에 먼저 표준화를 시킨다.(Shrinkage의 경우 변수들간에 scaling이 다르면 불균형한 shrinkage가 일어난다.)
X = U Σ V T , P C i = X v i = U σ i X=U\Sigma V^T, \quad PC_i=Xv_i= U\sigma_i X = U Σ V T , P C i = X v i = U σ i PC 변수 결국 표본분 S = X T X n S=\dfrac{X^TX}{n} S = n X T X 의 scaled 고유벡이다. 이 때 c o l ( U ) = E i g e n v e c t o r s o f X T X col(U)=Eigenvectors \; of \; X^TX co l ( U ) = E i g e n v ec t ors o f X T X 이다. 고유벡터 표기에서 상수 n은 무시하자. U σ i U\sigma_i U σ i 는 고유값으로 스케일링된 고유벡터를 의미한다. 이는 PC변수들로 결국 y를 적합하는 것이다. 이는 ridge regression과 비슷한데, 왜냐하면 ridge에서도 결국 PC축 스케일링으로 데이터를 적합시켰기 때문이다.
X β ^ r i d g e = ∑ j = 1 p d j 2 d j 2 + λ u j u j T y = ∑ j = 1 p ( d j u j ) ( d j u j ) T d j 2 + λ y X\hat{\beta}^{ridge}=\sum^p_{j=1}\frac{d_j^2}{d_j^2+\lambda} u_j u_j^Ty=\sum^p_{j=1}\frac{(d_ju_j)(d_ju_j)^T}{d_j^2+\lambda} y X β ^ r i d g e = j = 1 ∑ p d j 2 + λ d j 2 u j u j T y = j = 1 ∑ p d j 2 + λ ( d j u j ) ( d j u j ) T y 해당 식은 X X T XX^T X X T 의 고유공간에 y를 정사영 내린 후 스케일링 하는 것을 의미한다.
X = U D V T , X V = U D X v i = d i u i = P C i ( i t h P C v a r i a b l e ) X=UDV^T, \; XV=UD \\
Xv_i=d_iu_i=PC_i(i_{th} \; PC \; variable) X = U D V T , X V = U D X v i = d i u i = P C i ( i t h PC v a r iab l e )
Partial Least Squares는 Y와의 공분산이 높은 k개의 선형조합을 추출한다.
ψ ^ 1 j = ⟨ x j , y ⟩ , z 1 = Σ j ψ ^ 1 j x j \hat{\psi}_{1j}=\langle x_j,y\rangle, \quad z_1=\Sigma_j\hat{\psi}_{1j}x_j ψ ^ 1 j = ⟨ x j , y ⟩ , z 1 = Σ j ψ ^ 1 j x j x j x_j x j 를 표준화시킨다. y ^ ( 0 ) = y ˉ 1 \hat{y}^{(0)}=\bar{y}1 y ^ ( 0 ) = y ˉ 1
z m = Σ j = 1 p ψ ^ m j x j ( m − 1 ) , w h e r e ψ ^ m j = ⟨ x j ( m − 1 ) , y ⟩ z_m=\Sigma^p_{j=1}\hat{\psi}_{mj}x_j^{(m-1)}, \quad where \; \hat{\psi}_{mj}=\langle x_j^{(m-1)},y\rangle z m = Σ j = 1 p ψ ^ mj x j ( m − 1 ) , w h ere ψ ^ mj = ⟨ x j ( m − 1 ) , y ⟩
θ ^ m = ⟨ z m , y ⟩ / ⟨ z m , z m ⟩ \hat{\theta}_m=\langle z_m,y \rangle/\langle z_m,z_m \rangle θ ^ m = ⟨ z m , y ⟩ / ⟨ z m , z m ⟩
y ^ ( m ) = y ^ ( m − 1 ) + θ ^ m z m \hat{y}^{(m)}=\hat{y}^{(m-1)}+\hat{\theta}_mz_m y ^ ( m ) = y ^ ( m − 1 ) + θ ^ m z m
Orthogonalizae each x j ( m − 1 ) x_j^{(m-1)} x j ( m − 1 ) with respect to z m z_m z m : x j ( m ) x_j^{(m)} x j ( m )
Y와 high variance&high correlation을 가지도록 집중한다.