회귀분석을 위한 선형모델, Linear Models for Regression

회귀분석

- 지도 학습

목표: 실수 범위의

- 해석력이 좋다

- 훈련 데이터 관측되기 전에 고정

차원의 저주 문제 있음

bias varience trade off

예측 trad off 추론 - ISIR

예측 정확도가 높으면 ( 유연성flexivity이 높아서) 모델을 해석할 수 있는 해석력이 낮아지는 관계

기저함수 basis function ϕ(⋅)

- 공간을 바꿔준다?

- 활성화 함수같은 부연설명이 달려있는거같은데(아님); 기저함수의 도입으로 기존에는 x에 대한 선형 식이었던 y(x, w) 함수가 x에 대한 비선형 함수가 될 수도 있다.

- 기저함수에 PCA를 넣을 수도 있고

- 선형회귀의 선형이라는게 W에 대해 선형이라는 것이고, x에 대해서는 선형이 아니여도 된다.

- 기저함수 전처리해주는거같네 normalize하거나 그러는거

- CNN + 마지막에 linear func으로 분류해주는 모델을 생각해봤을떄, CNN부분 == feature extractor == ϕ(⋅) 로 볼 수 있음.

- 기저함수를 이용해서 커브피팅하는 방식

최대 가능도 == 최소 제곱법

- 형태가 같음 증명보기

최소 제곱법의 기하학적 의미

Least squares를 하는 이유

실측값 t와 가장 비슷한 y를 투영?

t 타겟 변수를 쪼개는 거

하나는 직교하고 하나는 span한 공간에서 t와 가장 가까운 y

해가 있으면 직교한 벡터들로 이뤄진 공간으로 들어가는데

(해가 없기 때문에)선에 벗어나 있기 때문에 t와 가까운 최소 작은 점을(근사해) 찾을려면 그 공간에서 직교한 점을 찾는거

그 공간에서 수직으로 올라간 점이 가장 가까움

basis가 이루고 있는 벡터스페이스에 target들을 표현하고 싶어서 투영을 하는거야?

역행렬 계산 비싸서 데이터가 많아지면, 계산할 수가 힘들어진다

>>>

시퀀스 학습

왜 순차적 학습을 하는가?

(1. 그리드 서치

- 가능한 x 값을 전부 넣고 최적의 parameter를 찾는다. ( 너무 계산량이 큼)

- 수많은 가능성을 모두 고려해야 하기 때문에 계산량이 상당.)

2. 수치적 최적화

- 시행착오 반복으로 최적의 parameter를 찾는다.

- 순차적 경사하강법, 확률적 경사하강법 SGD

- 학습률 적당하게 줘야함. 너무 크면 진동.

정칙화가 포함된 최소 제곱법

q=1인 경우, Lasso: 람다 값이 충분히 크다면 m-1 개의 w 중에 많은 수가 0이 되거나, 0에 가까운 값을 가지게 된다. 자연스럽게 feature selection이 된다.

Bias-Variance Decomposition

축소가능 오차

- 관계신 매개변수 어떻게 설정하는지에 따라 y(x)에 따라 변동되는 오차

축소 불가능 오차

- 데이터 자체의 내재적 오류로 인한 오차 (이상적으로 모델링 했어도 나오는 오차)

유연한 모델 편향 크고 분산 작음

엄격한 모델은 편향 작고 분산 큼

새로운 데이터에 둔감한 맨 위 모델 / / 새로운 데이터에 민감한 분산이 높은 아래쪽 모델

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

hon9g

회귀분석을 위한 선형모델, Linear Models for Regression

Bias-Variance Decomposition

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

회귀분석을 위한 선형모델, Linear Models for Regression

Bias-Variance Decomposition

'💫 수학' Related Articles

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역