๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

๐Ÿ’ซ ์ˆ˜ํ•™

ํšŒ๊ท€๋ถ„์„์„ ์œ„ํ•œ ์„ ํ˜•๋ชจ๋ธ, Linear Models for Regression

ํšŒ๊ท€๋ถ„์„

- ์ง€๋„ ํ•™์Šต

๋ชฉํ‘œ: ์‹ค์ˆ˜ ๋ฒ”์œ„์˜ 

- ํ•ด์„๋ ฅ์ด ์ข‹๋‹ค

- ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ๊ด€์ธก๋˜๊ธฐ ์ „์— ๊ณ ์ •

์ฐจ์›์˜ ์ €์ฃผ ๋ฌธ์ œ ์žˆ์Œ

 

bias varience trade off

์˜ˆ์ธก trad off ์ถ”๋ก  - ISIR

์˜ˆ์ธก ์ •ํ™•๋„๊ฐ€ ๋†’์œผ๋ฉด ( ์œ ์—ฐ์„ฑflexivity์ด ๋†’์•„์„œ) ๋ชจ๋ธ์„ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋Š”  ํ•ด์„๋ ฅ์ด ๋‚ฎ์•„์ง€๋Š” ๊ด€๊ณ„

 

๊ธฐ์ €ํ•จ์ˆ˜ basis function  ฯ•()

- ๊ณต๊ฐ„์„ ๋ฐ”๊ฟ”์ค€๋‹ค?

- ํ™œ์„ฑํ™” ํ•จ์ˆ˜๊ฐ™์€ ๋ถ€์—ฐ์„ค๋ช…์ด ๋‹ฌ๋ ค์žˆ๋Š”๊ฑฐ๊ฐ™์€๋ฐ(์•„๋‹˜); ๊ธฐ์ €ํ•จ์ˆ˜์˜ ๋„์ž…์œผ๋กœ ๊ธฐ์กด์—๋Š” x์— ๋Œ€ํ•œ ์„ ํ˜• ์‹์ด์—ˆ๋˜ y(x, w) ํ•จ์ˆ˜๊ฐ€ x์— ๋Œ€ํ•œ ๋น„์„ ํ˜• ํ•จ์ˆ˜๊ฐ€ ๋  ์ˆ˜๋„ ์žˆ๋‹ค.

- ๊ธฐ์ €ํ•จ์ˆ˜์— PCA๋ฅผ ๋„ฃ์„ ์ˆ˜๋„ ์žˆ๊ณ 

- ์„ ํ˜•ํšŒ๊ท€์˜ ์„ ํ˜•์ด๋ผ๋Š”๊ฒŒ W์— ๋Œ€ํ•ด ์„ ํ˜•์ด๋ผ๋Š” ๊ฒƒ์ด๊ณ , x์— ๋Œ€ํ•ด์„œ๋Š” ์„ ํ˜•์ด ์•„๋‹ˆ์—ฌ๋„ ๋œ๋‹ค.

- ๊ธฐ์ €ํ•จ์ˆ˜ ์ „์ฒ˜๋ฆฌํ•ด์ฃผ๋Š”๊ฑฐ๊ฐ™๋„ค normalizeํ•˜๊ฑฐ๋‚˜ ๊ทธ๋Ÿฌ๋Š”๊ฑฐ

- CNN + ๋งˆ์ง€๋ง‰์— linear func์œผ๋กœ ๋ถ„๋ฅ˜ํ•ด์ฃผ๋Š” ๋ชจ๋ธ์„ ์ƒ๊ฐํ•ด๋ดค์„๋–„, CNN๋ถ€๋ถ„ == feature extractor == ฯ•() ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Œ.

- ๊ธฐ์ €ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•ด์„œ ์ปค๋ธŒํ”ผํŒ…ํ•˜๋Š” ๋ฐฉ์‹

 

 

์ตœ๋Œ€ ๊ฐ€๋Šฅ๋„ == ์ตœ์†Œ ์ œ๊ณฑ๋ฒ•

- ํ˜•ํƒœ๊ฐ€ ๊ฐ™์Œ ์ฆ๋ช…๋ณด๊ธฐ

 

์ตœ์†Œ ์ œ๊ณฑ๋ฒ•์˜ ๊ธฐํ•˜ํ•™์  ์˜๋ฏธ

Least squares๋ฅผ ํ•˜๋Š” ์ด์œ 

์‹ค์ธก๊ฐ’ t์™€ ๊ฐ€์žฅ ๋น„์Šทํ•œ y๋ฅผ ํˆฌ์˜?

t ํƒ€๊ฒŸ ๋ณ€์ˆ˜๋ฅผ ์ชผ๊ฐœ๋Š” ๊ฑฐ

ํ•˜๋‚˜๋Š” ์ง๊ตํ•˜๊ณ  ํ•˜๋‚˜๋Š” spanํ•œ ๊ณต๊ฐ„์—์„œ t์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด y

 

ํ•ด๊ฐ€ ์žˆ์œผ๋ฉด ์ง๊ตํ•œ ๋ฒกํ„ฐ๋“ค๋กœ ์ด๋ค„์ง„ ๊ณต๊ฐ„์œผ๋กœ ๋“ค์–ด๊ฐ€๋Š”๋ฐ

(ํ•ด๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์—)์„ ์— ๋ฒ—์–ด๋‚˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— t์™€ ๊ฐ€๊นŒ์šด ์ตœ์†Œ ์ž‘์€ ์ ์„(๊ทผ์‚ฌํ•ด) ์ฐพ์„๋ ค๋ฉด ๊ทธ ๊ณต๊ฐ„์—์„œ ์ง๊ตํ•œ ์ ์„ ์ฐพ๋Š”๊ฑฐ

๊ทธ ๊ณต๊ฐ„์—์„œ ์ˆ˜์ง์œผ๋กœ ์˜ฌ๋ผ๊ฐ„ ์ ์ด ๊ฐ€์žฅ ๊ฐ€๊นŒ์›€

 

basis๊ฐ€ ์ด๋ฃจ๊ณ  ์žˆ๋Š” ๋ฒกํ„ฐ์ŠคํŽ˜์ด์Šค์— target๋“ค์„ ํ‘œํ˜„ํ•˜๊ณ  ์‹ถ์–ด์„œ ํˆฌ์˜์„ ํ•˜๋Š”๊ฑฐ์•ผ?

 

 

 

์—ญํ–‰๋ ฌ ๊ณ„์‚ฐ ๋น„์‹ธ์„œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์ง€๋ฉด, ๊ณ„์‚ฐํ•  ์ˆ˜๊ฐ€ ํž˜๋“ค์–ด์ง„๋‹ค

>>>

์‹œํ€€์Šค ํ•™์Šต

 

์™œ ์ˆœ์ฐจ์  ํ•™์Šต์„ ํ•˜๋Š”๊ฐ€?

(1. ๊ทธ๋ฆฌ๋“œ ์„œ์น˜

- ๊ฐ€๋Šฅํ•œ x ๊ฐ’์„ ์ „๋ถ€ ๋„ฃ๊ณ  ์ตœ์ ์˜ parameter๋ฅผ ์ฐพ๋Š”๋‹ค. ( ๋„ˆ๋ฌด ๊ณ„์‚ฐ๋Ÿ‰์ด ํผ)

- ์ˆ˜๋งŽ์€ ๊ฐ€๋Šฅ์„ฑ์„ ๋ชจ๋‘ ๊ณ ๋ คํ•ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ณ„์‚ฐ๋Ÿ‰์ด ์ƒ๋‹น.)

 

2. ์ˆ˜์น˜์  ์ตœ์ ํ™”

- ์‹œํ–‰์ฐฉ์˜ค ๋ฐ˜๋ณต์œผ๋กœ ์ตœ์ ์˜ parameter๋ฅผ ์ฐพ๋Š”๋‹ค.

- ์ˆœ์ฐจ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•, ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ• SGD

- ํ•™์Šต๋ฅ  ์ ๋‹นํ•˜๊ฒŒ ์ค˜์•ผํ•จ. ๋„ˆ๋ฌด ํฌ๋ฉด ์ง„๋™.

 

 

์ •์น™ํ™”๊ฐ€ ํฌํ•จ๋œ ์ตœ์†Œ ์ œ๊ณฑ๋ฒ•

 

 

 

 

q=2์ธ ๊ฒฝ์šฐ, 
q=1์ธ ๊ฒฝ์šฐ, Lasso: ๋žŒ๋‹ค ๊ฐ’์ด ์ถฉ๋ถ„ํžˆ ํฌ๋‹ค๋ฉด m-1 ๊ฐœ์˜ w ์ค‘์— ๋งŽ์€ ์ˆ˜๊ฐ€ 0์ด ๋˜๊ฑฐ๋‚˜, 0์— ๊ฐ€๊นŒ์šด ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋œ๋‹ค. ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ feature selection์ด ๋œ๋‹ค.

Bias-Variance Decomposition

 

์ถ•์†Œ๊ฐ€๋Šฅ ์˜ค์ฐจ

- ๊ด€๊ณ„์‹  ๋งค๊ฐœ๋ณ€์ˆ˜ ์–ด๋–ป๊ฒŒ ์„ค์ •ํ•˜๋Š”์ง€์— ๋”ฐ๋ผ y(x)์— ๋”ฐ๋ผ ๋ณ€๋™๋˜๋Š” ์˜ค์ฐจ

 

์ถ•์†Œ ๋ถˆ๊ฐ€๋Šฅ ์˜ค์ฐจ

- ๋ฐ์ดํ„ฐ ์ž์ฒด์˜ ๋‚ด์žฌ์  ์˜ค๋ฅ˜๋กœ ์ธํ•œ ์˜ค์ฐจ (์ด์ƒ์ ์œผ๋กœ ๋ชจ๋ธ๋ง ํ–ˆ์–ด๋„ ๋‚˜์˜ค๋Š” ์˜ค์ฐจ)

 

์œ ์—ฐํ•œ ๋ชจ๋ธ ํŽธํ–ฅ ํฌ๊ณ  ๋ถ„์‚ฐ ์ž‘์Œ

์—„๊ฒฉํ•œ ๋ชจ๋ธ์€ ํŽธํ–ฅ ์ž‘๊ณ  ๋ถ„์‚ฐ ํผ

์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋‘”๊ฐํ•œ ๋งจ ์œ„ ๋ชจ๋ธ /   / ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋ฏผ๊ฐํ•œ ๋ถ„์‚ฐ์ด ๋†’์€ ์•„๋ž˜์ชฝ ๋ชจ๋ธ