λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°

πŸ’« μˆ˜ν•™

톡계학 3μ£Όμ°¨ - νšŒκ·€λΆ„μ„

톡계적 좔정을 ν•˜λŠ” μ΄μœ λŠ” 무엇인가?

μ–΄λ–€ λͺ¨μ§‘단을 λŒ€μƒμœΌλ‘œ μ‹€ν—˜μ΄λ‚˜ 쑰사λ₯Ό ν• λ•Œ, μ‹œκ°„κ³Ό λΉ„μš©μ˜ μ œμ•½μ΄ μžˆμ–΄ μ „μˆ˜μ‘°μ‚¬λ₯Ό ν•˜κΈ° νž˜λ“œλ―€λ‘œ ν‘œλ³Έμ„ 뽑아 쑰사 및 μ‹€ν—˜μ„ μ§„ν–‰ν•˜μ—¬ λͺ¨μ§‘λ‹¨μ˜ ν™•λ₯ λΆ„포λ₯Ό μΆ”μ •ν•˜λŠ” 톡계적 좔정을 ν•œλ‹€.

점좔정과 κ΅¬κ°„μΆ”μ •μ˜ 차이λ₯Ό μ„€λͺ…ν•˜μ‹œμ˜€.
(κ΅¬κ°„μΆ”μ •μ˜ 경우, μ‹ λ’°κ΅¬κ°„μ˜ μ •μ˜μ™€ ν•¨κ»˜ μ„€λͺ…ν•˜μ‹œμ˜€)

μ μΆ”μ •μ΄λž€ 수치적 μΆ”μ •μΉ˜λ₯Ό μ˜ˆμΈ‘ν•˜λŠ” 것이닀.
κ΅¬κ°„μΆ”μ •μ΄λž€ 일정 κ΅¬κ°„μ•ˆμ˜ μ΅œμ†Ÿκ°’κ³Ό μ΅œλŒ“κ°’ μ‚¬μ΄μ˜ 값이라고 μΆ”μ •ν•˜λŠ” 것이닀.
λŒ€ν‘œμ μΈ ꡬ간좔정 방법은 μ‹ λ’°κ΅¬κ°„μžˆλ‹€.

신뒰ꡬ간은 ν‘œλ³Έ ν†΅κ³„λŸ‰μ—μ„œ νŒŒμƒλ˜μ–΄ μ•Œ 수 μ—†λŠ” λͺ¨μ§‘단 λͺ¨μˆ˜ 값이 포함될 κ°€λŠ₯성이 μžˆλŠ” κ°’μ˜ λ²”μœ„μ΄λ‹€.

 

λ…λ¦½λ³€μˆ˜μ™€ μ’…μ†λ³€μˆ˜ 각각에 λŒ€ν•΄ μ˜ˆμ‹œλ₯Ό λ“€μ–΄ μ„€λͺ…ν•˜μ‹œμ˜€.

λ…λ¦½λ³€μˆ˜λž€ μ’…μ†λ³€μˆ˜λ₯Ό μ„€λͺ…ν•΄μ£ΌλŠ” λ³€μˆ˜λ₯Ό λ§ν•œλ‹€.
μ’…μ†λ³€μˆ˜λž€ λ…λ¦½λ³€μˆ˜μ— μ˜ν•΄ μ„€λͺ…μ΄λ˜λŠ” λ³€μˆ˜λ₯Ό λ§ν•œλ‹€.

 

μ΅œμ†ŒμžμŠΉλ²•μ˜ 원리에 λŒ€ν•΄ μ„€λͺ…ν•˜μ‹œμ˜€. 

xκ°€ λ…λ¦½λ³€μˆ˜, yλ₯Ό μ’…μ†λ³€μˆ˜λΌκ³  보자,
μ–΄λ– ν•œ 좔세선을 λ³΄μ΄λŠ” μ‚¬νšŒμ  ν˜„μƒμ˜ κ΄€μΈ‘ν•œ 데이터듀은 같은 y값을 κ°€μ‘Œλ‹€ν•˜λ”λΌλ„ λ‹€λ₯Έ x값듀이 λ‹€λ₯Ό 수 μžˆλ‹€.

κ·Έλž˜μ„œ μ‹€μ œ 데이터와 μ„ ν˜•λͺ¨λΈμ΄ μ˜ˆμΈ‘ν•œ κ°’κ³Ό μ˜€μ°¨κ°€ μžˆμ„ μˆ˜λ°–μ— μ—†λ‹€.

μ΄λ•Œ, 였차제곱의 합을 κ°€μž₯ μž‘κ²Œ λ§Œλ“œλŠ” μ„ ν˜•λͺ¨λΈμ„ μ„ νƒν•˜κ² λ‹€λŠ”κ²Œ μ΅œμ†ŒμžμŠΉλ²•μ˜ μž‘λ™μ›λ¦¬μ΄λ‹€.
μ œκ³±μ„ ν•˜λŠ” μ΄μœ λŠ” λͺ¨λ“  였차λ₯Ό μ–‘μˆ˜λ‘œ λ§Œλ“€μ–΄μ£ΌκΈ° μœ„ν•΄μ„œ 이닀.

 

νšŒκ·€λͺ¨ν˜•μ˜ μ„€λͺ…λ ₯ (R^2)은 무엇인가?

κ²°μ •κ³„μˆ˜λŠ” 주어진 λ…λ¦½λ³€μˆ˜λ“€λ‘œ μ˜ˆμΈ‘ν•œ μ’…μ†λ³€μˆ˜κ°’κ³Ό μ‹€μ œ μ’…μ†λ³€μˆ˜ κ°’μ˜ 상관관계λ₯Ό λ‚˜νƒ€λ‚΄λŠ” κ³„μˆ˜μ΄λ‹€. 즉, λͺ¨λΈμ˜ μ„€λͺ…λ ₯이닀. λ§Œμ•½ κ²°μ •κ³„μˆ˜κ°€ 0.25 이면 25% μ„€λͺ…λ ₯을 κ°–λŠ”λ‹€.

 

각 λ…λ¦½λ³€μˆ˜μ˜ κ³„μˆ˜μ™€ μœ μ˜μ„±(P-value)의 μ˜λ―Έμ— λŒ€ν•΄ μ„€λͺ…ν•˜μ‹œμ˜€.

ν†΅κ³„μ μœΌλ‘œ μœ μ˜λ―Έν•˜λ‹€λŠ” 것은, κ³„μ‚°ν•œ λͺ¨ν˜•μ΄ λͺ¨μ§‘λ‹¨μ—λŒ€ν•΄ 적용 κ°€λŠ₯ν•˜λ‹€λŠ” 것이닀. 
각 λ…λ¦½λ³€μˆ˜μ™Έ 자료의 μˆ˜μ— μ˜ν•œ μžμœ λ„λ³„ 톡계값에 μœ μ˜ν•œ 것이 p-value이닀.

 

λ‹¨μˆœνšŒκ·€λΆ„μ„κ³Ό λ‹€μ€‘νšŒκ·€λΆ„μ„μ˜ μ°¨μ΄λŠ” 무엇인가? μ˜ˆμ‹œμ™€ ν•¨κ»˜ μ„€λͺ…ν•˜μ‹œμ˜€. *



νšŒκ·€λΆ„μ„μ΄λž€

νšŒκ·€λͺ¨λΈμ€ 'μž”μ°¨μ˜ ν‰κ· μœΌλ‘œ νšŒκ·€ν•˜λŠ” 것'

1. 무엇이 μ–΄λ””λ‘œ νšŒκ·€ν•˜λŠ”κ°€:
골턴-'ν‰κ· μœΌλ‘œμ˜ νšŒκ·€'
데이터가 νšŒκ·€ λͺ¨λΈμ΄ μ œμ‹œν•œ μΆ”μ„Έμ„ μœΌλ‘œ νšŒκ·€ν•˜λŠ” 것

 

μž”μ°¨ residual

λ°μ΄ν„°μ˜ μ‹€μΈ‘μΉ˜μ™€ λͺ¨λΈμ˜ 예츑치 μ‚¬μ΄μ˜ 차이, 즉, νšŒκ·€μ‹μ—μ„œ μ˜€μ°¨ν•­μ— λŒ€ν•œ κ΄€μΈ‘μΉ˜

- μž”μ°¨μ˜ λΆ„ν¬λŠ” μ •κ·œ 뢄포이여야 ν•œλ‹€.

- μž”μ°¨μ™€ λ…λ¦½λ³€μˆ˜ X 사이에 상관관계가 μ—†κ³ , 자기 μžμ‹ κ³Όλ„ 상관이 μ—†μ–΄μ•Ό ν•œλ‹€. (μž”μ°¨λŠ” 독립이어야 ν•œλ‹€)

- μž”μ°¨μ˜ λΆ„ν¬λŠ” μΌμ •ν•΄μ•Όν•œλ‹€. (μž”μ°¨λŠ” 등뢄산성을 λ§Œμ‘±ν•΄μ•Ό ν•œλ‹€)

μœ„ 쑰건을 λͺ¨λ‘ λ§Œμ‘±ν•œλ‹€λ©΄ ν•΄λ‹Ή λͺ¨λΈμ˜ μ˜ˆμΈ‘μΉ˜μ™€ μ‹€μ œ 데이터 μ‚¬μ΄μ˜ 차이인 μž”μ°¨λŠ” ν‰κ· μœΌλ‘œ νšŒκ·€ν•œλ‹€. λ‹€μ‹œ λ§ν•˜λ©΄, 비둝 μ‹€μ œ μ„Έκ³„μ—μ„œ μ–΄μ©” 수 없이 μ‘΄μž¬ν•˜λŠ” 작음으둜 인해 μ™„μ „νžˆ μ˜ˆμΈ‘μΉ˜μ™€ μ‹€μΈ‘μΉ˜κ°€ μΌμΉ˜ν•˜μ§€λŠ” μ•ŠμœΌλ©° κ·Έλž˜μ„œ μ–΄λ–€ 데이터에 λŒ€ν•΄ κ·Έ 차이가 클 수 μžˆμ§€λ§Œ 전체 μΆ”μ„Έλ‘œ λ³Ό λ•ŒλŠ” μž”μ°¨λŠ” 평균 (λŒ€κ°œλŠ” 0)으둜 μˆ˜λ ΄ν•©λ‹ˆλ‹€.

 

μž”μ°¨μ˜ μ •κ·œμ„±

(μž”μ°¨μ˜ λΆ„ν¬λŠ” μ •κ·œ 뢄포이여야 ν•œλ‹€.)

λ§Œμ•½ μ–΄λ–€ 데이터에 λŒ€ν•΄ μ •ν™•ν•œ λͺ¨λΈμ„ λ§Œλ“€μ—ˆλ‹€λ©΄ κ·Έ λͺ¨λΈκ³Ό μ‹€μ œ 데이터 μ‚¬μ΄μ˜ 였차의 ν™•λ₯ λΆ„ν¬λŠ” μ •κ·œ 뢄포λ₯Ό λ”°λ₯Έλ‹€. κ·Έ μ΄μœ λŠ” μ •κ·œ 뢄포 μžμ²΄κ°€ μ›λž˜ μ˜€μ°¨μ— λŒ€ν•œ ν™•λ₯  뢄포이기 λ•Œλ¬Έμ΄λ‹€ κ°€μš°μŠ€κ°€ 천체 κ΄€μΈ‘ μ‹œ λ°œμƒν•˜λŠ” 였차의 μ„±μ§ˆμ„ μ—°κ΅¬ν•˜λ˜ 쀑 μ •κ·œ 뢄포λ₯Ό λ°œκ²¬ν–ˆλ‹€. λ‹Ήμ‹œ μ²œμ²΄κ΄€μΈ‘μ„ λˆˆμœΌλ‘œν•˜λ‹€λ³΄λ‹ˆ 맀번 κ΄€μΈ‘ν•  λ•Œλ§ˆλ‹€ μ‘°κΈˆμ”© μ˜€μ°¨κ°€ λ°œμƒν–ˆλ‹€. 그런데 이 차이값듀 μ‚¬μ΄μ˜ 관계λ₯Ό λΆ„μ„ν•΄λ³΄λ‹ˆ 이 값듀이 평균에 κ·Όμ ‘ν• μˆ˜λ‘ λ°œμƒν™•λ₯ μ΄ λ†’κ³  ν‰κ· μ—μ„œ λ©€μ–΄μ§ˆμˆ˜λ‘ ν™•λ₯ μ΄ λ–¨μ–΄μ§€λŠ” 뢄포 κ·œμΉ™μ„ λ”°λ₯Έλ‹€λŠ” 것을 λ°œκ²¬ν–ˆλ‹€.