Introduction 많은 이들이 결정계수 R^2과 상관계수의 제곱 r^2을 동등하게 여긴다. 이는 통계학에서 두드러지는데, 실제로 책 에서는 결정계수를 r^2으로 계산하도록 하고, 통계학 특화 프로그래밍 언어 R의 매우 유명한 package, caret package의 함수 postResample마저도 그렇다. “상관계수를 제곱한 값, 즉 을 결정계수(coefficient of determination)라고 부른다. 이 값은 한 변수의 변이성(variability) 또는 변동(variation)을 다른 변수가 어느 정도나 공유하는지 말해주는 척도이다.” 책 Caret package 개발자의 설명 문서, topepo.github.io/caret/measuring-performance.html#measu..
Linear Regression은 몇 가지 가정과 함께 모델을 만든다. 이번 포스팅에서는 그 가정을 간략히 살펴보고, 데이터와 모델이 가정에 부합하는지 판단할 수 있는 R 코드를 설명한다. 그 가정들은 다음과 같다. 선형회귀모형이 $Y_i = \sum \alpha_i X_i + \beta + \epsilon_i, \epsilon_i \sim N(0, \sigma^2)$ 을 가정한다는 점을 상기하면 이해에 도움이 될 것이다. 1. 선형성: 종속 변인과 독립 변인 사이에 선형적 관계가 존재해야 한다. 당연한 이야기다. Linear Regression이 무엇인지 안다면 자명하게 받아들일 수 있다. 2. 다중공선성 X: 독립 변인들 간의 강한 상관관계가 없어야 한다. 다중선형회귀분석에서만 따져주면 되는 조건이다..