
R에는 참 위대한 package들이 많습니다. dplyr이 대표적이죠. 그러나 그 중 압권은 단연컨대 caret이라 생각합니다. caret은 "short for Classification And REgression Training"의 약자로 분류와 회귀를 매우 간편하게 만들어주는 package로, R의 머신러닝 구현을 python보다 극도로 쉽게 만들었습니다. caret이 편리한 이유들은 다음과 같습니다. 1. train/test 효율적 분획: createDataPartition() 2. 간편한 전처리: preProcess() 3. 손쉬운 모델 훈련 컨트롤: trainControl() 4. 튜닝 기본 제공 + 추가적 튜닝의 편의성: tuneGrid, tunelength 등 5. 대부분의 모델 지원 이번 ..

어떠한 결과값을 예측하는 머신러닝 모델을 만들게 된다면 어떤 모델이 더 좋은지 평가를 할 수 있어야 한다. 이러한 평가는 모델을 다 만든 후에만 하는 것이 아니라 모델을 선택하고 만드는 과정에서도 계속해서 사용하게 된다. 이러한 모델을 평가하는 방법 중 처음으로 분류 모델 중 가장 간단한 이진 분류 모델의 성능을 평가할 수 있는 몇 개의 지표들을 알아보자. 회귀와 다중 분류에 대한 평가 지표는 추후에 포스팅할 것이다. 1. 정확도 Accuracy 정확도는 우리가 가장 이해하기 쉽고 가장 널리 쓰이는 평가 지표이다. 아마 머신러닝을 처음 접하는 사람들도 어떤 지표인지 알 수 있을 것이라 생각한다. 전체 예측한 data의 개수에 대한 옳게 예측한 data의 개수의 비율로 나타내며 0에서 1 사이의 값을 가진..