I. PCA는 무엇인가 PCA(Principal Component Analysis)는 대표적인 차원 축소 기법입니다. 데이터의 차원을 축소하는 이유 중 하나는 차원의 저주입니다. 차원의 저주는, 데이터의 Feature가 증가할수록 정확한 예측을 하기 위해 필요한 데이터의 양이 기하급수적으로 증가하는 현상입니다. 예를 들어 라면의 특징들을 기반으로 라면의 평점을 예측하는 인공지능을 모델링하는 상황을 생각해봅시다. 이때 확보한 데이터에 라면의 종류는 100개, 라면의 특징이 1000종류가 포함되어 있다면 어떨까요. 자명하게도 1000가지의 Feature가 동등하게 예측에 사용된다면, 겨우 100가지의 표본만이 존재하기 때문에 학습이 정상적으로 이루어질 수 없습니다. 아래 사진에서 알 수 있듯이 같은 양의 데..
Introduction 많은 이들이 결정계수 R^2과 상관계수의 제곱 r^2을 동등하게 여긴다. 이는 통계학에서 두드러지는데, 실제로 책 에서는 결정계수를 r^2으로 계산하도록 하고, 통계학 특화 프로그래밍 언어 R의 매우 유명한 package, caret package의 함수 postResample마저도 그렇다. “상관계수를 제곱한 값, 즉 을 결정계수(coefficient of determination)라고 부른다. 이 값은 한 변수의 변이성(variability) 또는 변동(variation)을 다른 변수가 어느 정도나 공유하는지 말해주는 척도이다.” 책 Caret package 개발자의 설명 문서, topepo.github.io/caret/measuring-performance.html#measu..
안녕하세요, 아주나 2회차 강의 python 코드 설명을 위한 글입니다. 우선 이 글은 edwith에 첨부된 파일 iris.xlsx를 이용하니 edwith에서 데이터가 저장된 파일 iris.xlsx를 먼저 다운받아 주세요. 우선 데이터로 사용할 iris.xlsx에 대해 간단한 설명을 드리자면 붓꽃(iris)의 꽃잎과 꽃받침의 너비와 길이를 통해 붓꽃의 세 가지 품종 중 하나의 품종을 맞추는 유명한 머신러닝 예제를 저희가 일부 변형하여 만들어낸 데이터입니다. 구체적인 내용은 코드를 통해 데이터를 함께 파악해봅시다. Jupyter notebook이나 colab의 사용법은 매우 비슷한데요, 코드를 삽입할 수 있는 사각형이 있고 이를 셀(Cell)이라고 합니다. 이 부분에 코드를 치고 Ctrl+Enter 또는 ..
이 글은 작성자가 Edwith 강의의 멘토로 활동하면서 수강생들의 이해를 돕기 위해 쓴 글입니다. 매우 친절하게 설명되어 있으므로, 다른 분들이 보셔도 무방합니다. 안녕하세요, 아낌없이 주는 나무 2회차 강의를 듣고 오신 여러분. 이 글에서 R 코드를 설명해드리겠습니다. R_machine_learning.R을 열어 글을 읽으며 하나씩 실행시켜 보세요. (+iris.xlsx도 다운로드받아주세요.) iris.xlsx에는 붓꽃들의 정보가 담겨있습니다. 붓꽃의 줄기 같은 길이 등을 측정하고, 그 붓꽃의 품종과 이를 측정한 기록원의 이름이 있습니다. 우리는 저러한 길이 정보들을 토대로 붓꽃의 품종들을 예측해볼 것입니다. 한 줄을 실행하기 위해서는, 그 위치에 커서를 놓고 CTRL+ENTER를 쳐야 합니다. 여러 ..