
I. PCA는 무엇인가 PCA(Principal Component Analysis)는 대표적인 차원 축소 기법입니다. 데이터의 차원을 축소하는 이유 중 하나는 차원의 저주입니다. 차원의 저주는, 데이터의 Feature가 증가할수록 정확한 예측을 하기 위해 필요한 데이터의 양이 기하급수적으로 증가하는 현상입니다. 예를 들어 라면의 특징들을 기반으로 라면의 평점을 예측하는 인공지능을 모델링하는 상황을 생각해봅시다. 이때 확보한 데이터에 라면의 종류는 100개, 라면의 특징이 1000종류가 포함되어 있다면 어떨까요. 자명하게도 1000가지의 Feature가 동등하게 예측에 사용된다면, 겨우 100가지의 표본만이 존재하기 때문에 학습이 정상적으로 이루어질 수 없습니다. 아래 사진에서 알 수 있듯이 같은 양의 데..

안녕하세요, 아주나 2회차 강의 python 코드 설명을 위한 글입니다. 우선 이 글은 edwith에 첨부된 파일 iris.xlsx를 이용하니 edwith에서 데이터가 저장된 파일 iris.xlsx를 먼저 다운받아 주세요. 우선 데이터로 사용할 iris.xlsx에 대해 간단한 설명을 드리자면 붓꽃(iris)의 꽃잎과 꽃받침의 너비와 길이를 통해 붓꽃의 세 가지 품종 중 하나의 품종을 맞추는 유명한 머신러닝 예제를 저희가 일부 변형하여 만들어낸 데이터입니다. 구체적인 내용은 코드를 통해 데이터를 함께 파악해봅시다. Jupyter notebook이나 colab의 사용법은 매우 비슷한데요, 코드를 삽입할 수 있는 사각형이 있고 이를 셀(Cell)이라고 합니다. 이 부분에 코드를 치고 Ctrl+Enter 또는 ..

이 글은 작성자가 Edwith 강의의 멘토로 활동하면서 수강생들의 이해를 돕기 위해 쓴 글입니다. 매우 친절하게 설명되어 있으므로, 다른 분들이 보셔도 무방합니다. 안녕하세요, 아낌없이 주는 나무 2회차 강의를 듣고 오신 여러분. 이 글에서 R 코드를 설명해드리겠습니다. R_machine_learning.R을 열어 글을 읽으며 하나씩 실행시켜 보세요. (+iris.xlsx도 다운로드받아주세요.) iris.xlsx에는 붓꽃들의 정보가 담겨있습니다. 붓꽃의 줄기 같은 길이 등을 측정하고, 그 붓꽃의 품종과 이를 측정한 기록원의 이름이 있습니다. 우리는 저러한 길이 정보들을 토대로 붓꽃의 품종들을 예측해볼 것입니다. 한 줄을 실행하기 위해서는, 그 위치에 커서를 놓고 CTRL+ENTER를 쳐야 합니다. 여러 ..

제목이 다중 분류이긴 한데 약간 모호할 수 있으므로 Multiclass Classification임을 밝힙니다. 이전 글 https://rython.tistory.com/7 머신러닝 모델의 평가 (1. 이진 분류) 어떠한 결과값을 예측하는 머신러닝 모델을 만들게 된다면 어떤 모델이 더 좋은지 평가를 할 수 있어야 한다. 이러한 평가는 모델을 다 만든 후에만 하는 것이 아니라 모델을 선택하고 만드는 rython.tistory.com 이전 글에서는 이진 분류의 평가 지표들에 대해 알아보았습니다. Titanic 생존자 예측과 같은 경우에는 target이 0과 1, 즉 이진 분류로 해결할 수 있는 문제인데요, 분류 문제를 보면 항상 2가지로 나누는 문제만 있는 것은 아닙니다. 예를 들면 Iris 품종 예측과 같..