
GAN은 최근 가장 각광받고있는 모델이다. GAN은 아주 다양한 분야에 응용될 수 있고 굉장히 다양한 변형 GAN들이 나타나고 있다. 각각의 모델들의 구조와 구현은 따로 글을 포스팅할 것이고 각각의 GAN에 대한 전체적인 설명을 하고자 한다. GAN의 목표 우선 GAN이 무엇을 하는 모델인지부터 알아보자. 가장 처음 등장한 GAN은 두 개의 network를 가지며 각각 Generator와 Discriminator라고 한다. GAN의 목표는 원래의 data의 분포를 학습하여 그 분포를 따라 새로 만들어내는(Generate) 것이 목적이다. Generator는 실제로 새로운 data를 만들어내는 일을 하게 되고 Discriminator는 실제 data와 만들어 낸 가짜 data를 Classification하..

안녕하세요, Killer T Cell입니다. 이번에는 Phylogenetic Tree를 R로써 어떻게 구현하는지 포스팅하겠습니다. 전체적 개괄은 다음과 같습니다. 우선 Phylogenetic Tree란 생물의 진화로 인해 발생한 유사성, 차이를 기반으로 친연 관계를 분석해 그림으로 나타낸 일종의 다이어그램입니다. 각 node 간의 수직적 거리가 진화적 거리를 의미하며, 이외에도 여러 주요한 특징이 있으나 이곳은 R 카테고리이기에 자세한 내용은 생략하겠습니다. 이 글을 보시는 분들은 이미 충분히 배경에 대해 아시라 생각합니다...^^ 사용한 DATASET입니다. Source: https://www.ncbi.nlm.nih.gov/genbank/ A형 influenza를 일으키는 H3N2 virus의 sequ..

어떠한 결과값을 예측하는 머신러닝 모델을 만들게 된다면 어떤 모델이 더 좋은지 평가를 할 수 있어야 한다. 이러한 평가는 모델을 다 만든 후에만 하는 것이 아니라 모델을 선택하고 만드는 과정에서도 계속해서 사용하게 된다. 이러한 모델을 평가하는 방법 중 처음으로 분류 모델 중 가장 간단한 이진 분류 모델의 성능을 평가할 수 있는 몇 개의 지표들을 알아보자. 회귀와 다중 분류에 대한 평가 지표는 추후에 포스팅할 것이다. 1. 정확도 Accuracy 정확도는 우리가 가장 이해하기 쉽고 가장 널리 쓰이는 평가 지표이다. 아마 머신러닝을 처음 접하는 사람들도 어떤 지표인지 알 수 있을 것이라 생각한다. 전체 예측한 data의 개수에 대한 옳게 예측한 data의 개수의 비율로 나타내며 0에서 1 사이의 값을 가진..

Linear Regression은 몇 가지 가정과 함께 모델을 만든다. 이번 포스팅에서는 그 가정을 간략히 살펴보고, 데이터와 모델이 가정에 부합하는지 판단할 수 있는 R 코드를 설명한다. 그 가정들은 다음과 같다. 선형회귀모형이 Yi=∑αiXi+β+ϵi,ϵi∼N(0,σ2) 을 가정한다는 점을 상기하면 이해에 도움이 될 것이다. 1. 선형성: 종속 변인과 독립 변인 사이에 선형적 관계가 존재해야 한다. 당연한 이야기다. Linear Regression이 무엇인지 안다면 자명하게 받아들일 수 있다. 2. 다중공선성 X: 독립 변인들 간의 강한 상관관계가 없어야 한다. 다중선형회귀분석에서만 따져주면 되는 조건이다..