MachineLearning - Introduction

2019. 1. 27. 15:21Artificial Intelligence

* 모든 자료의 저작권은 COSERA에 있음을 미리 밝힙니다.


Machine Learning - Introduction


save image



어떤 주제에 대한 깊이있는 공부를 하기 위한 첫 단계는 우선 주제의 정의와 의미에 대해 한번 생각해보는 것일 가능성이 크다.

코세라의 머신 러닝 강의에서는 머신 러닝(기계학습)의 정의를 다음과 같이 두번에 걸쳐 소개하고 있다.



1. 명확하게 프로그래밍하지 않고, 컴퓨터에게 학습할 능력을 부여하는 분야의 학문이다.

2. 컴퓨터가 P라는 측정방법을 통해 퍼포먼스를 측정할 수 있는 일 T가, 경험 E를 통해 향상된다면, 

이 컴퓨터 프로그램은 경험을 통해 학습한다고 정의한다.



예를 들면 다음과 같다. 

체스 게임을 하는 경우

- P : 프로그램이 다음에 승리할 확률

- T : 프로그램이 체스 게임을 수행하는 것

- E : 프로그램이 체스 게임을 수행하는 여러번의 경험


이 경우, 컴퓨터 프로그램이 P로 측정될 수 있는 T라는 행동(임무)를 E라는 경험을 여러번 반복하면서 능률을 향상시킬 수 있다면, 이 프로그램은 기계학습을 수행한다고 정의할 수 있는 것이다.


이 기계학습은 여러 가지 종류들이 있지만 그 중 가장 많이 학습되고 알려진 것은 

지도학습 (Supervised Learning)과, 비지도학습 (UnSupervised Learning) 이 두 가지이다.


지도학습에 대한 코세라의 설명은 다음과 같다.


save image


즉, 데이터 셋을 컴퓨터 프로그램에게 제공할 때, 결과값까지 미리 제공하면서 학습하는 방식을 가리킨다는 것이다.

예를 들어, 집 평수에 따른 부동산 가격을 학습시키는 프로그램이 있다고 가정할 때, 이 프로그램이 지도학습을 수행한다면, 프로그램에게 제공되는 데이터는 실제로 판매된 집들의 평수와 가격들에 대한 데이터가 될 수 있다. 집들의 평수에 따라 가격이 달라지기 때문에 프로그램은 집의 평수를 인풋으로, 집의 가격을 아웃풋으로 하는 함수를 데이터를 학습하면서 만들게 되고, 결국, 집의 평수를 입력받았을 때 학습한 데이터를 바탕으로 예상되는 집의 가격을 결과값으로 내놓을 수 있게 된다.


이 지도학습은 크게 두 가지 방식으로 또 세분화할 수 있는데, 

"Regression", "Classification" 방식이다.


"Regression" 방식은 회귀모형을 의미하는 것으로 결과값이 연속적인 모형을 나타낸다.  예를들면 나이를 예측하거나, 키를 예측하거나, 집값을 예측하는 방식이다. 


"Classification"은 이산모형을 의미하는 것으로 결과값이 이산적인 모형을 나타낸다. 예를들면 주어진 데이터셋을 통해 이 사람이 암에 걸렸는지 아닌지를 예측하는 방식이다. 


다음으로 비지도학습에 대한 코세라의 설명은 다음과 같다.


save image


지도학습에서는 데이터셋을 프로그램에 제공할때 인풋과 아웃풋, 즉 결과값까지 함께 제공함으로써, 학습 후에 새로 주어진 인풋에 대하여 새로운 아웃풋을 예측할 수 있게 한다. 


하지만 비지도학습에서는 결과값을 함께 제공하지 않고 그냥 데이터들만을 제공한다. 따라서 비지도학습을 수행한 후에는, 데이터들이 분포되어있는 결과를 바탕으로 Clustering 알고리즘등의 방법을 사용하여 결과값을 해석하는 과정이 필요하다.


코세라에서 제공하는 예는 다음과 같다. 


Clustering - 제공된 데이터들을 바탕으로 유사한 성질을 갖는 데이터들끼리 묶는 것을 의미한다. 이 경우에 컴퓨터 프로그램은 데이터를 묶기만 할 뿐, 각각의 데이터가 어떤 의미를 가지는지는 알려주지 않는다.

예를 들어, 유전자 정보가 담긴 여러 데이터들을 프로그램에 제공하고 비지도학습을 수행시키면, 같은 유형으로 분류될 가능성이 높은 사람들을 컴퓨터가 클러스터링 알고리즘을 통해 묶어낸다.


Non-Clustering - "칵테일 파티 알고리즘"이라고도 불린다. 카오스적인 환경에서 (파티 속에서 두 개의 마이크를 설치했을 때, 한 사람의 목소리가 가까운 마이크에서는 크게 녹음되고, 먼 마이크에서는 작게 녹음되는 것을 바탕으로 그 사람의 음원을 추출) 의미있는 데이터를 찾아내는 방식을 의미한다. 


반응형

'Artificial Intelligence' 카테고리의 다른 글

MachineLearning - Classification(1)  (0) 2019.02.01
Linear Regression with Octave  (0) 2019.01.31
MachineLearning - LinearRegression(2)  (0) 2019.01.30
MachineLearning - LinearRegression(1)  (0) 2019.01.28
MachineLearning - Begin  (0) 2019.01.27