머신 러닝-이것은 무엇인가요?, 분류 알고리즘(Classification algorithms)

머신 러닝-이것은 무엇인가요?, 분류 알고리즘(Classification algorithms)

분류 알고리즘은 데이터 과학에서 가장 많이 사용되는 알고리즘 일 것 입니다.

분류 알고리즘은 다음과 같은 상황에 유리 합니다.

300KM를 달리면 기름을 넣어야 할까요? 예, 아니요

오늘 점심은 어떤 것을 먹을까요? 짜장면, 짬뽕, 탕수육

분류하여 답을 찾는 것이 분류 알고리즘이라고 할 수 있습니다.

분류 알고리즘은 비지도학습을 통해 가능성이 가장 높은 것을 선택하도록 할 수 있고, 지도학습을 통해 사전에 답을 넣어 줄 수도 있습니다

대표적인 분류 알고리즘은 3가지 입니다.

1. kNN 모델: (지도학습) 새로운 데이터가 어떤 그룹에 속하는지 분류하기 위해 그 데이터가 가장 가까이 있는 학습 데이터의 그룹을 알아보는 모델

2. 서포트 백터 모델: (지도학습) 두 데이터를 분리해 가장 멀리 분리된 경우가 높은 신로도를 준다는 모델

3. 의사결정 트리: (지도학습) 질문과 답을 반복적으로 이등분하는 방식으로 찾는 모델, 신뢰도를 높이기 위해서 엔트로피를 통해 정보의 가치가 높은것을 식별함

 

그럼 분류 알고리즘의 전체 과정을 봅시다.

1. 데이터 준비

먼저 데이터 과학을 하기 위해서는 데이터가 준비되어 있어야 합니다.

데이터는 우리가 작업을 하는데, 관련성이 있어야하고 만약 2개 이상이라면 서로 연결이 가능해야 하며, 결과를 신뢰하기 위해 정확해야 합니다. 이러한 조건을 만족하기 충분한 데이터가 있어야 한다는 조건이 있습니다.

국적

성별

나이

한국

남자

31

한국

여자

41

미국

여자

45

위 데이터가 있다고 가정하고, 다음으로 해야할 일은 우리가 원하는 것을 찾는 것입니다.

2. 질문 만들기

질문은 정확해야 합니다. 그래야 신뢰할 수 있는 결과를 만들 수 있습니다. 어떻게 보면 이부분이 제일 어려운 부분이라고 할 수 있을 것 입니다.

여기서는 분류 알고리즘을 사용할 수 있는 질문을 해보겠습니다. “이 데이터는 A인가요? B인가요?”라는 질문을 통해 분류 알고리즘을 사용할 수 있습니다.

만약 비지도 학습에 맞는 질문은 어느 나라 국적이 많은 가요? 입니다.

지도 학습이라면 “나이가 40이 넘지 않은 남자는 한국 사람이다”은 이미 결과값이 정해졌기 때문에 지도 학습이 됩니다.

질문을 할 때 필요하다면 여러가지 질문을 넣어서 할 수도 있습니다. 이를 트레이닝이라고 하는데 먼저 데이터를 다른 질문을 통해서 데이터를 저장하고 저장된 데이터를 2개 이상이라면 이를 연관성으로 묶어서 다시 저장합니다. 이러한 과정을 지속하여 연관성이 높아져, 신뢰도가 높은 데이터가 나오게 됩니다.

3. 결과 예측

우리가 앞서 진행한 질문을 통해 나타난 결과를 이용해서 결과를 예측할 수 있게 됩니다.

위 예제에서 어느 나라 국적이 많은 가요의 질문의 결과는 국적을 이용해서 분류하게 되고 데이터는 한국과 미국으로 나누어 질 것입니다.

결과 예측을 해보면 선형 회귀(데이터 집합의 선)로 결과가 나타날 것을 알 수 있습니다. 그림으로 그린다면 가로로 기준선이 그려지게 됩니다. 회귀라는 용어는 보통 데이터가 어떤 결과가 나오는지를 알아보는 예측을 애기합니다.

머신 러닝-이것은 무엇인가요?, 분류 알고리즘(Classification algorithms)

하지만 선형 회귀는 한방향 아닐 수 있습니다. 다양한 분류가 나올 수 있으면 이 분류는 어떤 질문을 했고, 어떻게 결과 예측을 했는지에 따라 달라지게 됩니다.

이러한 예측된 결과의 신뢰도를 높이기 위한 작업은 지속적으로 질문을 강화하고 데이터가 충분한지를 확인함으로써 보다 신뢰도 있는 결과 예측이 가능합니다.

4. 다른 사람은 어떻게 하나

우리가 고민하고 있는 것을 다른 사람들도 고민하고 있을 수 있습니다. 그 내용을 살펴 봄으로써 부족한 데이터는 없는지 살펴볼 수 있고, 보다 정확한 질문과 보다 신뢰도 높은 결과 예측이 가능합니다. 이를 위해 커뮤니티에 가입하고 다른 사람들과 애기하여 강화할 수 있을 것입니다.

Facebook Comments

Leave A Reply

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.