Python/머신러닝

[책/파이썬 라이브러리를 활용한 머신러닝] 1-3머신러닝 모델 만들기, 정리하기

KorShaw 2021. 5. 2. 20:28
728x90

여기서는 비교적 이해하기 쉬운 k-최근접 이웃(k-nearest neighbors)분류기를 사용한다.

 

k-최근접 이웃 알고리즘은 

훈련 데이터에서 새로운 데이터 포인트에 가장 가까운 'k개'의 이웃을 찾는다는 뜻 

그런다음 빈도가 가장 높은 클래스를 예측값으로 사용하는 것

 

 

 

1장 정리하기......

  • 분류 문제에서 각 품종 클래스라고 하며 개별 붓꽃의 품종 레이블이라고 합니다.
  • 붓꽃 데이터셋은 두 개의 Numpy 배열로 이루어져 있다.
  • 하나는 데이터를 담고 있으며 scikit-learn에서 X로 표시한다.
  • 다른 하나는 정확한 혹은 기대하는 출력을 가지고 있고 y로 표시한다.
  • 이 데이터셋을 모델 구축에 사용할 훈련 세트와 모델이 새로운 데이터에 얼마나 잘 적용될 수 있을지 평가하기 위한 테스트 세트로 나눴다.

결국 아래 코드로 1장이 요약된다.

 

728x90