[인공지능] 데이터: 훈련 세트와 테스트 세트, 데이터 전처리
지도 학습과 비지도 학습 머신러닝 알고리즘은 크게 지도 학습과 비지도 학습으로 나뉜다. 지도 학습에서는 데이터와 정답을 입력과 타깃이라고 부르고 이 둘을 합쳐 훈련 세트라고 한다. 그리고 입력으로 사용된 데이터의 길이, 무게와 같은 자료를 특성이라고 한다. 그리고 실제 평가에 사용하는 데이터를 테스트 세트라고 한다. 가장 간단한 방법은 전체 데이터 중 일부를 훈련 세트, 일부를 테스트 세트로 활용할 수 있다. numpy와 scikitlearn을 활용하여 전체 데이터를 훈련/테스트 세트로 나누기 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33..