트레인 데이터 Train Data 테스트 데이터 Test Data 구분하는 이유

머신러닝을 학습시킬 떄 train 데이터와 test 데이터를 구분한다. 

 

왜 구분할까?

 

우리가 자격증을 공부한다고 기출문제 10회분을 준비해놨다고 가정했을때 10회분을 전부 공부하면 내가 다 학습한건지 아닌건지 구분이 안가게 된다.

 

그래서 우리는 8회분 정도를 공부하고, 나 자신을 테스트하기 위해 2회분은 실전처럼 테스트해본다. 

 

여기서 8회분의 데이터를 train 데이터 (= 훈련용 데이터)

2회분의 데이터를 test 데이터 (=테스팅 데이터)

 

근데 만약 10회분을 모두 훈련할 때 train 데이터로 사용하고 나서

10회분 중에 몇 개를 테스트했을 때 똑같은 데이터기 떄문에 학습을 했는지 안했는지 확인할 수가 없다.