ML lec 07-2: Training/Testing 데이타 셋

2021. 7. 2. 20:34

출처 : 모두를 위한 머신러닝/딥러닝 https://hunkim.github.io/ml/

 

모두를 위한 머신러닝/딥러닝 강의

 

hunkim.github.io

 


머신러닝 모델이 얼마나 잘 동작하는지 확인하는 방법에 대해서 살펴볼 것. 

 


우리가 갖고 있는 Training set을 모델에 넣어서 훈련을 시킨 다음에 다시 기존의 train data를 가지고 모델에 물어보는 형식으로 점검하게 된다면 ? 아마 100%의 확률로 답을 맞추게 될 것. 이 방법은 아주 좋지 못한 방법임.

 

 

 


좋은 방법은 우리가 가지고 있는 데이터를 7:3의 비율로 나누어서 7은 training용으로 두고, 3은 test로 두는 것임. 그런 다음에 test는 볼 수 없다고 가정하고 나서 train data를 가지고 훈련. 훈련을 마친 이후에 test set을 이용해서 점검하는 방법이 좋음. 

 


validation set은 일종의 모의고사와 같음. 보통 val set까지 포함하여 3가지로 나누는데 이걸 빼고 2개로만 나누기도 함.

 


데이터가 너무 많을 경우에는 데이터의 개수를 나누어서 차례로 훈련하는 방법도 있음. 이 방법을 Online learning이라고 함. 100만개 데이터가 있으면 10만개씩 분할해서 훈련시키는 것임. 

 


보통 이미지를 인식하는 것의 정확도는 95~99%의 정확도를 가짐. 

BELATED ARTICLES

more