imbalanced data 2

[머신러닝] SMOTE(Synthetic Minority Over-sampling Technique)

[ 목차 ] SMOTE이번 게시글에서는 Imbalanced data 상황에서 Oversampling 응용기법인 SMOTE 기법에 대해 다뤄보겠습니다.기존의 Oversampling 기법은 minority class의 데이터를 단순히 복제시켜서 데이터의 균형을 맞추었지만, 단순히 복제하기 보단, minority class와 정보가 유사한 데이터를 생성하면 조금 더 모델이 학습을 잘 하지 않을까? 라는 생각에서 만들어 진 기법이 SMOTE입니다.그러면 어떻게 데이터를 생성하냐? 이 기법에서는 단순히 minority class의 데이터를 복제하는 것이 아니라 기존 minority class의 데이터 포인트들 사이에서 새로운 데이터를 생성합니다. 이를 통해 모델이 더 일반화된 패턴을 학습할 수 있게 도와줍니다.아..

머신러닝 2024.09.13

[머신러닝] Oversampling & Undersampling

[ 목차 ]Imbalanced data이 게시글에선 Imbalaced data 상황에서 해결할 수 있는 Oversampling과 Undersampling의 개념에 대해서 다뤄보겠습니다.우선, Oversampling과 Undersampling 기법이 왜 필요한지부터 생각해 볼 필요가 있습니다.Classfication문제에서 majority class(다수 클래스) data가 minority class(소수 클래스) data의 수보다 훨씬 많은 경우, 모델은 new data(minority class data)에 대해서 주로 majority로 분류하게 되는 경향이 있습니다. 이렇게 되는 경우는 모델이 정확도를 최대화하려고 할 때 발생하게 됩니다. 아래 예시를 들어보겠습니다. 아래와 같이 불량 정상을 예측하는..

머신러닝 2024.09.11