MATH & ML

Data imputation(결측치 처리) 본문

Machine Learning

Data imputation(결측치 처리)

BlogYong 2018. 7. 4. 17:33

실제 산업데이터를 관찰하다보면 Data의 feature 중 몇 가지에 대해 빠져있는 경우가 자주있다. 이때 이 빈 feature를 어떻게 채워볼 수 있을까 

1. deletion(most common)

data가 많을땐 괜찮은데 적으면 문제가 된다. 또한 지울때에 결측치가 랜덤할경우는 상관없는데 완전히 랜덤이 아니라 편향된 정보에 대해서 결측치가 있는경우에는 이 지우는 방법이 문제가 될 수 있다.


2. hot deck

다른 값들로 대체하는것


3. cold deck

알고있는 지식으로 적당한 값으로 채우는것


4. mean substituion

평균으로 채우는것


5. regression

다른 것들을 바탕으로 의미를 부여해서 채우는 방법


6. multiple imputation

가능한 모든 값들을 채운 여러 data를 만들어 이 data를 전부 사용한다


7. knn imputation

나머지 feature들에 대해서 norm을 계산해서 가까운 k개를 골라서 그 k개의 평균을 사용한다.


8. pca imputation

pca를 이용해서 채운다. 

Comments