Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- Fast Fourer Transform
- MNIST
- 레이텍
- 이상 현상 탐지
- Spiking Neural Network
- 인공신경망
- Wavelet Transform
- 머신러닝
- anomalydetection
- MLE
- rnn
- ae
- 뉴럴네트워크
- ML
- map
- 논문 해석
- Snn
- Deep Learning
- 이상 탐지
- Generative Model
- 논문 리뷰
- 머신러닝 논문리뷰
- Bagging
- Deep Neural Network
- 기계학습
- Python
- 논문리뷰
- autoencoder
- 딥러닝
- Machine Learning
- Today
- Total
MATH & ML
Data imputation(결측치 처리) 본문
실제 산업데이터를 관찰하다보면 Data의 feature 중 몇 가지에 대해 빠져있는 경우가 자주있다. 이때 이 빈 feature를 어떻게 채워볼 수 있을까
1. deletion(most common)
data가 많을땐 괜찮은데 적으면 문제가 된다. 또한 지울때에 결측치가 랜덤할경우는 상관없는데 완전히 랜덤이 아니라 편향된 정보에 대해서 결측치가 있는경우에는 이 지우는 방법이 문제가 될 수 있다.
2. hot deck
다른 값들로 대체하는것
3. cold deck
알고있는 지식으로 적당한 값으로 채우는것
4. mean substituion
평균으로 채우는것
5. regression
다른 것들을 바탕으로 의미를 부여해서 채우는 방법
6. multiple imputation
가능한 모든 값들을 채운 여러 data를 만들어 이 data를 전부 사용한다
7. knn imputation
나머지 feature들에 대해서 norm을 계산해서 가까운 k개를 골라서 그 k개의 평균을 사용한다.
8. pca imputation
pca를 이용해서 채운다.
'Machine Learning' 카테고리의 다른 글
Decision Tree, Random Forest, Ensemble(Bagging vs Boosting) Xgboost (0) | 2018.09.08 |
---|---|
Anomaly Detection(이상 탐지, 이상 현상 탐지) (0) | 2018.07.25 |
Variational Autoencoder(VAE)의 원리와 이해 (0) | 2018.06.18 |
Generative model과 Discriminate model 차이점과 비교 (0) | 2018.06.17 |
Autoencoder란 개략적 설명과 종류 (0) | 2018.06.15 |
Comments