Notice
Recent Posts
Recent Comments
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
Tags
- 논문 리뷰
- 인공신경망
- rnn
- 논문리뷰
- 레이텍
- 기계학습
- Snn
- Deep Learning
- 딥러닝
- Deep Neural Network
- 이상 탐지
- Fast Fourer Transform
- Machine Learning
- Generative Model
- anomalydetection
- MNIST
- MLE
- ML
- Python
- Bagging
- ae
- 이상 현상 탐지
- 머신러닝 논문리뷰
- Spiking Neural Network
- Wavelet Transform
- autoencoder
- 뉴럴네트워크
- map
- 머신러닝
- 논문 해석
- Today
- Total
MATH & ML
Data Processing - Categorical Feature (데이터 전처리 팁) 본문
1. data[컬럼이름].apply(변형함수)
말 그대로 특정 컬럼에 대하여 어떤 변형을 동시에 한 번에 취하고 싶을 때 사용한다.
2. data.loc[data["사용일"]==1, "날짜"]=0
data의 사용일 column의 값이 1인 것들만 수정할껀데, 그 로우들의 날짜만 전부 다 0으로 바꾼다
(이를 이용하면 null data들을 가장 자주나오는 데이터로 변환도 가능하기 때문에 유용하다)
3. pd.get_dummies(data) (one-hot encoding)
그냥 category로 나눠져 있는 부산/대구/대전 의 분류가 있다고 했을때 만약 이 3개가 균등한 가치를 가지도록 숫자 데이터로 변환하기 위해서 어떤 방법이 있을까? 물론 사전 지식이 있어 나눌 수 도 있지만 one hot encoding이라는 방법이 있는데,
지역
길동 부산
철수 대구
영희 대전
의 데이터를
지역_부산 지역_대구 지역_대전
길동 1 0 0
철수 0 1 0
영희 0 0 1
의 데이터 형식으로
1개의 컬럼을 3개의 컬럼으로 바꾸어 주는 방법이다.
이를 바로 적용할 수 있는 함수로는 pd.get_dummies(data) 가 있다.
'Python' 카테고리의 다른 글
numba의 jit을 이용하여 속도 높이기 (0) | 2018.05.31 |
---|---|
과제 중 자주 쓰일 수 있는 함수 3가지 map, filter, reduce (0) | 2018.02.19 |
Pandas dataframe에서 row, column 선택하는 방법 & loc 와 iloc 의 차이 (0) | 2018.02.05 |
jupyter notebook 단축키 아주아주 기본적인것들 (0) | 2018.02.03 |
Comments