Python
Data Processing - Categorical Feature (데이터 전처리 팁)
BlogYong
2018. 2. 5. 16:48
1. data[컬럼이름].apply(변형함수)
말 그대로 특정 컬럼에 대하여 어떤 변형을 동시에 한 번에 취하고 싶을 때 사용한다.
2. data.loc[data["사용일"]==1, "날짜"]=0
data의 사용일 column의 값이 1인 것들만 수정할껀데, 그 로우들의 날짜만 전부 다 0으로 바꾼다
(이를 이용하면 null data들을 가장 자주나오는 데이터로 변환도 가능하기 때문에 유용하다)
3. pd.get_dummies(data) (one-hot encoding)
그냥 category로 나눠져 있는 부산/대구/대전 의 분류가 있다고 했을때 만약 이 3개가 균등한 가치를 가지도록 숫자 데이터로 변환하기 위해서 어떤 방법이 있을까? 물론 사전 지식이 있어 나눌 수 도 있지만 one hot encoding이라는 방법이 있는데,
지역
길동 부산
철수 대구
영희 대전
의 데이터를
지역_부산 지역_대구 지역_대전
길동 1 0 0
철수 0 1 0
영희 0 0 1
의 데이터 형식으로
1개의 컬럼을 3개의 컬럼으로 바꾸어 주는 방법이다.
이를 바로 적용할 수 있는 함수로는 pd.get_dummies(data) 가 있다.