MATH & ML

Data Processing - Categorical Feature (데이터 전처리 팁) 본문

Python

Data Processing - Categorical Feature (데이터 전처리 팁)

BlogYong 2018. 2. 5. 16:48

1. data[컬럼이름].apply(변형함수)

말 그대로 특정 컬럼에 대하여 어떤 변형을 동시에 한 번에 취하고 싶을 때 사용한다.


2. data.loc[data["사용일"]==1, "날짜"]=0

data의 사용일 column의 값이 1인 것들만 수정할껀데, 그 로우들의 날짜만 전부 다 0으로 바꾼다

(이를 이용하면 null data들을 가장 자주나오는 데이터로 변환도 가능하기 때문에 유용하다)


3. pd.get_dummies(data) (one-hot encoding)

그냥 category로 나눠져 있는 부산/대구/대전 의 분류가 있다고 했을때 만약 이 3개가 균등한 가치를 가지도록 숫자 데이터로 변환하기 위해서 어떤 방법이 있을까? 물론 사전 지식이 있어 나눌 수 도 있지만 one hot encoding이라는 방법이 있는데,


 지역

길동 부산

철수 대구

영희 대전


의 데이터를


 지역_부산    지역_대구    지역_대전

길동        1            0            0

철수        0            1            0

영희        0            0            1


의 데이터 형식으로

1개의 컬럼을 3개의 컬럼으로 바꾸어 주는 방법이다.

이를 바로 적용할 수 있는 함수로는 pd.get_dummies(data) 가 있다.

Comments