728x90
저의 판다스는 2.1.3 버전입니다.
23년 12월 3일 기준 최신 버전인데, 원-핫 인코딩 시 불편한(?) 문제가 생기게 됩니다.
바로 정수가 아닌 문자(bool)
로 표현된다는 것 입니다.
"satisfaction_dissatisfied" 컬럼 부터 True or False로 표현됩니다.
이전 버전의 판다스는 이러지 않았는데 불편하다고 생각합니다. 미관상 숫자로 통일
하고 싶죠. 또한 타입도 boolean타입이 됩니다.
df.info()를 이용해 확인해 보았습니다.
그럴 때 방법이 있습니다.
단순합니다. "곱하기 1"을 해주면 됩니다.
이전과 다르게 "satisfaction_dissatisfied" 부분 부터 정수로 변한 것이 보이시나요? True or False가 1 or 0으로 변경되었습니다.
df.info()를 눌러 타입을 확인해 본 결과 정수형으로 변경되었습니다.
그럼 한가지 의문이 들 수 있습니다. 전부 다 정수형으로 변하는 거 아니야?
아닙니다. 바로 옆 컬럼인 "Arrival Delay in Minutes"는 실수형(float)를 유지하고 있습니다. 처음 부터 실수형 이었고, 곱하기 1을 해준 뒤에도 실수형을 유지합니다.
단! 한 가지 주의점이 있습니다.
곱하기 1이 아닌 곱하기 1.0 (실수형)
으로 하게 되면 모든 bool 타입이 정수형이 됩니다.
한 가지만 주의 하면 생각보다 간단하게 타입 변환을 막을 수 있습니다.
728x90
'[머신러닝] > [Numpy, Pandas]' 카테고리의 다른 글
[Numpy] argsort() (0) | 2024.04.16 |
---|---|
[Pandas] axis=0, axis=1에 관하여 (0) | 2023.11.27 |
[Pandas] groupby 2.0 version 이후 (0) | 2023.10.25 |
[Numpy] 넘파이 랜덤 함수 정리 (0) | 2023.08.30 |
[Pandas] 판다스 csv, sort_values(), by, ascending, 통계량 계산 (0) | 2023.06.21 |