[Data]/[Pandas]

    [Pandas] 판다스 2.0 버전 이상 원-핫 인코딩 표시 문제 해결

    [Pandas] 판다스 2.0 버전 이상 원-핫 인코딩 표시 문제 해결

    저의 판다스는 2.1.3 버전입니다. 23년 12월 3일 기준 최신 버전인데, 원-핫 인코딩 시 불편한(?) 문제가 생기게 됩니다. 바로 정수가 아닌 문자(bool)로 표현된다는 것 입니다. "satisfaction_dissatisfied" 컬럼 부터 True or False로 표현됩니다. 이전 버전의 판다스는 이러지 않았는데 불편하다고 생각합니다. 미관상 숫자로 통일하고 싶죠. 또한 타입도 boolean타입이 됩니다. df.info()를 이용해 확인해 보았습니다. 그럴 때 방법이 있습니다. 단순합니다. "곱하기 1"을 해주면 됩니다. 이전과 다르게 "satisfaction_dissatisfied" 부분 부터 정수로 변한 것이 보이시나요? True or False가 1 or 0으로 변경되었습니다. df...

    [Pandas] axis=0, axis=1에 관하여

    [Pandas] axis=0, axis=1에 관하여

    aixs=0, axis=1 이 헷갈려 정리하는 김에 포스팅을 하게 되었습니다. axis=0은 행, axis=1은 열입니다. 연산 과정일 때 결론부터 말하면 연산시 행은 책의 높이이고 열은 책을 담는 서랍인데 axis=0은 행 방향(가로 방향)으로 동작하는데 가로 방향인 행들이 쌓이게 되면 세로 방향으로 쌓이게 됩니다. 책이 위로 쌓아지는 것과 같다고 생각합니다. aixs=1은 열 방향(세로 방향)으로 동작하는데 연산시 세로 방향인 열들이 쌓이게 되면 가로 방향으로 움직이게 됩니다. 서랍이 옆으로 들어나는 것 같다고 생각합니다. arr = {'a' : [1, 2, 3], 'b' : [4, 5, 6], 'c' : [7, 8, 9], 'd' : [10, 11, 12]} tmp = pd.DataFrame(arr..

    [Pandas] 판다스 1.5.3 설치와 2.0 버전의 차이(feat. groupby)

    [Pandas] 판다스 1.5.3 설치와 2.0 버전의 차이(feat. groupby)

    23년에 출시된 판다스 2.0 버전 이후부터는 groupby()를 실행할 때 mean(), sum() 과 같은 함수를 함께 사용하면 제약이 따른다. 어떠한 제약이냐면 윈도우 함수를 실행할 때 데이터 프레임에 문자열로 이루어진 컬럼이 섞여 있으면 오류를 반환한다. 그래서 판다스를 삭제 후 1.5.3 버전으로 재설치를 해주었다. pip3 uninstall pandas pip3 uninstall numpy # 판다스 설치 시 특정 버전 지정 pip3 install pandas==1.3.5 넘파이도 세트로 설치된 것을 확인할 수 있다.

    [Pandas] 판다스 csv, sort_values(), by, ascending, 통계량 계산

    1. CSV파일 생성하기 Q. 학번, 학점을 기준으로 학번은 1~100000까지 sequential하게 하고 점수는 0~100의 값을 랜덤으로 작성하기 import random data = {'학번': [i for i in range(1, 100001)], '학점': [random.randint(0, 100) for _ in range(100000)]} #1 df = pd.DataFrame(data) #2 df.to_csv('my_file.csv', index=False, encoding='cp949') #3 #1 : 각 조건에 맞는 컬럼을 '학번', '학점'으로 생성하고 1~100000까지, 학점 0~100까지 100000번 반복하여 리스트 컴프리핸션을 이용해서 생성 random.randint(a, b..

    [Pandas] CSV파일에 데이터 쓰기

    [Pandas] CSV파일에 데이터 쓰기

    판다스를 이용한 csv 파일에 데이터 저장 딕셔너리를 이용한 저장방법 import pandas as pd df = pd.DataFrame({'rank': ['1위', '2위'], 'keyword': ['심재철', '서미경']}) # 인덱스는 없이 컬럼만 가진 csv표 생성 df.to_csv('daum_real_time_keyword.csv', index=False, encoding='cp949') .to_csv() 함수를 이용해서 csv파일을 생성해 줍니다. 주피터 노트북을 이용해 코드를 실행했다면 주피터 노트북이 실행된 폴더에 csv파일이 저장되어 있습니다.

    [Pandas] 판다스 기초1

    [Pandas] 판다스 기초1

    먼저 아래의 코드를 import해줍니다. from matplotlib import pyplot as plt import pandas as pd import numpy as np 목차 1. 데이터 오브젝트 생성하기 2. 데이터 확인하기 (viewing data) 3. 데이터 선택하기 (selection) 4. 결측치 (missing data) 5. 연산 (operations) 6. 합치기 (merging) 7. 묶기 (grouping) 8. 변형하기 (reshaping) 9. 시계열 데이터 다루기 (time series) 10. 범주형 데이터 다루기 (categoricals) 11. 그래프로 표현하기 (plotting) 12. 데이터 입/출력 (getting data in/out) 1. 데이터 오브젝트 생..