csv
[AWS] Glue to Redshift 데이터 옮기기
AWS의 managed 서비스인 glue를 이용해 데이터 ETL을 해보는 실습을 진행해보겠습니다. 0. 아키텍처 *버지니아 북부(us-east-1)을 기준으로 진행합니다. 1. Glue와 Redshift 1) Glue aws glue는 완전 관리형 ETL 작업의 자동화를 제공하며, pyspark 기반의 대규모 데이터 처리에 적합한 서비스입니다.*ETL(Extract, Transform, Load)의 약자로 데이터를 추출하고 변환한 뒤 로드하는 작업을 의미합니다. Glue의 대표 리소스인 Crawler와 Data Catalog 2) RedShift Redshift는 AWS에서 제공하는 완전 관리형 데이터 웨어하우스 서비스로, 대규모 데이터를 빠르게 분석할 수 있습니다. 여러 소스의..
[엑셀] 엑셀 csv 파일 한글깨짐 해결하기
csv로 저장한 파일을 엑셀로 열때 한글이 깨지는 문제가 발생할 때가 있습니다. 확인할 점) 이런 경우 먼저 CSV 파일로 저장할 시 encoding='utf-8' 을 적용했는지 확인이 필요합니다. 적용되었다면 아래와 같은 방법으로 해결할 수 있습니다. 1. 해당 파일을 오른쪽 클릭하여 "메모장에서 열기"를 선택 2. 메모장이 열렸다면 "다른 이름으로 저장" 클릭 3. 인코딩에서 ANSI로 변경 이 과정을 거치고 새로저장된 csv 파일을 엑셀로 열면 한글깨짐 문제가 해결됩니다 추가) ANSI로 설정할 경우 특수문자에서 정상적인 출력이 이루어지지 않을 수도 있습니다. 그런경우 UTF-8이 기본값일때, UTF-8(BOM)으로 저장해..
[Pandas] 판다스 csv, sort_values(), by, ascending, 통계량 계산
1. CSV파일 생성하기 Q. 학번, 학점을 기준으로 학번은 1~100000까지 sequential하게 하고 점수는 0~100의 값을 랜덤으로 작성하기import randomdata = {'학번': [i for i in range(1, 100001)], '학점': [random.randint(0, 100) for _ in range(100000)]} #1df = pd.DataFrame(data) #2df.to_csv('my_file.csv', index=False, encoding='cp949') #3 #1 : 각 조건에 맞는 컬럼을 '학번', '학점'으로 생성하고 1~100000까지, 학점 0~100까지 100000번 반복하여 리스트 컴프리핸션을 이용해서 생성 random.randin..
[Pandas] CSV파일에 데이터 쓰기
판다스를 이용한 csv 파일에 데이터 저장 딕셔너리를 이용한 저장방법import pandas as pddf = pd.DataFrame({'rank': ['1위', '2위'], 'keyword': ['심재철', '서미경']})# 인덱스는 없이 컬럼만 가진 csv표 생성df.to_csv('daum_real_time_keyword.csv', index=False, encoding='cp949') .to_csv() 함수를 이용해서 csv파일을 생성해 줍니다.주피터 노트북을 이용해 코드를 실행했다면 주피터 노트북이 실행된 폴더에 csv파일이 저장되어 있습니다.