728x90
CSV 파일은 구조화된 데이터를 텍스트 형식으로 저장할 수 있는 가장 일반적인 포맷입니다. 파이썬에서는 csv
모듈 외에도 pandas
를 통해 CSV 파일을 훨씬 편리하고 강력하게 다룰 수 있습니다.
● CSV 파일 읽기
import pandas as pd
df = pd.read_csv("data.csv")
print(df.head())
read_csv()
는 자동으로 헤더, 구분자, 인코딩 등을 인식하며, 대용량 데이터도 효율적으로 처리합니다.
● 구분자, 인코딩 설정
df = pd.read_csv("data.tsv", sep="\t", encoding="utf-8")
CSV 외에 탭 구분 파일(.tsv)이나 유니코드 파일도 쉽게 읽을 수 있습니다.
● 열 선택 및 필터링
print(df["이름"])
print(df[df["점수"] >= 80])
pandas는 DataFrame을 통해 열 추출, 조건 필터링 등을 직관적으로 수행할 수 있습니다.
● 파일로 저장
df.to_csv("output.csv", index=False, encoding="utf-8-sig")
index=False
옵션은 인덱스를 제외하고 저장하며, utf-8-sig
는 엑셀 호환을 위한 인코딩입니다.
● 결측치 처리
df = df.fillna(0) # 결측값 0으로 대체
df = df.dropna() # 결측값 포함된 행 제거
CSV 파일을 처리할 때는 결측값 유무를 확인하고 적절히 보정하는 것이 중요합니다.
● 마무리
pandas
는 CSV 파일을 분석, 가공, 시각화하는 데 최적화된 도구입니다. read_csv
와 to_csv
를 기반으로 실무 데이터를 자유롭게 다룰 수 있으며, 복잡한 데이터 흐름도 단 몇 줄의 코드로 처리할 수 있습니다.
728x90
'프로그래밍언어 > 파이썬[중급]' 카테고리의 다른 글
[파이썬][중급] Chapter47. enum 클래스와 열거형 처리 (0) | 2025.05.25 |
---|---|
[파이썬][중급] Chapter46. 데이터 클래스와 필드 설정 (dataclasses) (0) | 2025.05.25 |
[파이썬][중급] Chapter44. JSON과 pickle의 차이점 (0) | 2025.05.24 |
[파이썬][중급] Chapter43. pickle을 활용한 객체 직렬화 (0) | 2025.05.24 |
[파이썬][중급] Chapter42. subprocess로 외부 명령 실행 (0) | 2025.05.24 |