본문 바로가기
프로그래밍언어/파이썬[중급]

[파이썬][중급] Chapter45. CSV 파일과 pandas의 통합 활용

by about_IT 2025. 5. 24.
728x90

CSV 파일은 구조화된 데이터를 텍스트 형식으로 저장할 수 있는 가장 일반적인 포맷입니다. 파이썬에서는 csv 모듈 외에도 pandas를 통해 CSV 파일을 훨씬 편리하고 강력하게 다룰 수 있습니다.


● CSV 파일 읽기

import pandas as pd

df = pd.read_csv("data.csv")
print(df.head())

read_csv()는 자동으로 헤더, 구분자, 인코딩 등을 인식하며, 대용량 데이터도 효율적으로 처리합니다.


● 구분자, 인코딩 설정

df = pd.read_csv("data.tsv", sep="\t", encoding="utf-8")

CSV 외에 탭 구분 파일(.tsv)이나 유니코드 파일도 쉽게 읽을 수 있습니다.


● 열 선택 및 필터링

print(df["이름"])
print(df[df["점수"] >= 80])

pandas는 DataFrame을 통해 열 추출, 조건 필터링 등을 직관적으로 수행할 수 있습니다.


● 파일로 저장

df.to_csv("output.csv", index=False, encoding="utf-8-sig")

index=False 옵션은 인덱스를 제외하고 저장하며, utf-8-sig는 엑셀 호환을 위한 인코딩입니다.


● 결측치 처리

df = df.fillna(0)           # 결측값 0으로 대체
df = df.dropna()            # 결측값 포함된 행 제거

CSV 파일을 처리할 때는 결측값 유무를 확인하고 적절히 보정하는 것이 중요합니다.


● 마무리

pandas는 CSV 파일을 분석, 가공, 시각화하는 데 최적화된 도구입니다. read_csvto_csv를 기반으로 실무 데이터를 자유롭게 다룰 수 있으며, 복잡한 데이터 흐름도 단 몇 줄의 코드로 처리할 수 있습니다.

728x90