'read_csv' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/10 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록read_csv (1)

오늘도 배운다

Pandas read_csv가 너무 느리다면? 대용량 csv 파일 빠르게 불러오기

문제 csv 형식의 데이터셋 크기가 커서 파일을 읽는데 시간이 너무 오래걸린다. 약 470만 X 23 메모리 사용량 825 MB 소요시간 11.2498초 코드를 실행할 때 마다 11초가 소요되는 것을 원하지 않는다 해결방안 및 결과 CSV 파일을 Parquet 형태로 만들어 놓은 뒤, Pandas에서 read_parquet으로 읽어오기 적용한 결과 11.24초에서 2.34초로 줄었다. 소요시간이 약80% 줄어들었다 적용방법 1. pyarrow 설치 pip install pyarrow 2. CSV 파일 읽어서 Parquet 형식 파일 생성 (이후 해당코드는 주석처리) # Pandas 불러오기 import pandas as pd # 파이애로우 불러오기 import pyarrow.csv as pv import..

빅데이터(파이썬) 2022. 11. 17. 23:26

이전 Prev 1 Next 다음

목록read_csv (1)

오늘도 배운다

티스토리툴바