Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 피그마인디언
- 당신의 인생이 왜 힘들지 않아야 한다고 생각하십니까
- ABC Analysis
- 데이터분석
- ModelCheckPoint
- oracle
- 코딩테스트연습
- pandas profiling
- SKU Consolidation
- 신경쓰기의 기술
- MySQL
- Product Demand
- MS SQL Server
- Inventory Optimization
- 코딩테스트
- SQL
- forecast
- leetcode
- eda
- 파이썬
- Gaimification
- tensorflow
- 웨어하우스 보관 최적화
- Labor Management System
- HackerRank
- ProfileReport
- 딥러닝
- TensorFlowGPU
- kaggle
- 프로그래머스
Archives
- Today
- Total
목록read_csv (1)
오늘도 배운다
문제 csv 형식의 데이터셋 크기가 커서 파일을 읽는데 시간이 너무 오래걸린다. 약 470만 X 23 메모리 사용량 825 MB 소요시간 11.2498초 코드를 실행할 때 마다 11초가 소요되는 것을 원하지 않는다 해결방안 및 결과 CSV 파일을 Parquet 형태로 만들어 놓은 뒤, Pandas에서 read_parquet으로 읽어오기 적용한 결과 11.24초에서 2.34초로 줄었다. 소요시간이 약80% 줄어들었다 적용방법 1. pyarrow 설치 pip install pyarrow 2. CSV 파일 읽어서 Parquet 형식 파일 생성 (이후 해당코드는 주석처리) # Pandas 불러오기 import pandas as pd # 파이애로우 불러오기 import pyarrow.csv as pv import..
빅데이터(파이썬)
2022. 11. 17. 23:26