Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- SQL
- 당신의 인생이 왜 힘들지 않아야 한다고 생각하십니까
- 데이터분석
- leetcode
- 웨어하우스 보관 최적화
- 파이썬
- Inventory Optimization
- 코딩테스트연습
- ModelCheckPoint
- 딥러닝
- tensorflow
- kaggle
- oracle
- eda
- MS SQL Server
- SKU Consolidation
- ABC Analysis
- Gaimification
- 프로그래머스
- pandas profiling
- TensorFlowGPU
- ProfileReport
- HackerRank
- 신경쓰기의 기술
- Labor Management System
- Product Demand
- forecast
- MySQL
- 코딩테스트
- 피그마인디언
Archives
- Today
- Total
오늘도 배운다
탐색적 데이터분석 쉽게하기 - Pandas -profiling 본문
목표
Pandas-profiling을 이용하여 데이터셋의 구성에 대한 자세한 정보를 쉽게 얻기
라이브러리 설치
pip install -U pandas-profiling
사용한 데이터셋 - E-Commerce Shipping Data from Kaggle
데이터셋 정보를 html 파일로 추출하기
# 필요한 라이브러리, 클래스 임포트
import pandas as pd
from pandas_profiling import ProfileReport
# 데이터 불러오기
df = pd.read_csv('./archive/Train.csv')
# 데이터셋 정보 html 파일로 저장하기
pf = ProfileReport(df, explorative=True)
pf.to_file('eCommerce_shipping_dataset.html')
요약
레포트는 다음으로 구성됨
a. 개요
b. 변수
c. 변수 간 상호작용 관계
d. 상관관계
e. 결측치
f. 샘플
1. 개요(Overview)
데이터셋과 관련된 정보
2. Variables
각 변수의 고유값 개수, 결측치 수, 평균 등에 대한 정보를 보여줌
'More details' 버튼을 눌러 더욱 자세한 내용이 확인가능하다
3. Interactions
변수간 관계를 시각화로 볼 수 있다
4. Correlations
5. Missing Values
결측치에 대한 정보도 주어진다
더이상 missingno를 사용할 일이 없을듯하다
6. 샘플
pandas의 head, tail 기능과 같다
결론
pandas_profiling 을 이용하여
탐색적 데이터분석 (EDA) 시간을
상당하게 줄일 수 있다.
eCommerce Shipping data 분석에 활용해보기.
참고자료
728x90
'빅데이터(파이썬)' 카테고리의 다른 글
Pandas read_csv가 너무 느리다면? 대용량 csv 파일 빠르게 불러오기 (0) | 2022.11.17 |
---|
Comments