빅데이터(파이썬)
탐색적 데이터분석 쉽게하기 - Pandas -profiling
LearnerToRunner
2022. 12. 23. 00:23
목표
Pandas-profiling을 이용하여 데이터셋의 구성에 대한 자세한 정보를 쉽게 얻기
라이브러리 설치
pip install -U pandas-profiling
사용한 데이터셋 - E-Commerce Shipping Data from Kaggle
데이터셋 정보를 html 파일로 추출하기
# 필요한 라이브러리, 클래스 임포트
import pandas as pd
from pandas_profiling import ProfileReport
# 데이터 불러오기
df = pd.read_csv('./archive/Train.csv')
# 데이터셋 정보 html 파일로 저장하기
pf = ProfileReport(df, explorative=True)
pf.to_file('eCommerce_shipping_dataset.html')
요약
레포트는 다음으로 구성됨
a. 개요
b. 변수
c. 변수 간 상호작용 관계
d. 상관관계
e. 결측치
f. 샘플
1. 개요(Overview)
데이터셋과 관련된 정보
2. Variables
각 변수의 고유값 개수, 결측치 수, 평균 등에 대한 정보를 보여줌
'More details' 버튼을 눌러 더욱 자세한 내용이 확인가능하다
3. Interactions
변수간 관계를 시각화로 볼 수 있다
4. Correlations
5. Missing Values
결측치에 대한 정보도 주어진다
더이상 missingno를 사용할 일이 없을듯하다
6. 샘플
pandas의 head, tail 기능과 같다
결론
pandas_profiling 을 이용하여
탐색적 데이터분석 (EDA) 시간을
상당하게 줄일 수 있다.
eCommerce Shipping data 분석에 활용해보기.
참고자료
728x90