관리 메뉴

오늘도 배운다

탐색적 데이터분석 쉽게하기 - Pandas -profiling 본문

빅데이터(파이썬)

탐색적 데이터분석 쉽게하기 - Pandas -profiling

LearnerToRunner 2022. 12. 23. 00:23

목표

Pandas-profiling을 이용하여 데이터셋의 구성에 대한 자세한 정보를 쉽게 얻기

 

라이브러리 설치

pip install -U pandas-profiling

 

사용한 데이터셋 - E-Commerce Shipping Data from Kaggle

 

 

데이터셋 정보를 html 파일로 추출하기

# 필요한 라이브러리, 클래스 임포트
import pandas as pd
from pandas_profiling import ProfileReport

# 데이터 불러오기
df = pd.read_csv('./archive/Train.csv')

# 데이터셋 정보 html 파일로 저장하기
pf = ProfileReport(df, explorative=True)
pf.to_file('eCommerce_shipping_dataset.html')

html 형식의 레포트가 생성되었음

 

 

 

요약

레포트는 다음으로 구성됨

a. 개요
b. 변수
c. 변수 간 상호작용 관계
d. 상관관계
e. 결측치
f. 샘플


 


1. 개요(Overview)

데이터셋과 관련된 정보

 

Overview - 데이터셋의 통계정보를 보여줌

 


Alerts - 데이터셋과 관련된 인사이트를 줌 (변수간 상관관계, 분포 등)


Reproduction - 데이터 생성과 관련된 데이터


 

2. Variables

각 변수의 고유값 개수, 결측치 수, 평균 등에 대한 정보를 보여줌

각 변수들에 대한 정보 및 분포 그래프를 보여준다


'More details' 버튼을 눌러 더욱 자세한 내용이 확인가능하다



 

3. Interactions

변수간 관계를 시각화로 볼 수 있다

제품원가와 고객 전화 간 관계 시각화자료


 

4. Correlations

히트맵으로 시각화된 상관관계 정보가 제공됨


테이블 형태로도 상관관계를 확인할 수 있음


 

5. Missing Values

결측치에 대한 정보도 주어진다

더이상 missingno를 사용할 일이 없을듯하다


 

 

6. 샘플

pandas의 head, tail 기능과 같다


결론

 

pandas_profiling 을 이용하여
탐색적 데이터분석 (EDA) 시간을
상당하게 줄일 수 있다.

eCommerce Shipping data 분석에 활용해보기.

 

 

참고자료

728x90
Comments