728x90
EDA란
EDA(Exploratory Data Analysis)는 탐색적 데이터 분석을 의미합니다.
데이터를 분석하고 결과를 내는 과정이라고 할 수 있습니다. 또한,
다양한 각도에서 데이터를 관찰하고 이해하는 과정이라고도 할 수 있죠.
EDA가 필요한 이유
1. 데이터의 잠재적인 문제를 발견할 수 있다
2. 데이터를 더 깊게 이해할 수 있다
3. 본격적인 작업(분석)의 흐름을 파악하는데 도움이 된다
4. 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다.
EDA 과정
- 해결하고자 하는 문제를 파악하고, 분석할 데이터를 확인한다.
- 분석할 데이터를 독립 변수와 종속 변수를 구분한다
- 파악하려는 변수가 일변량(Uni-variate)인지, 다변량(Multi-variate)인지 확인한다
- 관련 없는 변수가 있는지 확인한다
- 데이터를 살펴보면서 이상치, 결측치를 확인한다
- 이상치, 결측치가 발견된다면 원인을 파악하고, 처리 방법을 결정한다(관련 데이터 삭제, 수정 등)
- 추가적인 데이터가 필요한지 파악한다
- 통계량(평균, 중앙값, 최댓값, 최솟값 등)을 확인한다
- 시각화를 통해 데이터의 대략적인 분포를 파악하고, 통계 지표를 결정한다
- Plot, Scatter, Histogram 등의 시각화 도구를 활용한다
- 데이터의 변수들 간에 상관관계를 파악한다
- 상관관계 : 서로(둘 이상)간의 영향을 주는 관계
시각화 종류
1. 히스토그램
2. 막대그래프
3. Box Plot
4. QQ Plot
5. scatter
728x90
'파이썬' 카테고리의 다른 글
[파이썬] 넘파이(Numpy) 특수 array 생성하기 (0) | 2022.04.22 |
---|---|
[파이썬] 넘파이(Numpy) 함수 모음 (0) | 2022.04.22 |
[파이썬] 코랩 파일 읽어오기 인코딩 (0) | 2022.04.21 |
[파이썬] 코랩(Colab)과 구글드라이브 연동하기(마운트) (0) | 2022.04.21 |
[파이썬] 판다스 캐글 타이타닉 데이터 불러와 맛만 보기 (0) | 2022.04.19 |