EDA

    [파이썬] 캐글 타이타닉 EDA

    타이타닉 데이터셋을 EDA를 해보고 시각화를 해보는 것을 목표로 해볼 것이다. 타이타닉 데이터셋 사이트 https://www.kaggle.com/c/titanic/data Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 컬럼 정보 pclass : 객실 등급 survived : 생존 유무 name : 칭호를 포함한 이름 sex : 성별 age : 나이 sibsp : 형제 혹은 부부의 수 parch : 부모, 혹은 자녀의 수 ticket : 탑승권 종류 (각 숫자가 의미하는 바는 데이터를 통해 알 수 있는 것이 없을 수 있습니다.) fare : 지불한 운임 cabin : 객실정보 embarked : 선착장정보 boat : 탈출한 보트가 있다..

    [파이썬] 코랩으로 EDA 해보기 (보스턴주택가격)

    코랩으로 보스턴주택가격 데이터를 EDA 해볼 것이다. (EDA : 다양한 각도에서 데이터를 분석하는 과정) 데이터셋 다운로드 위 사이트로 들어가서 데이터셋을 다운로드하면 된다. 나는 다운로드한 데이터셋을 구글드라이브에 옮겨서, 코랩으로 불러올 것이다. https://www.kaggle.com/c/house-prices-advanced-regression-techniques House Prices - Advanced Regression Techniques | Kaggle www.kaggle.com 데이터셋 컬럼 요약 구글드라이브 연동 # 구글드라이브 연동 from google.colab import drive drive.mount('/content/drive') 임포트 import pandas as pd ..

    [파이썬] EDA(탐색전 데이터 분석)란

    EDA란 EDA(Exploratory Data Analysis)는 탐색적 데이터 분석을 의미합니다. 데이터를 분석하고 결과를 내는 과정이라고 할 수 있습니다. 또한, 다양한 각도에서 데이터를 관찰하고 이해하는 과정이라고도 할 수 있죠. EDA가 필요한 이유 1. 데이터의 잠재적인 문제를 발견할 수 있다 2. 데이터를 더 깊게 이해할 수 있다 3. 본격적인 작업(분석)의 흐름을 파악하는데 도움이 된다 4. 기존의 가설을 수정하거나 새로운 가설을 세울 수 있다. EDA 과정 해결하고자 하는 문제를 파악하고, 분석할 데이터를 확인한다. 분석할 데이터를 독립 변수와 종속 변수를 구분한다 파악하려는 변수가 일변량(Uni-variate)인지, 다변량(Multi-variate)인지 확인한다 관련 없는 변수가 있는지 ..