1. 캐글에 접속하고 로그인하기
Kaggle: Your Machine Learning and Data Science Community
Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.
www.kaggle.com
2. Account 들어가기
3. API - Create New API Token 눌러서 json파일 다운로드하기
Create New API Token을 클릭하면 자동으로 json파일이 다운로드 됩니다
다운로드한 파일을 열어보시면 아래와 같이 파일이 열리게 됩니다(저는 VScode로 열었습니다)
{"username": 유저네임, "key": 키값}
참고로 key값은 개인 비밀번호와 같기에 다른 사람에게 유출하시면 안됩니다. 만약, 걱정이 되신분들은 Create New API Token 옆에 "Expire API Token"을 클릭해서 현재 키를 만료시켜주시면 됩니다.
4. 코랩을 열고 Kaggle API 세팅하기
import os
# os.environ을 이용하여 Kaggle API username, key 세팅하기
os.environ['KAGGLE_USERNAME'] = '유저네임'
os.environ['KAGGLE_KEY'] = '키값'
5. 캐글 사이트가서 필요한 데이터셋 명령어 입력하기
다운로드할 데이터를 찾으셨으면 Data 카테고리가면 아래와 같이 있습니다.
앞에 !(느낌표)붙이시고, 붙여넣기만 하고 실행하면 자동으로 다운로드 됩니다
6. 다운로드된 파일(zip) 확인 방법 및 풀기
# l : L 입니다. I 아니에요 아마 list 줄인것 일거에요
# 압축 풀기전 리스트
!ls
# 압축 풀기
!unzip '*.zip'
# 압축 푼후 리스트
!ls
!ls 를 사용해서 파일 목록을 볼수도 있지만, 좌측에 Files를 사용해서 파일을 볼 수도 있습니다.
개인적인 호기심이지만, 제가 다운로드한 파일은 약 1.35GB로 작은 사이즈는 아니에요.
그래서 캐글 사이트에서 직접 다운로드와 코랩에서 다운로드 속도 차이를 비교해봤습니다.
1캐글 사이트에서 다운로드하는 속도는 빠르죠. 내 컴퓨터에 다운로드하니까... 하지만, 코랩에 dataset을 넣는 시간이 굉장히 오래 걸립니다(저는 약 10분?) , 반대로 코랩에서 데이터셋을 다운로드할때는 다합쳐서 1분도 안걸린거 같습니다. 그리고 제일 궁금한게 코랩에 데이터셋을 넣으면 내 드라이브가 1.35GB가 충전(?)이 되는데, 코랩에서 다운로드한 1.35GB는 드라이브에 포함이 안되더라구요...? 아마 코랩 Disk에 할당되는거 같습니다(아니면 댓글좀).
7. csv파일 읽어보기
똑같이 pandas로 불러오니까 정상적으로 불러오는 것을 볼 수 잇었습니다.
별도. 불러온 파일을 다시 껏다켜도 유지될까? 및 연결이 끊긴 후에도 파일이 유지될까?
결론 : 유지안된다.
연결을 끊고, Run All 하면 얼마나 걸릴까?
데이터셋 용량이 1.3GB정도로 큰 편이 아니라서 read_csv까지하는데 1분도 안걸립니다.
코랩 용량이 부족하신 분들은 이와 같이 사용하시면 좋을거 같네요