콘텐츠로 건너뛰기

캐글 API(Kaggle API) 설치하기 (윈도우/아나콘다+구글 코랩)

기초 개념 학습을 마쳤으니, 이제 본격적으로 데이터 마이닝을 해보고자 한다. 그러기 위해서는 실제 데이터가 필요하다. 연습용 데이터를 어디서 얻을까? 캐글이란 사이트를 이용하면 된다. 캐글에는 방대한 데이터와 해당 데이터를 이용한 코드 또한 공유되어 있다. 그 외에도 더 좋은 솔루션을 찾기 위해 ‘대회’를 열기도 하고, 질문과 답변을 올리는 커뮤니티도 활성화 되어 있다.

캐글을 보다 더 잘 사용하기 위해! 즉, 데이터를 쉽게 다운받고, 대회에 쉽게 참가하기 위해서 API를 연동해두면 좋다. 오늘은 아나콘다를 이용한 캐글 API 설치부터 연동, 활용까지 차근차근 짚어본다.

■ 캐글 가입 및 API 토큰 발급 받기

캐글(Kaggle) 사이트로 이동하여 가입을 하자. 가입은 구글 아이디로 연동하면 쉽게 된다. 로그인을 하면 우측 상단에 꽥꽥이가 한 마리 있다. 이미지를 클릭하면 Your Profile 에 들어갈 수 있는데, Account를 누르고 스크롤 다운하면 API 섹션이 보인다. Create New API Token을 클릭하면 kaggle.json 파일이 다운로드된다.

kaggle.json파일은 메모장으로 열어보면 username과 key값이 있다. user name은 말그대로 내 캐글의 이름이고, key값은 비밀번호이니 다른 곳에 공개해서는 안된다. (만약 유출되었거나 다른 이유로 key값을 바꾸고 싶다면, 아까 Create New API Token 버튼 옆에 있는 Expire API Token을 클릭하고 재생성 하면 된다.)

■ 캐글 설치

먼저 윈도우즈 파워쉘(Windows PowerShell)이나 아나콘다 프롬프트(Anaconda Prompt)와 같은 터미널을 열어서 캐글을 설치해야 한다. 캐글의 설치 명령어는 다음과 같다.

conda install -c conda-forge kaggle

이렇게 명령어를 치면, 설명이 주르륵 뜬다. 진행할 것인지 묻는 창이 나올 때 y를 입력해주면 설치 완료! 잘 설치되면 done이라고 뜬다. (아래 이미지는 이미 설치된 상태에서 인스톨 명령어를 쳤을 때 화면이다.)

이제 터미널에 다시 kaggle이라고 쳐보자.

그리고 나서 kaggle을 친 위치(내 PC > 로컬 디스크 (C:) > 사용자 > 본인 PC의 사용자 이름)로 들어가보면 .kaggle이라는 폴더가 생긴 것을 확인할 수 있다. 맨 처음에 받아둔 kaggle.json을 이 폴더에 옮기면 끝이다.

■ 구글 코랩에서 캐글 API 연동하기

위의 방법은 로컬 PC에서 캐글 API를 연동하는 방법이다. 만약 주로 구글 코랩을 사용한다면 다음과 같이 API를 연동할 수 있다. 먼저 드라이브를 연동하고 import os를 한 뒤 kaggle.json 안에 있는 username과 key값을 넣으면 된다.

import os
os.environ['KAGGLE_USERNAME'] = 'kaggle.json에 있는 username값을 넣는다'
os.environ['KAGGLE_KEY'] = 'kaggle.json에 있는 key값을 넣는다'

# 잘 연동되었는지 확인하기
!kaggle -h

■ 캐글 API를 이용한 데이터 다운로드

이제 캐글에 있는 데이터를 받아보자. 좌측의 Datasets에서 원하는 데이터를 찾아 클릭하자. 예를 들어 아마존 주가 데이터를 다운받고자 한다. 우측의 더보기를 클릭하면 Copy API commend가 있다. 클릭하면 자동으로 복사가 된다.

복사된 명령어를 그대로 구글 코랩 또는 터미널에 붙여넣으면 완료된다.

!kaggle datasets download -d varpit94/amazon-stock-data

그 외에 다른 명령어를 확인하고 싶다면 캐글에서 제공하는 api 깃헙 페이지를 참고하면 된다.