일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- webserving
- KNN
- streamlit
- ml 웹서빙
- 2유형
- 머신러닝
- K최근접이웃
- QGIS설치
- 3유형
- Kaggle
- fastapi
- CUDA
- 인공지능
- DASH
- GPU
- gradio
- qgis
- pytorch
- ㅂ
- 딥러닝
- 빅데이터분석기사
- dl
- 실기
- 1유형
- 예제소스
- Ai
- 성능
- 공간분석
- 캐글
- 공간시각화
- Today
- Total
에코프로.AI
[AI Tutorial] kaggle(캐글) 이란? 본문
kaggle(캐글) 소개
캐글은 데이터 과학 및 머신러닝 경진대회를 주최하는 온라인 커뮤니티입니다. 전 세계 데이터 과학자를 위한 놀이터라고 생각하면 됩니다. 캐글에는 방대한 데이터, 유능한 데이터 과학자, 훌륭한 코드, 좋은 문화가 있어 데이터 과학 역량을 쌓는 데 최적의 플랫폼입니다.
캐글은 2010년 설립되어 2017년 구글에 인수되었습니다. 구글이 인수할 만큼 영향력 있는 플랫폼입니다. 가입자 수는 2017년 6월에 100만 명이었는데, 바로 다음 해인 2018년 8월에 200만 명으로 2배가 되었습니다. 2022년 3월에는 900만 명을 넘어서는 등 지금도 빠르게 커가고 있습니다.
왜 kaggle(캐글) 해야 하는가?
- 데이터 과학 및 머신러닝 역량 강화
캐글은 데이터 과학과 머신러닝 역량을 키우기에 최적의 조건을 갖추었습니다. 꾸준히 경진대회에 참여한다면 머신러닝 스킬을 향상시킬 수 있습니다. 경진대회 종류도 다양하고 데이터도 방대합니다. 코드와 아이디어가 활발히 공유되고, 매번 새로운 대회를 접할 수 있어 지루할 틈이 없습니다. - 공유와 경쟁의 상승효과
캐글은 개인의 코드와 아이디어가 활발히 공유되는 공간입니다. 경진대회를 진행하면서 참가자는 자신이 작성한 노트북을 다른 사람들과 공유합니다. 다른 참가자는 공유된 노트북을 활용하여 새로운 노트북을 만들어 공유합니다. 공유된 새로운 노트북은 다시 활용되어 한층 새로워진 노트북으로 공유되는 선순환이 반복됩니다. 캐글러가 공유한 노트북만 잘 활용해도 성능 좋은 모델을 개발할 수 있습니다.
경진대회라고 하면 경쟁이 떠오를 겁니다. 경쟁 상황에서 다른 사람과 아이디어를 공유하는 사람은 별로 없습니다. 하지만 캐글은 메달 시스템이 잘 구축되어 있어서 참여자는 경쟁 상황에서도 코드와 아이디어를 활발하게 공유합니다. 메달 시스템에 대해서는 1.3절에서 설명하겠습니다. 경쟁 상황과 공유 문화는 실력을 쌓기에 좋은 환경입니다. 경쟁 상황이 없다면 추진력을 내기 어렵고, 공유 문화가 없다면 아이디어를 확장하기 힘듭니다. - 개인이 접할 수 없는 환경
개인이 실제 기업 데이터를 접하기는 쉽지 않습니다. 전 세계 유능한 데이터 과학자를 만날 기회도 드뭅니다. 하지만 캐글에서는 가능합니다. 좋은 재료와 훌륭한 동료가 있으니 환경은 완벽합니다. 데이터 과학자로 성장하는 데 이보다 좋은 환경이 있을까요? - 취업 시 우대
캐글이 많이 알려지면서 채용 우대사항에 캐글 경험자를 걸어 놓는 기업이 많아졌습니다. 데이터 과학자나 머신러닝 엔지니어가 되고 싶은 대학생이나 취준생이라면 캐글에 뛰어드는 것도 좋은 방법입니다.
kaggle(캐글) 구성요소
캐글이 데이터 과학 역량을 쌓는 데 정말 좋은 플랫폼임은 분명합니다. 하지만 이제 막 캐글에 가입한 사람을 위한 안내가 친절하지 못한 것 같아 살짝 아쉽습니다. 그래서 지금부터 캐글을 처음 접하는 분을 위해 이해하기 쉽게 캐글 구성요소를 설명하겠습니다.
참가자는 캐글의 경진대회, 데이터셋, 노트북, 토론, 강좌를 활용하여 데이터 과학 역량을 쌓을 수 있습니다. 기본적으로는 경진대회를 중심으로 구성되어 있다고 보시면 됩니다. A 경진대회가 개최 되었다면 그 경진대회를 위해 수많은 노트북이 생성되고, 활발한 토론이 진행됩니다.
캐글 홈페이지의 핵심 메뉴는 Home, Competitions, Datasets, Models, Code, Discussions, Learn입니다. 순서대로 메인 홈페이지, 경진대회, 데이터셋, 머신러닝 모델, 코드(노트북), 토론, 강좌 메뉴입니다.
- Home (메인 홈페이지)
- Competitions (경진대회)
Competitions 메뉴에서는 전 세계 누구나 참여할 수 있는 데이터 과학 및 머신러닝 대회를 볼 수 있습니다. 기업은 캐글에 데이터를 제공해 경진대회를 개최할 수 있습니다. 물론 경진대회를 개최하기 위해서는 캐글 측에 상당한 돈을 지불해야 합니다. 대회에 따라 다르지만 보통 1~3달 동안 진행됩니다. 참가자는 기업이 제공한 데이터를 분석하게 됩니다. 기업이 요구하는 지표를 기준으로 높은 성적을 내는 모델을 만들어야 합니다. 대회가 끝나면 기업은 성능 좋은 모델을 개발한 참가자에게 상금을 지급합니다. 상금을 받은 참가자는 기업에게 자신이 짠 코드를 제공합니다. 기업은 스스로 만들 수 없는 데이터 과학 및 모델링 코드를 얻을 수 있고, 참가자는 상금을 얻을 수 있습니다. - Datasets (데이터셋)
Datasets 메뉴는 경진대회 없이 순수하게 데이터셋만 제공되는 영역입니다. 수많은 양질의 데이터를 구할 수 있습니다. 전 세계 누구나 데이터를 올릴 수 있고, 다른 사람이 올려둔 데이터를 자유롭게 사용하여 분석 결과를 공유할 수 있습니다. - Models (머신러닝 모델)
수백 개의 훈련되고 즉시 배포할 수 있는 머신러닝 모델을 검색하여 사용할 수 있습니다. - Code (코드(노트북))
Code 메뉴는 다른 사람이 올려놓은 캐글 코드(노트북)를 모아 놓은 페이지로 안내해줍니다. 경진대회와 연관된 코드도 있고, 데이터셋에 올라온 데이터를 분석한 코드도 있습니다. - Discussions (토론)
Discussions 메뉴에서는 경진대회를 진행하며 궁금한 점을 다른 사람에게 물어볼 수 있습니다. 서로 의견을 공유하며 새로운 아이디어를 얻을 수도 있습니다. 전 세계 유능한 데이터 과학자와 의견을 공유할 수 있다는 것은 굉장한 이점입니다. - Learn (강좌)
Learn 메뉴에서는 캐글 관련 강좌를 들을 수 있습니다. 캐글에 강좌가 있다는 사실을 모르는 사람이 많습니다. 동영상 강의는 아니지만 기초 내용을 학습하기에 좋습니다. 파이썬, 머신러닝 입문, 머신러닝 중급, 데이터 시각화, 판다스, SQL 기초, SQL 고급, 딥러닝 기초 등 다양한 강좌가 있습니다. 깊이가 있지는 않지만 무료이기 때문에 빠르게 기초 개념을 복습하기에 좋을 것 같습니다. 강좌를 마치면 수료증도 줍니다. 캐글 노트북으로 실습을 제공하니 캐글에 익숙해지는 데에도 도움이 될 것입니다.
캐글러등급
마라톤을 하는 사람을 마라토너marathoner라고 하듯 캐글에 참여하는 사람을 캐글러kaggler라고 합니다. 그리고 캐글러 등급은 캐글러의 데이터 과학 실력을 가늠하는 척도입니다. 등급이 높을수록 오랫동안 캐글에 몸담아 실력을 쌓았다는 뜻입니다. 캐글러 등급은 Novice, Contributor, Expert, Master, Grandmaster 이렇게 다섯 단계로 구분됩니다.
캐글은 경진대회, 데이터셋, 노트북, 토론마다 등급을 매깁니다. 경진대회만 열심히 참여하는 캐글러는 경진대회 등급이 높고 노트북만 열심히 공유하는 캐글러는 노트북 등급이 높습니다. 경진 대회에만 집중하겠다거나 노트북에만 집중하겠다는 전략을 가진 캐글러도 많습니다. 등급을 높이기 위해서는 메달을 따야 합니다. 메달을 일정 개수 이상 모으면 등급이 올라갑니다.
- Novice (초심자)
- Contributor (기부자)
- Expert (전문가)
- Master (마스터)
- Grandmaster (그랜드마스터)
Reference
https://goldenrabbit.co.kr/2022/05/04/머신러닝-딥러닝-문제해결-전략_왜-캐글을-시작해야/
https://www.kaggle.com/progression
'AI Tutorial' 카테고리의 다른 글
PostgreSQL 설치 및 데이터 저장 (Feat. Python) (0) | 2024.07.31 |
---|---|
구글 코랩(Colab) - 사용법 (0) | 2024.07.08 |
[빅분기] 실기 - 3유형 준비 (0) | 2024.06.16 |
[빅분기] 실기 - 2유형 준비 (0) | 2024.06.16 |
[빅분기] 실기 - 1유형 준비 (1) | 2024.06.16 |