메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

한빛출판네트워크

데이터가 뛰어노는 AI 놀이터, 캐글

상위 랭킹 진입을 위한 필살기

한빛미디어

번역서

판매중

  • 저자 : 가도와키 다이스케 , 사카타 류지 , 호사카 게이스케 , 히라마쓰 유지
  • 번역 : 대니얼WJ
  • 출간 : 2021-05-10
  • 페이지 : 428 쪽
  • ISBN : 9791162244234
  • 물류코드 :10423
  • 초급 초중급 중급 중고급 고급
4.8점 (29명)
좋아요 : 16

데이터 분석 무한 경쟁 ‘캐글’에서 살아남기 위한 비결 

 

세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용된다. 이를 이해하고 체득하여 활용하는 것은 대회뿐만 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 매우 유용하다. 특징(feature)을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권에 정리했다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶다면 지금 바로 읽어보기를 권한다. 

 

 

주요 내용 

  • 정밀도가 높은 모델 구축하기
  • 데이터에서 특징 추출하기
  • 변수를 변환해 특징 생성하기
  • 평가지표를 이용해 예측 결과 최적화하기
  • 하이퍼파라미터 튜닝
  • 여러 모델을 조합해 예측하는 앙상블 기법과 스태킹(stacking)
  • 시계열 데이터 종류와 취급 방법

 

 

추천사

 

캐글 시작에 앞서 든든한 책 한 권이 있어야 한다면 이 책을 추천합니다. 저자가 상당한 내공을 모아 든든한 한 권으로 묶어낸 만큼 다 소화한다면 데이터 관련 대회들이 조금은 쉽게 느껴질 겁니다. 최근 진행 중인 캐글 대회에도 이 책을 적극적으로 활용하면 좋은 성과를 얻을 수 있으리라 생각합니다.

_Heroseo, Kaggle Notebooks Master

 

머신러닝 기초를 공부하고 캐글에 이제 막 발을 내딛는 사람과 캐글 경험이 있지만 대회 코드 작성에 어려움을 느낀 사람에게 훌륭한 길잡이 역할을 해줍니다. 상위권에 랭크된 노트북의 솔루션을 꼼꼼하게 리뷰해준 덕분에 여러 대회에 다양한 기법으로 접근해볼 수 있습니다.

_신홍재, 학생

 

머신러닝을 가장 빨리, 재미있게 학습하는 방법은 캐글 대회에 참여하는 것이라 생각합니다. 그렇지만 입문 대회라도 생각보다 점수를 올리기가 쉽지 않고 대회마다 평가 기준이 달라 입문자로서는 벽이 높게 느껴집니다. 이러한 어려움을 이 책에서는 매우 친절하고 쉽게 설명합니다.

_김태헌, DB Inc.

 

흔히 사용하거나 검색으로 쉽게 찾을 수 있는 방법론 외에 다양한 대안들을 소개하는 유니크한 도서입니다. 특히 각 기법에 대해 상세한 수식과 예제 코드를 함께 제시하여 이해와 활용성을 동시에 잡아 백과사전과 같이 유용합니다. 기본 이론, 방법론 학습은 완료했지만 캐글 상위권 공략을 위해 아직 2% 부족하다고 느껴지는 분들에게 추천합니다.

_김사무엘, 데이터사이언스랩

 

캐글에 처음 도전할 때 가장 어려운 점은 자신이 수행할 수 있는 스킬과 대회에서 필요한 스킬의 단계 차이가 크게 나는 것이라고 생각합니다. 이 책은 머신러닝 기초부터 다양한 대회에서 기법이 실제로 적용되는 부분까지 세세하게 알려주기 때문에 많은 데이터를 직접 만지며 스킬의 단계 차이를 줄일 수 있습니다.

_이창우, 학생

 

캐글 최신 트렌드에 뒤처지지 않으면서도 번역상의 문제로 이해가 되지 않는 부분이 없었습니다. 캐글에 관심 있는 분은 물론 실무에서 직접 캐글 코드를 참고하여 모델링을 고려하는 분에게도 추천합니다.

_곽두일, 큐브엔시스 인공지능사업본부 본부장, 바벨 AI 대표

 

상세이미지_데이터가 뛰어노는 AI 놀이터, 캐글_700px.jpg

가도와키 다이스케 저자

가도와키 다이스케

Kaggle Competitions Master. 교토대학 졸업 후 생명보험회사에서 보험계리사로 10년간 상품 개발과 리스크 관리 업무에 종사했습니다. 캐글과의 만남을 계기로 경력을 내던지고 캐글 및 데이터 관련 프로그램에 참여 중입니다. 캐글 Walmart Recruiting II: Sales in Stormy Weather 대회에서 우승했으며 캐글 Coupon Purchase Prediction 대회에서 3위 입상했습니다.

사카타 류지 저자

사카타 류지

Kaggle Competitions Grand Master. 교토대학 대학원 수료 후 전기 제조업체에 입사하여 데이터 과학자 및 연구원으로 종사했습니다. 2014년부터 데이터 과학과 머신러닝에 흥미가 생겨 캐글을 시작했습니다.

호사카 게이스케 저자

호사카 게이스케

Kaggle Competitions Expert. 도쿄대학 대학원에서 천체 시뮬레이션 연구로 석사 학위를 받았습니다. 데이터 분석 컨설팅 회사에서 10년간 기업의 데이터 분석 지원 업무를 담당했습니다. 이후 대기업 웹서비스 부문에 입사하여 데이터 활용 업무에 종사했습니다. 현재 데이터 과학자 및 머신러닝 엔지니어의 육성과 관리를 맡고 있으며 개인적으로는 육아에 전념 중입니다.

히라마쓰 유지 저자

히라마쓰 유지

Kaggle Competitions Master. 도쿄대학 대학원에서 물리학을 전공하고 전기 분야 대기업에 입사했습니다. 이후 금융업계로 이직하여 금융시스템 회사의 파생상품 업무와 대형 손해보험 그룹의 위험회계 업무에 종사했습니다. 현재는 AXA 생명보험의 시니어 데이터 과학자로서 내부 데이터 분석 업무를 담당하고 도쿄대학에 연구원으로 파견되어 의료 데이터를 분석하고 연구합니다. 캐글은 2016년부터 본격적으로 시작했습니다. 곰 인형을 매우 좋아합니다.

대니얼WJ 역자

대니얼WJ

졸업 후 과감히 해외 취업에 도전했고 일본과 미국의 IT 업계에서 8년간 근무했습니다. 통신사 엔지니어로 일하다가 회사를 그만두고 또다시 새로운 도전으로 교육에 몸담은 지 벌써 5년이 흘렀습니다. 작은 컴퓨터 학원에서 초중고 학생들에게 코딩을 가르치며 내디딘 한걸음을 시작으로 빅데이터 강사를 거쳐 대학원, 대기업, 정부기관 대상으로 강의도 하며 지금까지 왔습니다. 현재는 한 기업의 팀장으로 그리고 빅데이터와 AI 분야 프리랜서 번역가 및 강사로 활동 중입니다. 앞으로는 누군가에게 꿈과 소망을 전달하는 크리스천으로서 작가, 번역가, 교육가로 그리고 한 명의 캐글러로 발걸음을 옮겨봅니다.

CHAPTER 1 경진 대회

1.1 경진 대회란?

1.2 경진 대회 플랫폼

1.3 경진 대회 참가부터 종료까지

1.4 경진 대회의 참가 의미

1.5 상위권 진입의 중요 팁

 

CHAPTER 2 경진 대회의 평가지표

2.1 경진 대회의 종류

2.2 경진 대회의 데이터셋

2.3 평가지표

2.4 평가지표와 목적함수

2.5 평가지표의 최적화

2.6 평가지표 최적화 사례

2.7 데이터 정보 누출

 

CHAPTER 3 특징 생성

3.1 이 장의 구성

3.2 모델과 특징

3.3 결측값 처리

3.4 수치형 변수 변환

3.5 범주형 변수 변환

3.6 날짜 및 시간변수 변환

3.7 변수의 조합

3.8 다른 정형 데이터와의 결합

3.9 집약하여 통계량 구하기

3.10 시계열 데이터 처리

3.11 차원축소와 비지도 학습의 특징

3.12 기타 기법

3.13 경진 대회의 특징 사례

 

CHAPTER 4 모델 구축

4.1 모델의 기본 이해

4.2 경진 대회에서 사용하는 모델

4.3 GBDT

4.4 신경망

4.5 선형 모델

4.6 기타 모델

4.7 모델의 기타 팁과 테크닉

 

CHAPTER 5 모델 평가

5.1 모델 평가란?

5.2 검증 방법

5.3 시계열 데이터의 검증 방법

5.4 검증 포인트와 기술


CHAPTER 6 모델 튜닝

6.1 매개변수 튜닝

6.2 특징 선택과 중요도

6.3 편중된 클래스 분포의 대응

 

CHAPTER 7 앙상블 기법

7.1 앙상블이란?

7.2 간단한 앙상블 기법

7.3 스태킹

7.4 앙상블 대상 모델의 선택 기준

7.5 경진 대회의 앙상블 사례

캐글 상위 랭킹 진입에 필요한 필살기를 한 권에 정리했다!

 

상당수의 데이터 과학자가 자신의 실력을 검증하고자 ‘캐글’에 도전합니다. 대회에서는 실제 데이터를 이용하기 때문에 일반적이지 않은 데이터 처리 방법과 기법이 많이 활용됩니다. 그러한 내용을 이해하고 스스로 활용할 수 있는 능력을 갖추는 것은 경진 대회는 물론이고 실무에서도 모델을 구현하는 데 많은 도움이 됩니다. 

 

최대한 많은 기술과 사례를 한 권에 담기 위해 노력했습니다. 정형 데이터를 다루는 대회를 대상으로 하여 문제 설정이 명확하게 주어진 가운데 성능이 높은 모델을 만들려면 어떻게 해야 하고 무엇을 주의해야 할지에 초점을 맞추었습니다. 특히 특징을 생성하는 방법, 검증, 파라미터 튜닝 등 다른 도서에서는 잘 다루지 않는 노하우나 포인트도 설명합니다. 처음부터 전부 이해하려 하기보다는 우선 빠르게 읽으면서 관심 있는 부분만 집중적으로 읽는 것을 권합니다. 또는 대회 도중에 힌트가 필요할 때 살짝 보거나 헷갈리는 부분을 사전적으로 참조하여 읽어도 좋습니다.

 

캐글에 도전하고 싶지만 어떻게 해야 할지 막막하거나, 매번 같은 방법만 사용하여 다른 방법도 알고 싶거나, 더 높은 순위권에 진입하는 것이 목표라면 꼭 읽어야 하는 책입니다. 경진 대회에서 쓰이는 기술은 실무에도 유용하므로 대회에 흥미가 없어도 읽으면 도움이 될 것입니다.

본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다.

 

표지.png

이 책의 저자들은 캐글 마스터, 전문가들로 구성 되었다. 이 책은 현재 판매되고 있는 몇 권 안 되는 캐글 관련 책 중에서 캐글에 첫발을 내딛는데 가이드 역할을 하고, 상위권 진입을 위한 필살기라고 할 수 있다.

경진 대회 중에서도 특히 정형 데이터를 다루는 대회 준비를 위한 책이다. 예측 대상이나 모델의 평가지표와 같은 문제 설정이 명확하게 주어진 가운데 성능이 높은 모델을 만들려면 어떻게 해야 하고 무엇을 주의해야 할지에 초점을 맞추고 있다.

경진 대회에서 일반적으로 주의해야 할 내용을 총망라하여 설명하고 있고, 과거 상위 입상자들이 사용한 기술도 다수 소개하여 모델 성능을 개선하는 데 필요한 힌트를 얻을 수 있도록 구성하였다. 모든 최적화 문제를 해결할 수 있는 알고리즘은 존재하지 않는다. 그렇기 때문에 이 책에서 소개하는 테크닉이 모든 경진 대회에서나 통용되지는 않을 수 있다.

이 책에서는 머신러닝 활용의 비즈니스적 측면이나 분석 기법의 알고리즘이나 이론적 측면은 상세하게 설명하지 않는다.

이 책은 경진 대회에 참가하려는 독자를 위한 가이드북이라고 할 수 있다. 특히 특징을 생성하는 방법, 검증, 매개변수 튜닝 등 다른 도서에서는 잘 다루지 않는 노하우나 포인트도 설명한다.

이 책을 보기 위한 독자는 다음과 같은 기본적인 지식이 필요하다고 한다.

- 파이썬과 라이브러리(numpy, pandas, scikit-learn)의 사용법

- 머신러닝의 기본 개념

- 미분이나 행렬 연산의 기본 개념

 

나는 캐글이 뭔지 아는 정도의 선 지식으로 이 책을 봤다. 캐글에 첫발을 내딛는데 아주 좋은 가이드가 되었다. 앞으로 기회가 되면 경진 대회에도 참가하고 싶다.

나 같이 캐글에 대해서 알아보고자 하는 독자나 이미 캐글을 경험하신 독자들에게 모두 최고의 책이라고 생각한다.

 

인공지능,빅데이터, 데이터 분석에 관심있는 사람이라면 캐글(kaggle)을 한번쯤 들어봤을 거라고 생각한다. 캐글은 데이터 분석 경진 대회 플랫폼으로 여러 데이터셋과 다양한 모델을 활용하여 데이터를 분석해 그 정확도를 평가하는 여러 대회가 모여있는 곳이다. 데이터 분석쪽에 직무를 갖고 싶어하는 나도 관심있어서 이것저것 살펴보았지만 영어로 인한 언어의 장벽을 종종 느끼기도 하고, 제대로 배운 실력이 없어 모델링을 하는데 어려움을 느껴 막히는 곳이 많아 가고는 싶지만 두려운 곳으로 기억하고 있던 곳이기도 했다.

 

캐글에 대한 수요는많지만 이를 잘 소개한 책은 적은 터라 한편으로는 시중에 캐글 관련 도서로 잘 정리된 책이 나왔으면 하는 바람이 있었는데, 이번에 마침 한빛에서 캐글 도서를 출간한다는 소식에 더없이 반가움을 느끼며 한번 읽어보게 되었다.

 

책은 정말 캐글 대회에 알맞춤으로 되어있는 듯한 내용을 담고 있었다. 처음부터 경진대회에 대한 자세한 설명과 어떤 측도를 이용해서 대회에서 정확도를 분석하는지를 소개해주고 있는데, 이 부분이 무척이나 마음에 들었다. 데이터의 종류에 따라 라벨의 값의 개수에 따라 사용될 수있는 여러 평가지표를 한 번에 정리해서 두고 있었다. 각 평가지표는 어떻게 측정하는지 어떤 공식을 사용하는지 정확도를 높이려면 어떻게 접근해야하는지를 친절하게 설명하고 있어 너무나 이해가 잘되는게 좋았다.

 

그 외에도 뒷부분에서는 좀 더 좋은 모델을 만드는 비법들이 여럿 담겨있었다. 각 데이터별로 특징을 생성하는 방법이나 모델을 만드는 방법, 좀 더 좋은 파라미터를 다루거나 여러 모델을 합치는 앙상블 방법에 대한 비법까지 그야말로 캐글 우승 비법이 담긴 좋은 책이란 생각이 들었다.

 

이전에도 여러 데이터분석 대회에 나갔지만 사소한 모델의 설정에 따라 그 값이 천차만별로 바꾼것을 잘 알기에 이런 세부적인 사항을 정리하는게 필요하다고 생각했는데 이 책에서 소개된 내용은 그야말로 캐글에 특화된 설명이라고 느껴질 만큼 너무나 잘 정리되고 필요한 내용이 가득 담겨있었다. 캐글을 막 시작하는 사람에게 어떤 방향으로 모델을 잡고 분석해야할지 잘 알려주는 좋은 방향을 담은 책이라고 생각하기에 데이터분석대회에 참가할사람, 관심있는 사람은 꼭 한번 보았으면 하는 바램이다.

IMG_3563.jpg

 

 

이 책은 캐글에 대한 설명 그리고 고득점을 위한 팁들을 잘 설명하고 있습니다.

어느정도 머신러닝에 대한 이해가 있다고 가정하고 쓰여진 것으로 느껴져서, 데이터 분석을 처음 시작하시는 분들은 기초 레벨의 머신러닝을 먼저 학습하시고 이 책을 보시는게 좋을 것 같다고 생각이 들었습니다. 

 

저는 캐글에서 문제를 풀면서 어느 순간 부터 몇 가지 패턴으로만 비슷하게 접근하게 되는 것을 느끼게 되었고 정체기가 왔었습니다. 

이 책에서는 순차적으로 어떤 방법들을 사용하는지 알려줘서, 다양하게 생각하고 대안을 찾을 수 있도록 도움을 주고 있습니다.

 

캐글에서 한단계 도약을 원하시는 분들에게 이 책을 추천합니다.

 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

본 도서는 한빛미디어 도서 서평단 <나는 리뷰어다 2021>로 선정되어 받은 도서입니다.

 

KakaoTalk_20210621_030840291_03.jpg

 

 

최근에는 캐글 뿐 아니라 데이콘, 빅콘테스트, 기타 공모전 등 다양한 곳에서 데이터와 관련한 경진대회들이 열리고 있습니다. 캐글은 그 중에서도 세계적으로 유명한 플랫폼이죠. 이 책은 예측모델 경진대회에 참가하기 위한 전반적인 흐름을 다루고 있습니다.

 

 

 

처음에는 경진대회가 무엇인지, 어떤 흐름으로 이루어지는지에 대해 소개합니다. 대회의 종류와 방식, 좋은 성과를 내는 것, 즉 상위권에 드는 것이 어떤 의미를 갖는지, 평가는 어떻게 이루어지는지 등에 대한 이야기입니다. 그 다음에는 예측 모델을 만드는 일반적인 순서대로 진행됩니다.

 

 

 

결측값 처리, 변수 변환, 집계 등의 Feature(변수) 처리, 모델을 만들고, 그 성능을 평가하는 방식, 그리고 보다 더 나은 예측 성능을 위해 모델의 파라미터를 튜닝하고, 여러 모델들을 합쳐 예측하는 앙상블에 대한 내용들이 각 챕터별로 소개되어 있습니다.

 

 

 

캐글 뿐 아니라 다른 예측 모델 경진대회에도 적용할 수 있는 방법들이어서 좋았습니다. 단계별로 많이 쓰이는 방법들, 또 많이 쓰이지 않더라도 활용 가능한 방법들이 소개되고 있습니다. 초보자들을 위한 책이라고 소개되고 있는데, 꼭 캐글이 아니더라도 데이터 경진대회에 참가하여 결과물을 제출해 본 뒤에 책을 보면서 공부하는 것도 좋을 것 같다는 생각이 들었습니다. 대회에 참가할 때 종종 들춰보게 될 것 같아요.

 

"한빛미디어 <나는 리뷰어다>활동을 위해서 책을 제공받아 작성된 서평입니다."

 

1_표지.jpg

 

 

총평 

캐글 대회를 설명하면서 데이터 분석의 전체 프로세스를 설명해주는 책입니다. 데이터 분석의 과정을 캐글 대회를 통해 설명해주기에 캐글의 기초 코드나 퍼블릭 소스로 바로 연장해서 공부하기에 괜찮아 보입니다. 근래에 나온느 캐글 관련 서적 중 입문서의 역할을 하기에 제격으로 보이는 책입니다.

 

 

단점 

이 책을 보는 분들의 경우, 데이터 분석에 대한 다른 서적들로 공부를 한 사람이 많을 것 같아서 굳이 데이터 분석 자체에 대해서 너무 기초부터 상세하게 설명하게 아닌가 싶음 (장점일 수도 있지만 단점으로 보이기도함)

 

 

추천인

- 데이터 분석의 기초를 공부하였고, 캐글 대회에 대해 알고 싶은 사람

- 캐글과 데이터 분석 프로세스를 한 번에 익혀보고 싶은 사람

 

비추천인

- 파이썬 또는 r로 데이터 분석 경험이 어느 정도 있고, 데이터 분석 관련 공모전 출전 경험 있는 사람

 

5_알고리즘해설.jpg

 

6_하이퍼파라미터튜닝.jpg

 

 

 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다

 

 

3.jpeg

 

 

 


일단 캐글이라는 단어 자체를 알려면 빅데이터와 AI 를 모를리 없을 것이다. 

 

 


이 서적은 캐글이 무엇인가부터 캐글 시험에서 나오는 문제들의 유형을 어떻게 풀어낼 것인가에 대한 내용을 담고 있다.

일단 서적을 읽어보길 권하는 대상은 빅데이터와 AI를 배운 분들이다.

요즘 AI가 많이 뜨고있어 캐글에 도전하는 사람들도 많은 것으로 아는데

AI 공부를 하고 이제 막 캐글을 시작해보려 하는 사람에게 참고하기 좋은 서적으로 보인다.

 

 

첫 장은 캐글에 대한 설명과 용어들 시합종류 등을 알 수 있게 설명했고 그 뒤로는 각 모델들, 모델 검증 등을 설명하고 마무리로 모델 튜닝과 앙상블로 책을 마치고 있다.

 


이렇게 말하면 간단해 보이지만 내용은 그렇지 않다.

 

 


각 설명마다 경진대회에서 어떻게 했는지 경진대회에서는 어떤 모델들을 주로 사용했는 지 등 캐글 책인 만큼 경진대회에 맞춰 설명하여 중심을 잡고 있다. 아무래도 AI 에 대한 기본 지식이 선행되지 않으면 읽는 것은 불가능할 것으로 보인다.

 

 


물론 처음 말했듯이 캐글이라는 단어를 알려면 AI를 먼저 접하는 게 순서이니 당연한 말이고 경진대회에 도전하고 랭크되고 싶은 분에게는 이 책으로 한번 시작하라고 권하고 싶다.

 

 2.jpeg

 

 

 "한빛미디어 <나는 리뷰어다>활동을 위해서 책을 제공받아 작성된 서평입니다."

장점

1.    데이터 분석을 처음해보는 사람의 경우 데이터의 특성 및 구조에 따른 다양한 분석 기법과분석한 데이터의 학습 방법이 다양해 어떤 방식이 효율적일지 혼란을 겪을 수 있지만 이 책은 이러한 분석 기법 및 학습 방법의 기초 베이스를 잘요약해 놓아 실습하면서 개념을 같이 적용하여 학습할 수 있음

2.    캐글을 이용하는 방법과 튜토리얼을 포함해 상위권 진입을 위한 각종 노하우를 제공해 주어 보다 캐글을 보다 유연하게 접할 있음

후기

데이터 분석을 공부하는 학생이라면 보통 캐글이라는 사이트를 많이 접하게 되는데 본인의 경우 올릴 계기가 없어서 검색 용도로 사용해 봤지만이 책을 통해 진입하는 방법을 접하게 되어 이제 막 입문을 시작하게 되었다. 책의 내용은 전체적으로데이터를 분석해서 특징을 추출 및 생성하여 모델을 학습하는 방법을 알차게 적어 전체적인 대략적인 흐름을 알지만 과정 및 분석 방법을 좀더 알고싶어 하거나 분석을 처음하는 사람이 본인에 해당된다면 이 책을 읽어보는게 좋지 않을까 생각한다.

 

20210620_235608.jpg

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

0. 도서 정보

 1) 독서명 : 데이터가 뛰어노는 AI 놀이터, 캐글

 2) 작가 : 가도와키, 다이스케, 사카타 류지, 호사카 게이스케, 히라마쓰 유지

 3) 링크

 

 

1. 서평

 - 책 표지에 쓰여 있듯이 상위 랭킹 진입을 위해서는 읽어봐야 할 서적이다. 작가들이 알고 있는 캐글의 여러 스킬(?) 을 책 한 권에 몰아넣은 느낌이다. 자투리 코드도 곁들여서 해당 스킬을 어떻게 코드로 구현하는지도 작성하였다. 하지만, 너무 많은 정보를 넣은 탓에 이런 코드가 없는 부분도 꽤 존재한다. 그렇기에 데이터 분석 초보자가 보기에는 어려운 부분이 많다. 대회 하나 정도는 예제로 하여 실제 캐글 대회 코드가 어떻게 구성되었는지, 왜 이런 것을 사용하였는지 보여주었다면... 하는 아쉬움이 존재한다.

요즘 AI 관련 업계에서 취업을 하는데 있어서 필요한건 토익이나 컴퓨터 자격증 이런게 아니라 실무 경험이나 상위 컨퍼런스 논문 제출 경험, 외부 챌린지 참가 경험인 것 같다. 특히 이 외부 챌린지들 중에서 진입 장벽이 그나마 가장 쉬운 것은 캐글 아닐까 싶다. 캐글은 기업 및 단체에서 Prize를 걸고 데이터와 해결 과제를 등록하면, 데이터 사이언티스트들이 이를 해결하기 위해 모델을 개발하고 경쟁하게 되는 시스템이다.

 

캐글에서 과제들을 해결하고, 상위 랭킹을 진입을 한다면 해당 과제를 다루는 기업들에서 눈여겨 볼 만한 인재라고 생각하지 않을까 싶다. 이렇듯 캐글 상위 랭킹 진입을 위한 방법들을 소개한 "데이터가 뛰어 노는 AI 놀이터, 캐글" 이라는 고마운 책이 있다. 

 

아마 이 책도 한 2년 지나면 쓸모 없는 책이 될 수도 있을만큼 딥러닝 분야 발전 속도가 너무 빠르기 때문에, 책을 접하자마자 빠르게 모두 다 완독해야 기술을 바로 써먹을 수 있을 것 같은 기분이 들었다. 당연하겠지만 책에서는 머신러닝 활용의 비즈니스적 측면에 관한 이야기는 하지 않는다. 이 책에서는 경진대회에 참가하려는 독자를 대상으로 하는 가이드북이라고 보면된다. 예측 모델을 구축하여 데이터 분석을 하는 분들에게 널리 참고가 될 수 있는 책이기 때문에 특징을 생성하는 방법, 검증, 매개변수 튜닝 등의 노하우나 포인트들을 설명한다. 

 

그리고 이 책에서 가장 마음에 들었던 부분은 앙상블 기법을 소개하는 부분이였다. 앙상블은 실제 real world 에 적용할 때 나타날 수 있는 문제점들을 보완할 수 있는 최선 책 중 하나이다. 실무와 캐글대회도 비슷하게 수백 개의 모델을 조합하였을 때 더 높은 성능을 나타내기 때문에, 앙상블 기법들을 익혀 두고 시도해보는 것은 실무를 경험적인 측면에서 다루는데 정말 좋은 방법이라고 생각한다. 

 

필자는 이 책에서 필요한 부분만 뜯어 보느라, 책 전체를 완독하지는 못했지만 전체적으로 보았을 때 경진대회의 시작부터 끝까지 상세 과정을 알려주기 때문에 캐글을 접하는 AI 관련 업계 직장인들, 대학원생 또는 학부생에게 정말 도움이 될 것 이라고 생각한다. 

 

 

KakaoTalk_20210620_223309521.jpg

 

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다. 

 

머신러닝과 ai가 유행하며 데이터를 다루는 기술들이 중요하게 대두되고 있습니다. 데이터를 이용한 경시대회나 실무에서 데이터를 다룬다면 캐글이라는 사이트를 들어봤을 겁니다. 통계학과 학생, 머신러닝과 ai 를 실무에서 사용하는 사람들도 한번쯤은 그 사이트를 거쳤을것입니다.

 

이 책은 데이터를 다루는 경시대회에 나가려는 사람들을 목표로 쓴 책입니다. 혹은 캐글에서 실시되는 컴피티션에 높은 등수를 기록하고 싶은 사람들에게 권장하는 책입니다. 어느 정도 데이터를 다루는데 익숙하거나 한 사람들에게 더 좋은 방법들을 제시해 줄 것입니다. 

사용 가능한 코드나 데이터들을 제공합니다. 또한 이미 다루고 있는 데이터들을 어떻게 접근하고 다뤄야하는지 서술하고 있습니다.

 

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

a1.jpg

 

a2.jpg

 

a3.jpg

 

a4.jpg

 

a5.jpg

 

a6.jpg

 

a7.jpg

 

 

이번 리뷰 도서는 [데이터가 뛰어노는 AI 놀이터, 캐글]

 
https://www.hanbit.co.kr/store/books/look.php?p_code=B4998513859
 
캐글은 가끔 둘러본적 있지만, 본격적으로 살펴보거나 공부한적은 없었다.
 
어차피 원하는 분석만 하면 되는거지 꼭 캐글을 이용해야 하는건 아니니까...
 
 

2021-06-20 20.54.33 표지.jpg

 

 
어쨌든 이 책은 일본 원서의 변역서지만 대부분의 일본 번역서처럼 어색한 번역은 없다. 
 
캐글 및 데이터 분석에 대한 전반적인 내용을 다루고 있지만, 
 
사실 캐글에 대한 내용은 많지 않아 보이고 그리 중요하다고 생각하지 않는다. 
 
그리고 책의 내용도 대부분 다른 분석서에 나오는 내용들과 크게 다른 부분은 없어 보인다.
 
 

2021-06-20 20.55.52 혼동행렬.jpg

 

 
위에 나오는 그림을 본 적이 있는 독자들이 꽤 있을거라 생각한다. 
 
데이터 분석 서적에 단골로 나오는 혼동 행렬이다. 이름도 그렇지만 내용도 항상 헛갈리는 부분이다. 

이 책에서도 빠트리지 않고 다루고 있으니 다시 한번 확인해보자. 

혼동 행렬이 있길래 목차를 보았더니 진국이다. 데이터 분석, 머신 러닝에 대한 내용들이 대부분 다뤄지고 있다. 

데이터 분석 관련 수험서로 사용한다고 해도 빠지지 않을 만한 목차로 보인다. 

다만 완전 초보용 책이 아니다보니, 처음 데이터 분석을 하난 독자들에게는 약간 부담스러울 것으로 보인다. 
 
예를 들어 이 책에서는 RMSE 에 대해 공식이 약간의 설명은 있지만, 초보자용 입장에서 설명하는 것은 아닌거로 보인다. 

이런 식으로 이해가 안가는 부분이 있는 독자들은 다른 기본서를 먼저 보길 권한다. 

이 책에는 그림이나 표가 적절히 추가 되어 잘 설명을 하고 있다. 약간 아쉬운 점은 컬러 인쇄가 아닌 흑백 인쇄라서 

다소 투박해 보인다는거.
 
 

2021-06-20 20.55.14 그림.jpg

 

 
정리하면 다음과 같다. 이 책은 데이터 분석가, 캐글에 도전해보려는 독자를 위한 책이다.
 
머신 러닝, 딥러닝의 기본에 대한 내용들도 많이 다루고 있으므로 다양한 독자들에게 도움이 될만한 책으로 보인다. 

본인도 나중에 다시 한번 꼼꼼히 봐야 할 부분이 많다는걸 느끼게 해준 좋은 책이었다. 

초급 데이터 분석을 벗어나고 싶은 독자들에게 추천해볼 만한 책이고, 캐글에도 도전해보는 것은 어떨까 한다.
 
 
"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

과거와는 다르게 어느정도 빅데이터가 쌓이고, 이를 활용한 비지니스 모델들이 많이 나오고 있다. 오히려 데이터가 많이 쌓이면서, 어느정도 영리의 목적을 가지지 못하는 데이터속에서 의미를 찾고자 하는 의도가 보통 데이터를 가지고 열리는 대회에서 보여진다. 그래서 예전보다 더 데이터를 활용한 경진대회나 워크샵이 많이 열리는 것 같다. 보통은 많이 알려져있는 Kaggle이나 DrivenDataAIcrowd 같은 곳에서 대중적인 데이터를 가지고 경연대회를 많이 열고 있고, 상위 입상자에는 상금과 관련된 혜택을 제공하고 있다. 이제는 데이터에 관심을 가지고 이론을 구현해보고자 하는 사람들에게는 돈도 벌수 있고, 학문적 지식도 쌓을 수 있는 기회들이 제공되고 있는 것이다. (참고로 우리나라에도 Dacon이라고 하는 공공/영리 데이터 기반의 경진대회를 진행하는 곳이 있다.)

데이터가 뛰어노는 AI 놀이터, 캐글

이번에 소개할 책도 역시 캐글에서 즐겨보고자 하는 사람을 대상으로 써진 책이다. 사실 시중에도 이 책 이외에도 캐글과 관련된 책들이 약간 출간되어 있다. 나도 캐글(사실 대회 입상 자체에 관심이 있기 보다는 거기에 공개된 데이터가 회사에서 하는 일과 관련되었는지에 대해서 살펴보는 편이다)에 관심을 가지는 입장에서 관심있게 보는 편인데, 기존의 책들은 대회에서 우승한 알고리즘이나 그 이론적인 배경보다는 처음 접하는 사람들이 어떻게 제출할 수 있고, 많이 알려져 있는 대회에서 우승한 알고리즘에 대한 해설이 나와있는 형태로 많이 되어 있다. 그리고 그런 책 중 가장 아쉬운 것은 소개된 대회의 종류가 한정적이라는 것이다. 

그런 관점에서 봤을 때 이 책에서는 다양한 대회에 대한 사례들이 많이 제시되어 있던 부분이 좋았다. 참고로 크게 다음과 같은 주제로 캐글에서 활용할 수 있는 기법에 대해서 소개하고 있다.

  • 특징 생성
  • 모델 구축
  • 모델 평가
  • 모델 튜닝
  • 앙상블 기법

사실 캐글을 많이 도전해본 사람이라면 알겠지만, 대회자체가 ML관련된 지식이 많이 있다고 해서 점수를 많이 받고, 높은 대우를 받는 구조로 되어 있지 않다. 어떻게 보면 EDA를 통해서 대회에서 제공되는 데이터의 속성을 빠르게 분석하고, 이에 적당한 모델을 선택해서 튜닝하는 과정에 최적화되어 있다. 그래서 아무리 책에서 ML과 관련된 다양한 모델을 접해봤더라도, 막상 데이터를 보면 조금 막막한 경우가 생긴다. 이 책은 그런 아쉬움을 어느 정도 해결해줄 수 있는 내용들을 제공하고 있다.

이 책의 차별성이라고 하면, 앞에서 언급했다시피 다양한 카테고리에 맞춰 이와 관련된 대회의 사례들을 제시하고 있는 것이다. 또한 저자가 직접 참여하면서 적용했던 이론적인 뒷받침이나 근거에 대해서 간단하게나마 설명하고 있어, 접근방식을 복습해보려는 사람에게는 좋은 길잡이가 될 내용들이 담겨져 있다.

책의 분량 자체가 그렇게 얇지 않기 때문에, 전체적인 내용을 섭렵하고 대회에 도전해보기에는 적절하지 않다. 그만큼 책에는 대회에서 적용해볼만한 다양한 기법들과 관련된 코드들이 제시되어 있고, 설명이 잘 되어 있다. 아마 나같은 경우라면 직접 구현해보면서 막히는 주제 중 책에 포함된 주제에 대해서 읽어보고 실력을 키우면 좋을 것 같다.

(해당 포스트에서 소개하고 있는 "데이터가 뛰어노는 AI놀이터, 캐글" 책은 한빛미디어로부터 제공받았음을 알려드립니다.)

머신러닝으로 데이터를 가지고 좀 놀아봤다면?

이제 넓은 세상에 나가 그 실력을 발휘할 때지.

어디서? 데이터 분석 경진 대회들!

그런 예측모델 분석 대회 플랫폼인 캐글!

Kaggle! www.kaggle.com!

 

그런데, 그냥 가면되나? 무작정?

그게 그렇지가 않다는군.

가벼운 마음으로 나갔다가

경진 대회에서 마음만 받을께~ 라는

당황스러운 마음의 스크레치를 선물로 받을 수 있다.

 

하지만 캐글에서의 경험을 바탕으로 주옥같은 노하우들을

집대성해놓은 이 책이 더해진다면

이미 기본적인 준비는 되었다고 봐도 과언이 아닐 듯 싶다.

 

 

데이터가뛰어노는AI놀이터캐글.jpg

 

실제 데이터들을 이용하고,

이론서들에서 찾아보기 어려운 기법들과

데이터셋들마다 다양한 테크닉이 필요한 경진 대회에서

상위 순위권에 진입하기 위해서는

문제를 정확히 이해하고 풀어내는 능력이 꼭 필요하다.

 

어떻게 하는데? 모든 경우에 대한 답이 들어있지는 않겠지만

예측 대상이나 모델의 평가지표가 명확할 때

어떻게 해야 성능이 높은 모델을 만들 수 있는지..

 

일반적으로 주의해야 할 내용들은 무엇인지..

모델의 성능을 개선할 때는 어떤 것들을 생각해야 하는지..

성능을 개선하는 기법들의 장단점과 특성은 어떠한지..

 

도구나 힌트가 될 수 있을 것 같은 것들을

수식은 최소화하면서 글이나 예제, 표를 사용해서

조금 더 이해를 쉽게 할 수 있도록 

쉽고 세세하게 설명해주고 있어서

대회를 준비하는 사람들에게 너무나 좋은 책이 아닌가 싶다.

 

단, 파이썬과 라이브러리의 사용법이나

머신러닝의 기본 개념이나 미분/행렬 연산등은

설명하지 않으니 미리 알아두면 좋을 듯 하다.

 

이제 랭커로 등록되러 가볼까?

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

 

KakaoTalk_20210620_194013724.jpg

 



 

달마다 그렇듯 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받았습니다.

 

&주의!& 데이터가 뛰어노는 곳입니다! 사람은 조심하세요!”

 

pororo 라이브러리 관련 내용 있으면 파이토치 자연어처리 책 신청하는건데캐글이 궁금해서 캐글을 신청했다.

근데 자연어 처리 책이 더재밌었을 것 같다는 생각이 들었다.

 

왜냐하면 제목처럼 캐글은 사람이뛰어노는 곳이 아니라 데이터가 뛰어노는 곳이기 때문이다.

캐글은 가끔씩 이미 끝난 대회에서예제 몇개만 간단하게 따라해봤지, 아직 대회에 나간다거나 해본 적은 없다.

온라인 세미나 같은곳에서 캐글에서상금받으신 분들의 경험담을 들어보면 틈틈히 시간을 투자해야하고, 아직 내 능력으로도 모델을 설계하거나그러기엔 한계가 있다.

책 내용또한 상당히 자세하게설명하고 있어서, 캐글 대회를 참가하다가 조금 막히시는 분들에겐 매우 도움 될 것 같은데 나처럼 그냥 '구경이나 해볼까' 하는 사람들이 읽기엔 '그래서 이건 어디에 써먹지?' 하는 기분이 들지도 모른다

 

KakaoTalk_20210620_194013724_01.jpg

 

 

그래도 잘하면 취업으로 이어질수도 있다하니까 나중에 더 똑똑해지면 도전해보자!

.



 

 

# 데이터가 뛰어노는 AI 놀이터, 캐글

- 한빛미디어

- 2021.05.10 출간

- 정가 35000

 

캐글1.png

 

데이터 과학자, 빅데이터 등에 관심이 많은 사람들은 "캐글"에 대해 한 번쯤 들어봤을 거라 생각합니다. 

저도 캐글에 대해서는 많이 들어봤고 관심도 많지만, 캐글에 도전할 생각을 하면 막막한 게 사실입니다. 

어떻게 공부를 해야할지도 전-혀 모르겠거든요! 

 

그래서 사실 지금의 제 수준에는 많이 어려울 거라 생각하긴 했지만 

그래도 한빛미디어의 <데이터가 뛰어노는 AI놀이터, 캐글> 을 한빛미디어의 '나는 리뷰어다2021'의 6월 신청도서로 신청했습니다. 

 

일단 사실 한빛미디어의 기존 책들에 비해, 좀 비싼 편이긴 해요. 

번역서여서 그런지 모르겠는데 컬러책도 아니고 완전 흑백책인데. 420p 정도 되는 도서인데. 

가격이 35,000원은 좀 비싸다고 생각했어요(뭐 책이 가격에 비해 별로다, 이런 것은 전혀 아닌데. 

기존의 풀컬러 책인데도 35,000원이면 한빛미디어 도서 치곤 꽤 비싼 값인데. 

흑백책이 그 가격이라고 하니 더 비싸게 느껴지는 것 같아요) 

 

 

데이터 과학자, 빅데이터 등에 관심이 많은 사람들은 "캐글"에 대해 한 번쯤 들어봤을 거라 생각합니다. 저도 캐글에 대해서는 많이 들어봤고 관심도 많지만, 캐글에 도전할 생각을 하면 막막한 게 사실입니다. 어떻게 공부를 해야할지도 전-혀 모르겠거든요! 그래서 사실 지금의 제 수준에는 많이 어려울 거라 생각하긴 했지만 그래도 한빛미디어의 <데이터가 뛰어노는 AI놀이터, 캐글> 을 한빛미디어의 '나는 리뷰어다2021'의 6월 신청도서로 신청했습니다. 일단 사실 한빛미디어의 기존 책들에 비해, 좀 비싼 편이긴 해요. 번역서여서 그런지 모르겠는데 컬러책도 아니고 완전 흑백책인데. 420p 정도 되는 도서인데. 가격이 35,000원은 좀 비싸다고 생각했어요(뭐 책이 가격에 비해 별로다, 이런 것은 전혀 아닌데. 기존의 풀컬러 책인데도 35,000원이면 한빛미디어 도서 치곤 꽤 비싼 값인데. 흑백책이 그 가격이라고 하니 더 비싸게 느껴지는 것 같아요) 데이터 과학자, 빅데이터 등에 관심이 많은 사람들은 "캐글"에 대해 한 번쯤 들어봤을 거라 생각합니다. 저도 캐글에 대해서는 많이 들어봤고 관심도 많지만, 캐글에 도전할 생각을 하면 막막한 게 사실입니다. 어떻게 공부를 해야할지도 전-혀 모르겠거든요! 그래서 사실 지금의 제 수준에는 많이 어려울 거라 생각하긴 했지만 그래도 한빛미디어의 <데이터가 뛰어노는 AI놀이터, 캐글> 을 한빛미디어의 '나는 리뷰어다2021'의 6월 신청도서로 신청했습니다. 일단 사실 한빛미디어의 기존 책들에 비해, 좀 비싼 편이긴 해요. 번역서여서 그런지 모르겠는데 컬러책도 아니고 완전 흑백책인데. 420p 정도 되는 도서인데. 가격이 35,000원은 좀 비싸다고 생각했어요(뭐 책이 가격에 비해 별로다, 이런 것은 전혀 아닌데. 기존의 풀컬러 책인데도 35,000원이면 한빛미디어 도서 치곤 꽤 비싼 값인데. 흑백책이 그 가격이라고 하니 더 비싸게 느껴지는 것 같아요) 데이터 과학자, 빅데이터 등에 관심이 많은 사람들은 "캐글"에 대해 한 번쯤 들어봤을 거라 생각합니다. 저도 캐글에 대해서는 많이 들어봤고 관심도 많지만, 캐글에 도전할 생각을 하면 막막한 게 사실입니다. 어떻게 공부를 해야할지도 전-혀 모르겠거든요! 그래서 사실 지금의 제 수준에는 많이 어려울 거라 생각하긴 했지만 그래도 한빛미디어의 <데이터가 뛰어노는 AI놀이터, 캐글> 을 한빛미디어의 '나는 리뷰어다2021'의 6월 신청도서로 신청했습니다. 일단 사실 한빛미디어의 기존 책들에 비해, 좀 비싼 편이긴 해요. 번역서여서 그런지 모르겠는데 컬러책도 아니고 완전 흑백책인데. 420p 정도 되는 도서인데. 가격이 35,000원은 좀 비싸다고 생각했어요(뭐 책이 가격에 비해 별로다, 이런 것은 전혀 아닌데. 기존의 풀컬러 책인데도 35,000원이면 한빛미디어 도서 치곤 꽤 비싼 값인데. 흑백책이 그 가격이라고 하니 더 비싸게 느껴지는 것 같아요)  

 

 

 

 

캐글2.png

 

일단 한빛미디어 사이트의 책 소개를 보면, 도서의 난이도가 초중급이라고 되어 있어요. 

 

 https://www.hanbit.co.kr/store/books/look.php?p_code=B4998513859

 

근데 사실 저는 초중급은 아니고. 책이 그것보단 좀 더 난이도가 있다고 생각이 들긴 했습니다. 

물론 캐글에 대해 상세하게 소개부터 시작하고, 관련 해서 데이콘 같은 국내 경진대회에 대해서도 언급을 해주는 친절함은 있었다. 

(하지만 저는, 초중급보다 개인적으로 높게 난이도가 느껴지긴 했습니다ㅠㅠ) 

 

캐글에 대한 설명을 하는 부분은 확실히 지금 제게도 "아 그렇구나"하는 생각을 하게끔 설명도 잘 되어 있고 해서 참 좋았는데. 

아무래도 그 뒤에 모델구축을 하는 부분이 조금 난이도가 있었습니다. 

아! 근데 여기서 중요한 건 초보자분들이긴 해도 이 책을 읽고서 "와.. 진짜 뭔말인지 하나도 모르겠어.." 이런 느낌이 드는 난이도이기 보다는

"엥? 잠깐만,잠깐만. 생각해보자.." 이런 느낌이 더 많았던 것 같아요. 

 

약간 시간과 노력을 투자하면 아직 조금 부족한 초보자분들도 따라 공부할 수 있을 것 같은 느낌이랄까요? 

그래서 저는 일단 이번에 한 번 쭉 읽고서 좀 어려움을 느끼긴 했지만. 

오히려 "와, 이거 제대로 공부해보면 그래도 좀 될 것 같은데?"라는 생각이 들어서. 

아는 지인과 함께 다시 이 책으로 스터디 해보기로 했어요.  

캐글3.png

 

책에서 팁도 많이 알려줘서, 약간 도약(?)을 위한 도서라고 보시면 더 좋을 것 같아요. 

완전 진짜 초보자를 위해 하나부터 열까지 다 알려주는 도서라기보단, 어느 정도 기본은 있는데. 

좀 더 확실하게 기본을 세우고 그보다 좀 더 높은 단계를 도약하기 위한 도서. 

근데 그 단계가 약간 초중급이라기보단 중급정도라고 생각이 들었습니다! 

 

정리를 하자면, 우리 수학공부도 그렇잖아요. 정통방법이 있긴 하지만. 

그 정통방법을 어느정도 이해하고 내 것으로 만들면 편법이라고 하죠? 

어느정도 시간을 단축할 수 있는 방법을 배우고. 그걸 발판삼아 좀 더 높은 난이도에도 도전하고. 그런 것!  

이 도서가 그런 느낌이예요. 정통방식을 1부터 설명한다기보단, 

그걸 어느정도 알고 있는 사람에게 좀 더 높은 단계로 도약하기 위해 각종 팁에 대해 좀 더 자세히 설명하는 도서! 

이렇게 생각해주시면 좋을 것 같아요. 

책에서 팁도 많이 알려줘서, 약간 도약(?)을 위한 도서라고 보시면 더 좋을 것 같아요. 완전 진짜 초보자를 위해 하나부터 열까지 다 알려주는 도서라기보단, 어느 정도 기본은 있는데. 좀 더 확실하게 기본을 세우고 그보다 좀 더 높은 단계를 도약하기 위한 도서. 근데 그 단계가 약간 초중급이라기보단 중급정도라고 생각이 들었습니다! 정리를 하자면, 우리 수학공부도 그렇잖아요. 정통방법이 있긴 하지만. 그 정통방법을 어느정도 이해하고 내 것으로 만들면 편법이라고 하죠? 어느정도 시간을 단축할 수 있는 방법을 배우고. 그걸 발판삼아 좀 더 높은 난이도에도 도전하고. 그런 것! 이 도서가 그런 느낌이예요. 정통방식을 1부터 설명한다기보단, 그걸 어느정도 알고 있는 사람에게 좀 더 높은 단계로 도약하기 위해 각종 팁에 대해 좀 더 자세히 설명하는 도서! 이렇게 생각해주시면 좋을 것 같아요.

 

#데이터가뛰어노는AI놀이터캐글 #한빛미디어 #나는리뷰어다2021 #솔직한리뷰

#쉽지않네 #캐글 #캐글공부 #난이도는초중급보다좀더높음 #빅데이터 #데이터과학자

한빛미디어 출판사에서 "나는 리뷰어다202"로 활동하면서 받은 도서입니다. 

 

 

 

 

 

 

 

한빛미디어에서 제공받는 책으로 해당 리뷰를 작성하였습니다.

책표지!

1, TL;DR

이 책의 가장 큰 장점은 캐글에서 사용하는 다양한 기법을 체계적으로 정리하고 있다는 점이다. 대표적인 장점은 1) 성능을 올리는데 사용되는 기법의 장/단점과 특성을 상세하게 설명한다. 2) 캐글에선 많이 사용하지만, 다른 교재에서 다루지 않는 기법을 소개한다.

데이터 분석을 공부하면서 캐글에 공개된 노트북을 최대한 활용하고 있다면, 이 책이 많은 도움을 줄 것이다. 그리고 데이터 분석을 공부한다는게 대부분의 Pandas 라이브러리 사용법 부터 시작하는데, Pandas 사용법을 모두 익혔다면 이 책을 선택해서 다양한 기법을 배워보기 권하고 싶다.

2

책내용!

이 책을 처음 받았을 때, 데이터 분석 경진대회 플랫폼인 캐글(Kaggle)에 관한 책이라 생각했다. 캐글은 데이터 분석을 학습할 때 전처리, 분석기법 등을 살펴볼 수 있다. 상위 등급의 도전자가 공개한 노트는 일반적인 데이터분석 교재에서 배울 수 없는 다양한 팁이 모여있기 때문에 학습에 많은 도움이 된다.

상위 랭크의 노트북이 도움이 된긴 하지만, 사실 이런 과정까지 도달하기 위해서 생각보다 많은 시간을 소모하게 된다. 왜냐하면 대부분의 학습자가 PandasMatplolib 등 다양한 라이브러리 사용법부터 학습하기 시작하기 때문에 다른 사람의 노트북을 보고 학습하는 과정이 쉽지 않다. 노트북에 주석이 없는 경우도 많고, 있다고 해도 너무 간단하기 때문에 초급 데이터 분석자에겐 쉽지 않다. 이런 연습은 교재의 후반부에 등장하는 사례 관련 코드로 연습할 수 있기 때문에 체계적인 연습이 될 것으로 기대한다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

빅데이터/인공지능 경진대회 플랫폼인 캐글에 대해서 이미 알고있었다. 

하지만 이런게 있구나 정도만 알고 있었지 제대로 해본적은 없었다. 또한 데이터를 분석하는 전반적인 방법에 대해 대충만 알고 있었지 어떻게 하는지는 100% 이해하지 못하고 있었다. 

하지만 이책은 캐글을 활용해서 데이터를 분석하는 방법이 잘 나와있고, 캐글 시스템에 대해 정확히 알 수 있는내용이 잘 설명되어 있고, 캐글 뿐만 아니라 국내 경진대회 플랫폼인 데이콘이라는 것이 있다는 것과 그회 일본등 다양한 경진대회 플랫폼이 있다는 것도 알수 있게 되었다.

 

KakaoTalk_20210620_125322354.jpg

 

 

1장은 캐글을 사용하는 방법도 상세하게 나와있어 영어가 달리는 이용자에게 가이드 역할을 해줄 수 있어 좋았고, 전반적인 이 책의 내용이나 캐글 사이트를 활용하는 방법이 잘 나와 있다.

2장은 문제의 분석방법에 대해서 간략한 설명과 경진대회에 활용할 수 있는 평가지표를 설명하고 있다.

회귀에 대한 평가지표, 이진분류에 대한 평가지표, 다중클래스 분류에 대한 평가지표등이 잘 설명되어 있어 내가 만든 모델이 어떻게 평가되는지 확인 할 수 있다,

3장은 이러한 평가 지표에서 좋은 점수를 받기 위해 데이터의 특징을 어떻게 만들어 내는지에 대한 얘기가 나온다.

각각의 모델에 대한 특징 및 관계, 그리고 다양한 데이터셋 변환 방법들을 설명하고 있다.

4장은 앞서 만들어진 다양한 데이터셋들을 가지고 모델을 만드는 방법에 대해 설명하고 있다.

결정트리, GBDT, xgboost, 신경망 등 상황에 따른 모델 사용방법에 대해설명하고 있다.

5장은 모델을 평가하고 검증하는 방법에 대해 설명한다.

홀드아웃, 교차검증, 층화 k-겹 검증등 다양한 검증기법과 시계열 데이터의 검증방법 그리고 검증 포인트와 기술등이 잘 설명되어 있다.

6장은 모델의 특징 선택을 통해 성능을 높이는 튜닝에 대해서 설명한다.

7장은 여러 모델을 조합하여 새로운 모델을 만들어 보는 앙상불 기법에 대해 설명한다.

 

이 책이 단순히 캐글 사이트를 설명하는 책이라고 생각했었지만 책을 받아보고 이 책의 내용을 읽다보니,

데이터를 분석하는 방법 및 검증하는 방법등 데이터 분석기법에 대한 바이블역할을 하는 책이 분명하다.

 

데이터를 구하지 못하고, 데이터분석에 대한 스승이 없는 초보자들의 경우이책을 스승삼아 열심히 공부하다 보면 언젠가 나도 모르게 데이터 분석가가 되어 있지 않을까?

 

 

[서론]

 

캐글은 세계에서 가장 유명한 데이터 분석 대회 플랫폼이다. 데이터를 분석하는 업무와 관련이 있는 사람이라면, 누구나 쉽게 접하고 많이 참고하는 플랫폼이다. 대회는 참가자들을 객관적이고 명확한 결과로 줄세운다. 참가자들의 성적이 등수로 바로 나온다. 그래서 분석 점수를 조금이라도 높이기 위한 특이한 기법들이 총동원된다. 이런 다양한 기법들은 데이터 분석 실무에서도 모델 정확도를 높이는 데 매우 유용하다.

 

 

[CHAPTER 1 경진 대회]

 

캐글에서 개최되는 데이터 분석 경진 대회를 참가하기 위해서는 어떻게 해야하고 어떤 점이 중요한 지 기초적으로 알려주는 장이다. 유명한 대회를 소개하고 캐글 대회에 등록하는 방법부터 차근차근 설명한다. 상위권 진입을 하기 위한 기본 지식도 간단히 알아본다.

 

 

[CHAPTER 2 경진 대회의 평가지표]

 

각 대회의 종류, 데이터셋, 평가지표에 대해서 알아본다. 각 평가지표에 따른 목적함수와 최적화 기법, 그리고 간단한 최적화 사례에 대해서 이해하고 데이터 정보 누출의 개념을 이해한다. 캐글 경진대회에 참가해서 높은 점수를 얻기 위해서는 가장 기초가 되고 또한 가장 중요한 장으로 생각된다. 

 

 

[CHAPTER 3 특징 생성]

 

이 장부터는 분격 데이터 분석 기법과 팁 모음이다. 어떤 데이터를 마주했을 때, 어떤 기법을 사용해서 처리를 해야지만 좋은 결과를 얻을 수 있는지를 알려준다. 특징 생성은 흔히 피처 엔지니어링(feature engineering)이라고 부르는 가장 중요한 부분 중에 하나다. 결측값 처리부터, 수치형/범주형 변수 변환, 날짜/시간 처리, 변수의 조합과 다른 데이터와의 결합, 시계열 데이터 처리 등 다양한 데이터 처리 방법을 소개하고 마지막에 캐글 대회의 특징 사례도 접한다.

 

 

[CHAPTER 4 모델 구축]

 

모델이란 입력 데이터의 특성을 활용해서 예측값을 만들어낸다. 데이터 분석 작업은 흔히 전처리가 반이라고 이야기 하는데, 이 전처리 작업은 어떤 분석 모델을 사용할 것인지에 따라서 그 양과 난이도가 천차만별로 나눠진다. 여기서는 캐글 대회에서 사용하는 다양한 모델의 종류과 구축 방법, GBDT, 신경망, 선형 모델, 기타 모델 등을 알아보고 적합한 모델을 선택하는 팁과 테크닉을 소개한다.

 

 

[CHAPTER 5 모델 평가]

 

모델은 결국 현재 확보된 데이터를 활용하여 미지의 결과를 예측하기 위해 구축한다. 이 예측 능력을 모델의 일반화 성능(generalization performance)라고 한다. 확보된 데이터를 학습 데이터와 검증 데이터로 나누고, 검증 데이터 예측성능을 평가지표에 기반한 점수로 나타내 평가한다. 이 과정에서 데이터를 적절히 나눠서 모델의 일반화 성능을 평가하는 작업이 모델의 평가 및 검증과정이다. 이 장에서는 홀드아웃 검증, 교차 검증, 층화 k-겹 검증, 그룹 k-겹 검증, LOO 검증 등의 주요 검증 방법에 대해서, 일반적인 데이터와 시계열 데이터를 각각 분리해서 설명한다. 그리고 적절한 검증을 수행하기 위한 검증 포인트와 기술을 소개한다.

 

 

[CHAPTER 6 모델 튜닝]

 

모델의 하이퍼파라미터 튜닝과 특징 선택을 통해 모델 성능을 높이는 기술을 소개하는 장이다. 분류 문제에서 클래스의 분포가 편중되었을 때의 대처 방법도 설명한다. 모델의 성능을 더 좋게 끌어올리기 위해서는 가장 많은 다양한 시도가 이뤄지는 중요한 내용이다. 

 

 

[CHAPTER 7 앙상블 기법]

 

여러 모델을 조합하여 모델을 만들고 예측을 수행하는 것을 앙상블(ensemble)이라고 한다. 캐글 대회에서는 많은 사람들이 다양한 모델의 앙상블에 따른 예측값으로 최종 결과를 제출한다. 실무에서는 모델의 예측 성능 뿐만 아니라, 허용 자원과 수행 성능도 고려해야 하기 때문에 앙상블의 중요성이 다소 떨어지는 경우가 있지만, 이런 조합 기법을 통해 모델의 성능을 끌어올리는 방법을 제대로 알아두는 것은 매우 중요하다. 

 

 

[결론]

 

이 책의 부제는 "상위 랭킹 진입을 위한 필살기"이다. 확실히 캐글 대회에서 좋은 결과를 얻기 위한 개념 설명과 팁이 가득한다. 게다가 3장부터 7장까지는 캐글과 큰 관련 없이 머신러닝을 이용한 데이터 분석에서 배워두어야만 하는 내용이 가득하다. 다른 캐글러들과 치열한 경쟁을 하고 있는 캐글 대회 참가자들이라면 랭킹을 올리는데 많은 도움을 받을만한 책이다. 파이썬 기초, 판다스 기초, 넘파이 기초 등으로 지면을 잡아먹지 않고, 데이터 분석과 캐글로만 내용이 꽉 차 있는 책이라 더 좋았다. 

 

 

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

6월에 만나볼 책은 데이터가 뛰어노는 AI 놀이터, 캐글입니다. 저는 개인적으로 인터넷 블로그 등을 통해 정보를 습득하는 것도 좋아는 하지만 책을 좀 더 선호하는 편입니다. 인터넷의 정보들은 파편화 되어 있는 경우가 많아서 전체적인 그림을 위해서는 여러 곳을 방문하고 교차 검증이 필요한 경우가 많은데 책은 그래도 전체적인 내용을 모아 두고 있습니다. Kaggle이라는 놀이터의 튜토리얼이라고 할 수 있겠습니다.

구성

  • 데이터 경진 대회를 참가하려는 이들을 위한 안내서입니다
  • 대회 참가를 위한 기본적인 python library와 ML의 기본을 한다는 전제로 합니다.
  • 대회의 종류, 평가 지표들, 각 종류와 지표의 특징를 어떻게 황용해야 하는지 다룹니다
  • 데이터에 따른 활용, 모델 구축에 사용되는 알고리즘 등을 다루고 있다.
  • 대회 고득점을 위한 테크닉 등 캐글을 위한 캐글에 의한 책이다.

번역 및 문체

  • 흐름에 방해 되지 않는 문체
  • 번역 투가 거의 없습니다

난이도

  • python library와 ML의 기초를 갖추고 상태라면 크게 어렵지 않게 보실 수 있습니다ㄴ

추천대상

  • 데이터 사이언스ML/DL 등을 공부하고 적용을 해보고 싶거나 대회에 나가 보고 싶은데 어떻게 시작해야 할지 모르겠는 분들

한빛미디어 2021 도서 서평단 "나는 리뷰어다"의 일원으로 도서를 제공받아 작성한 리뷰입니다.

안녕하십니까, 간토끼입니다.

 

오늘은 한빛미디어의 <나는 리뷰어다 2021>의 일환으로 받은 데이터가 뛰어노는 AI 놀이터, 캐글에 대한 서평을 작성해보도록 하겠습니다.

 

 

 

 

 

데이터 분석, 데이터 사이언스, 인공지능, 머신러닝, 딥러닝 등등..

이런 키워드를 한번이라도 접해보고 관심이 있으신 분들이라면 "캐글(Kaggle)"이라는 키워드도 한번쯤은 접해보셨을 겁니다.

만약 데이터 사이언스와 관련한 책까지 읽어보신 분들이라면 단골 실습 소재로 등장하는 "타이타닉 예제"는 누구나 공감하실 친숙한 실습이죠.

이 타이타닉 생존자 예측 문제를 접해보셨다면 실제 캐글에 test.csv 를 올리셔서 점수까지 평가해보셨을 겁니다.

 

이처럼 캐글은 데이터 분석 경진대회가 운영되는 세계적인 플랫폼입니다.

캐글의 등록자 수는 2021년 3월 기준 630만 명이라고 하는데요. 많은 데이터 과학자, 데이터 분석가가 자신의 실력을 시험하고 점수를 쌓고자 대회에 참가합니다.

비유하자면 리그 오브 레전드(LOL; 롤)에서의 랭크 게임이라고 생각하시면 되겠네요. 본인의 실력에 따라 티어가 결정되는 시스템이거든요.

실제로 이 '티어'는 그 사람의 실력을 평가하는 중요한 척도가 되므로, 취업시 스펙으로 작용하는 경우도 크다고 합니다.

 

이처럼 이 책은 경진 대회에 참가해보려는 분들, 혹은 높은 상위권 진입을 목표로 하는 분들을 위해 제시하는 캐글의 가이드라인입니다.

 


Q. 이 책은 어떤 책인가요?

세계적인 데이터 분석 경진대회 플랫폼 '캐글(Kaggle)'에 진입하거나, 더욱 '잘 하고 싶은' 분들을 위해 제시하는 캐글의 가이드라인입니다.

데이터 분석가를 꿈꾸는 분들에게 중요한 경험으로 꼽히는 것 중 대표적인 것이 바로 '실제 분석 경험'인데요.

캐글에서 다뤄지는 데이터들은 단순히 분석을 위한 깔끔한 데이터가 아니라, 우리가 실무를 겪으며 마주칠 수 있는 실제 데이터, 즉 제대로 가공되지 않고 복잡한 형태를 띠고 있는 데이터죠.

그래서 캐글을 통해 실무를 간접적으로 경험할 수 있고, 이러한 경험이 축적되면 실무 그 이상의 역량을 쌓을 수 있는 기회가 되겠죠!

이처럼 캐글은 데이터를 도전하는 이들에게 정말 중요한 시작과 끝이며, 누구나 부담없이 즐길 수 있는 놀이터가 될 수 있습니다.

이 책은 캐글을 하는 모든 이가 한 권씩 소장하고 계속 보면서 학습할 만한 책이라고 저자는 말하고 있습니다.

 

이 책의 구성은 다음과 같습니다.

더보기

 


Q. 그럼 누구에게 추천하는 책인가요?

사실 가장 추천하고 싶은 분들은 캐글에 도전하고 싶지만 어떻게 하면 좋을지 막막해하는 분들이겠죠.

이는 저도 해당합니다. 마침 저도 캐글을 입문하려고 했거든요. ㅎㅎ

실제 공모전 수상 경력은 제법 많지만 캐글은 뭐랄까 무림의 고수들이 모인 곳입니다.

그래서 "진짜 실력"을 쌓는 지름길은 캐글에서 퍼포먼스를 보이는 것입니다.

 

아무튼 이 책은 입문하려는 분들에게도 용이합니다만... 반드시 캐글에만 국한되는 건 아닙니다.

데이터 분석 대회에서 보다 나은 퍼포먼스를 보이기 위한 팁들도 많고,

다양한 데이터를 잘 처리할 수 있는 방법들도 많죠.

 

 

 

 

예를 들자면 데이터 분석을 많이 경험해보지 못한 분들이 어려움을 겪는 것 중 하나가 시계열 데이터의 처리인데,

까다로운 시계열 데이터의 전처리에 대한 팁도 있습니다.


Q. 이 책의 장점은 무엇인가요?

입문자에게도 도움되지만, 입문자와 숙련자(?)의 사이에 있는 애매한 분들에게 큰 도움이 됩니다.

바로 특징 생성, Feature Engineering에 대한 팁이 정말 잘 돼있습니다!!

 

사실 모델링도 모델링인데 고수의 영역이 아닌 이상 대부분의 모델링은 비슷비슷하거든요.

결국 EDA와 전처리, 그리고 Feature Engineering에서 승부가 갈리게 되는데, 데이터 분석을 애매하게 하시는 분들도 이 부분이 약한 사람들이 많습니다.

 

그런 분들을 위해 이 책은 유용한 팁들을 제공하고 있습니다.

간단하게 챕터 3과 챕터 4를 발췌해서 보여드리면

CHAPTER 3 특징 생성

3.1 이 장의 구성
3.2 모델과 특징
3.3 결측값 처리
3.4 수치형 변수 변환
3.5 범주형 변수 변환
3.6 날짜 및 시간변수 변환
3.7 변수의 조합
3.8 다른 정형 데이터와의 결합
3.9 집약하여 통계량 구하기
3.10 시계열 데이터 처리
3.11 차원축소와 비지도 학습의 특징
3.12 기타 기법
3.13 경진 대회의 특징 사례

CHAPTER 4 모델 구축

4.1 모델의 기본 이해
4.2 경진 대회에서 사용하는 모델
4.3 GBDT
4.4 신경망
4.5 선형 모델
4.6 기타 모델
4.7 모델의 기타 팁과 테크닉

이렇게 되어 있는데요.

챕터 3에선 Feature Engineering, 그리고 챕터 4에선 모델링에 대한 팁들이 많이 수록되어 있습니다.

아마 큰 도움 되실 것이라고 자신할 수 있습니다.

 

아무튼 기대한 것 이상으로 유용한 부분이 정말 많네요.

개인적으로 학부에서 배운 것을 써먹고 싶은 대학생 분들에게 추천하고 싶은 책입니다.

공모전 준비할 때 꽤나 큰 도움이 될 거라 생각합니다.

 

감사합니다.

# 서론

데이터가 뛰어노는 AI놀이터, 캐글을 읽고...

내가 과외를 하면서 많이 듣는 질문은 프론트엔드, 백엔드 등 어떤 게 좋을까요? 라는 질문이다. 거기에 대한 해답으로 나는 AI데이터 엔지니어가 어떠냐 라는 말을 한다. 그렇게 말을 하면 대학원을 꼭 가야 하지 않느냐 라는 답변이 오곤 하는데 대학원을 안가고 캐글에서 우승하면 된다라는 말을 한다.

물론 모든 이에게 그런말을 하는 건 아니고 대학교 3학년 정도일 때만이지만... 2년이라는 시간이 남았다면 충분히 캐글을 도전할 만하기 때문이다.

캐글은 AI데이터 엔지니어들의 대회이자 놀이터이다. 그 공간에서 우승이나 어느정도 순위를 따낸다는 것은 기업에서 탐낼 인재가 된다는 것을 의미하기 때문이다.

이 책은 AI를 공부하는데 있어서 옆에 놔두고 레퍼런스로 쓰기에 굉장히 좋은 책이다. 겉으로는 캐글이라는 대회를 준비하는 사람들을 위한 책인 것같지만 사실상 대회를 준비하는 것은 곧 엄청난 공부를 한다는 것과 같으니까 말이다. 평가지표 선정, 특징설정, 모델구축, 평가, 앙상블, 모델개선 이렇게 구성이 되고 담백하게 7장으로 구성되어있다. 판다스나 파이썬의 기초같은 것도 없으니 너무나도 좋다! 저자의 경험들이 녹아져 있는 글들만이 가득하며 깨알같은 팁들로 이루어져있다.

이제는 누가 AI를 한다고 하면

- 성흔킴유툽강의(https://www.youtube.com/channel/UCML9R2ol-l0Ab9OXoNnr7Lw

- 이 책

끼고 실무 프로젝트 도전 이렇게 하면 된다고 할 것 같다.

# 상세리뷰

241p - 과거와 현재가 공존하는 어색한 리뷰 - BAD

186p - 노하우들이 많이 들어가 있다. 예를 들어 이 페이지에는 "다만 앞서 '주기적인 동향파악'을 위한 충분한 데이터 확보에서 설명했듯이 2년미만의 학습데이터 밖에 없는 경우라면 주의해야 합니다. " 라고 되어있다. - GOOD

중요 함수에 대한 설명이 부족한 부분이 있다. 아웃오브필드 등 NOTE 수준으로 상세적으로 설명이 들어가 있었다면. 좋을 것같다. - BAD

캐글 시작 전 워밍업(?) 단계에 펼쳐보고, 이후 옆에 두고 활용하면 좋을것 같아요. 

# 1. 표지

 

 

데이터가 뛰어노는 AI 놀이터, 캐글.png

 

 

# 2. 책 정보

 

### A. 분류

 

- 국내도서

    - IT 모바일

        - 프로그래밍 언어

- 파이썬

- 컴퓨터 공학

- 인공지능

- OS/데이터베이스

- 클라우드/빅데이터

 

### B. 책소개

 

##### 줄거리

 

**데이터 분석 무한 경쟁 ‘캐글’에서 살아남기 위한 비결**  

  

세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용된다. 이를 이해하고 체득하여 활용하는 것은 대회뿐만 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 매우 유용하다. 특징(feature)을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권에 정리했다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶다면 지금 바로 읽어보기를 권한다.

 

 

# 3. 책에 대한 느낌

 

 

 

캐글에 대해 알게 된 후로 캐글에 도전하고 싶은 생각이 종종 머릿속에 맴돌았다. 하지만 관련 책들도 마땅히 찾기 힘들었고, 작년과 올해 초에는 너무 바빴다. 그래서 차일피일 미루게 되었다. 그런데 마침 한빛미디어에서 진행하는 <나는 리뷰어다> 활동을 통해 이 책을 만나게 되었다.

 

흥미 있던 분야이기도 하고 기존에 인공지능을 공부했기도 해서 수월하게 책이 읽힐 것으로 생각하고 책을 읽어나갔다. 그래도 아직 많이 부족한지 생소한 용어들이 종종 나타났다. 첫 회독은 가볍게 읽으려고 했기에 체크만 하고 넘어가려 했다. 그런데 생소했던 용어들을 바로 다음에 설명하거나 주석을 달아서 설명하는 것이 가장 인상 깊었다.

 

나는 올해 초에 졸업작품으로 헬스케어 관련 주제로 딥러닝을 이용한 적이 있다. 그 당시를 되돌아보면 **이렇게 하니까 더 좋아지던데?**, **이렇게 하니까 모델이 좀 더 개선되던데?** 와 같이 느낌적인 감각에 의존했다. 그냥 하다 보니까 되더라라는 말이 어울릴 정도로 얕게 공부하고 모델을 만들었다. 그래서 이렇게 하면 **왜** 더 좋아지는지는 알지 못했다. 짧은 시간 안에 유의미한 결과를 내야 한다는 부담이 수박 겉핥기식으로 공부를 진행하게 한 듯하다. 이 책에서는 이런 방식은 왜 사용하였고, 다른 방식은 어떤 것이 있는지에 대해 잘 설명해준다. 

 

책의 구성은 O'Reilly와 유사하다고 느꼈다. 개발자를 꿈꾸기에 O'Reilly 책을 많이 가지고 있는데, 이런 책들은 목차에들어가기에 앞서 이 책에서 다루는 내용을 간략히 설명하고 대상 독자와 다루지 않는 내용에 대해 언급하고 넘어간다. 나는 이런 부분이 좋다고 생각한다. 

 

> 이 책은 캐글 대회에 유용한 내용이지만 다른 책에서 다루지 않는 내용을 상세하게 설명한다.

> 특히 모델의 성능을 올리는 데 중요한 각 기법의 장단점 및 특성을 최대한 설명하고자 한다.

> 이미지, 음성, 자연어 등의 기술의 세부사항은 다루지 않는다.

 

맨날 코드만 잔뜩 써진 책들을 봐서 그런지 코드 부분이 부족하다고 느낀다. 그래서 한빛출판네트워크 홈페이지나 깃헙을 찾아보니 저자가 올려둔 소스코드를 찾을 수 있었다. [1] 그러니 책을 한번 읽고 소스코드를 따로 실행해보면서 여러 번 반복 학습하는 것도 좋은 방법이라 생각한다.

 

나는 이 책을 캐글에 도전해보고 싶은 초보자에게 매우 추천한다.

 

 "한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

 

 

[1] LDJWJ. "kagglebook". Github. [LDJWJ/kagglebook: 데이터가 뛰어노는 AI 놀이터 소스코드 (github.com)](https://github.com/LDJWJ/kagglebook). (accessed Jun 16, 2021)

 

 

자세한 리뷰는 블로그에서 확인하세요
https://blog.naver.com/ab415/222398470703

 

이 책의 장점은 무엇보다 구성이라고 볼 수 있을 것 같습니다!

 

책에 대한 내용이 시작하기 전, 소개하는 글에 다음과 같이 적혀있습니다.

"각 장의 내용은 서로 관련된 부분도 있지만, 어느 장에서 시작하더라도 학습할 수 있도록 다른 장에 너무 의존하지 않으려 노력했습니다."

단순히 캐글을 시작하는 사람들 뿐만이 아니라, 캐글을 기존에 참여하던 사람들도 이 책의 목차에서 필요한 정보들을 언제든지 참고해서 볼 수 있다는 점이 좋은 것 같습니다.

 

단순히 입문서로 활용하는 것 뿐만 아니라, 참고서로도 활용을 하는 것입니다.

 

전반적의 책의 구성에선

2장, 3장, 7장을 주의깊게 보았습니다.

 

2장에 나와있는 평가지표는 실제로 단순히 Accuracy만으로 모델의 성능을 평가하는 것이 아니라 다양한 평가지표가 있다는 것을 설명해주고 있으며 2장 후반부에 나오는 최적화에 대해서 평소에 Kaggle을 하지 않던 저로썬 새로운 내용들이었습니다.

 

3장의 내용은 가장 많지만 무엇보다 전반적으로 데이터를 어떻게 수정을 해가는지에 대해서 많은 내용들이 있습니다!

실제 이 부분에 대해서는 Coursera 강의를 통해서도 중요하다고 강조했던 부분이고 고득점을 하기 위해선 반드시 해야하는 부분이기에 이 부문만큼은 천천히 주의깊게 읽는 것을 추천합니다.

 

무엇보다 7장에서는 Kaggle에서 점수를 올리기 위해선 반드시 알아야하는 앙상블 기법에 대해서 설명이 나와있습니다.

Stacking 방법은 이전에 Kaggle을 공부하면서도 상당히 인상깊던 기법이고, 다양한 competition의 notebook들을 참고해보면 이 방법을 심심치 않게 볼 수 있습니다!

 

 

한마디로 정리하자면

캐글의 기본서, 참고서

라고 표현할 수 있을 것 같습니다.

 

이번 기회로 책을 참고해서 competition에 도전해봐야겠어요 ㅎ

나도 리뷰어다.. 이번달 책입니다^^ 얼마전 캐글 스터디 참여했다가 완주 못한 아쉬움에 신청했는데요 아직도 캐글은 참 생소합니다 대회가 많고 계속 이메일도 날아오고요. 스터디 시작시 해야할 미션도 제대로 못해서 버벅거렸더랬지요 그래서 한 번 들여다보게 됩니다 베타리더에 많은 분들이 계시네요 제가 있는 오픈 챗방에서 유명한 분들도 계시고요^^ 대회 설명부터 데이터셋 이용방법까지 많은 지면이 할애되어 있습니다 데이터 이용법은 물론 API이용,데이터 변형에 대해서도 그림으로 설명되어 수월하게 볼 수 있네요 차분히 읽어보고 시도해본다면 캐글 정복 할 수 있겠지요?^^ 조만간 대회 하나라도 완료해 볼 수 있는 시간이 되면 좋겠어요 책 잘 활용해보면 가능할 거 같습니다

글 / 사진 : 서원준 ( news@toktoknews.com ) 



* 이 포스팅은 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

 

지난 5월, 필자는 개인사 등의 이유로 마음고생을 하면서 많은 어려움을 겪었다. 서평을 쓰는 것도 하는 둥 마는 둥 해야 했다. 6월을 시작하면서도 필자로서는 엄청난 걱정이 되었다. 5월에 못한 일을 다시 시작하려면 고생해야 했기 때문이다. 


오늘 살펴볼 도서는 데이터 분석과 관련된 도서이다. 그 중 세계 최대 규모를 자랑하는 데이터 분석 경진대회의 공식 플랫폼이라 하는 캐글에 대한 이야기이다. 


세계 최대 규모 데이터 분석 경진 대회 플랫폼인 캐글에서는 일반적이지 않은 데이터 처리 기법이 많이 활용되곤 하는데, 이를 이해하고 체득하여 활용하는 것은 대회에만 한정되는 것이 아니라 데이터 분석 실무에서도 모델 정확도를 높이는 데 있어서 매우 유용하다. 특징을 만드는 방법, 앙상블, 평가지표, 사이킷런, xgboost 등 기존에는 잘 다루지 않았던 기법과 사례를 이 책 한 권이 잘 정리해 주고 있는 것이다. 경진 대회에 참여할 계획이 있거나, 캐글을 경험해봤지만 더 높은 상위 랭킹에 도전하고 싶은 사람, 그리고 캐글이 무엇인지 알고 싶다면 일독을 권한다. 

 

이 책의 주요 내용에 대해서 살펴보자면 정밀도가 높은 모델을 구축하고. 데이터에서 특징 추출하고. 변수를 변환해 특징을 생성하는 방법과 평가지표를 이용해 예측 결과를 최적화하는 방법, 하이퍼파라미터 튜닝, 앙상블 기법과 스태킹, 시계열 데이터 종류와 취급 방법을 배울 수 있다. 한 마디로, 데이터 분석의 모든 것을 배울 수 있는 책이다. 



데이터가 뛰어노는 AI 놀이터, 캐글의 표지 전면, 책등, 후면. 



데이터가 뛰어노는 AI 놀이터, 캐글 책의 내용이다. 


서평을 마치면서 


필자는 데이터 분석의 중요성에 대해서는 b2b 방식의 웨비나를 많이 수강하여 잘 알고 있으나 관련 도서가 부족하여 잘 알지는 못했다. 데이터가 뛰어노는 AI 놀이터, 캐글이 그 해결책이 되어 주리라 믿는다. 이 책은 캐글에 도전하고 싶지만 어떻게 해야 할지 모르는 사람, 데이터분석의 기초와 실제를 함께 배우고자 하는 사람, 캐글로 진행하는 데이터 분석 경진대회에서 좋은 성적을 내고 싶은 사람들이 읽으면 좋을 책이라고 생각한다

요즘에 인공지능에 관심이 있어서 공부를 하고 있는 중에 나는 리뷰어다 에서 "데이터가 뛰어노는 AI놀이터 캐글" 이라는 책을 제공받았습니다.

 

앞으로는 인공지능이 대세가 되어가고 있어서 머신러닝에 대해 공부하고 있었는데요~

이 책을 통해서 데이터 경진대회 플랫폼 캐글이 있다는 것을 알게 되었네요.

 

 

책을 받기 전에 캐글이 궁금해서 캐글사이트에 접속을 해 보았는데요~

영어로 되어 있는 사이트가 어디서 부터 접근을 해야 하는지 잘 모르겠네요.ㅠ.ㅠ

 

 

 

이 책은 경진대회의 상위권 진입을 목표로 하시는 분들을 위한 가이드북입니다.

(처음에 캐글 사용법을 간단하게 설명해 주고 있습니다.)

경진대회중에서도 특히 정형데이터를 다루는 대회 대상입니다.

예측대상이나 모델의 평가지표와 같은 문제 설정이 명확하게 주어진 가운데 성능이 높은 모델을 만들려면 어떻게 해야 하고 무엇을 주의 해야 할지~ 경진대회에서 일반적으로 주의해야 할 내용을 총 망라한 경진대회 대비용 책이라고 할 수 있습니다.

 

 

이 책의 구성

 

1장 : 경진대회

- 경진대회에 대해 자세히 소개 하고 있으며 경진대회 참가하는 방법, 캐글 사용법,다양한 경진대회 사례 등을 다루고 있습니다.

- 경진대회의 등급이나 순위에 따라 요즘 같이 인재 부족 시대에 취업의 지름길로 갈 수 있다는 것까지 자세히 다루고 있습니다.

2장 : 경진대회의 평가지표

- 경진대회에 임할 때는 문제의 개요.데이터의 내용, 예측 대상 등을 이해하여야 합니다. 대회 순위는 평가지표의 예측값이 좋고 나쁨을 평가한 점수에 따라 결정되므로 평가지표를 살펴 보아야 합니다.

- 이 책에서는 경진대회의 평가지표로 사용되는 회귀의평가지표,이진분류의 평가지표,다중클래스분류의 평가지표 등을 다루고 있습니다.

- 이 책의 장점은 이러한 부분들을 설명 후에 사용했던 대회등을 예를 들어 주어서 어떤 대회에서 이런 평가지표를 사용했었는지를 알기 쉽게 정리해 놓았다는 것입니다.

3장 :특징생성

- 인공지능에서 가장 중요한 것은 특징을 찾아서 모델을 구축하는 것이라고 할 수 있습니다.

- 이 책에서는 모델과 특징의 관계를 설명하고 변수를 변환해 특징을 만드는 여러가지 방법에 대해 다루고 있으며 실제 경진대회의 사례를 들어 설명을 하고 있습니다.

4장 : 모델구축

- 경진대회의 대부분은 모델에 학습데이터와 함께 목적변수를 제공하여 목적변수가 없는 데이터의 목적변수를 적절하게 예측할 수 있도록 학습시키는 지도학습에 해당 됩니다. 

- 이 책에서는 특징을 생성 후 모델을 구축후 정형 데이터를 다루는 GBDT 모델,신경망,선형모델,KNN 등에 대해 다루고 있으며 경진대회에서는 모델의 성능,연산속도,사용편의성,다양성으로 앙상블에서의 모델 성능 향상에 기여하는지 여부에 따라 모델을 선택하게 됩니다.

5장 : 모델평가

- 모델생성의 주된 목적은 새로운 데이터를 예측하는 것입니다. 이때 평가용 데이터의 예측 성능을 특정평가지표에 따른 점수로 나타내여 평가하는 것을 검증이라고 합니다.

- 대회에서 정확한 검증이 이루어지지 않으면 어떤 특징을 사용해야 할지 알 수 없습니다.

- 이 책에서는 홀드아웃검증,교차검증,층화 k-겹검증,그룹k-겹검증,LOO검증 등과 같은 검증 방법에 대해 살펴 봅니다.

6장 : 모델튜닝

- 모델이 최적화 되지 않으면 모델의 힘을 충분히 발휘하지 못할 수 있으므로 모델의 튜닝이 필요합니다.

- 이 책에서는 하이퍼파라미터 탐색방법,매개변수 튜닝,GBDT의 매개변수 튜닝 방법 등에 대해 다루고 있습니다.

7장 : 앙상블 기법

- 단일 모델의 점수에 한계가 있지만 여러개의 모델을 조합하면 점수가 올라 갈 수 있는데 이렇게 여러개의 모델을 조합하는 것을 앙상블 기법이라고 합니다.

- 이 책에서는 평균과 가중평균등을 이용한 단순한 앙상블기법에서 부터 홀드아웃 데이터의 예측값을 이용한 앙상블 기법까지 다양한 앙상블 기법 등을 설명하고 있으며 기존 경진대회 문제를 가지고 경진대회에서 활용한 앙상블 사례 등을 통해서 앙상블 사용법 등을 설명하고 있습니다.

 

이 책을 꼭 읽어야 할 분

 

1. 캐글과 같은 데이터 경진대회를 준비하시는 분

2. 캐글과 같은 데이터 경진대회가 무엇인지 궁금하시는 분

3. 경진대회에서 상위권 진입을 목표로 하시는 분

 

이 책을 읽기전에 먼저 선행하자.

 

1. 파이썬의 기초문법은 이해하자(인공지능 관련한 라이브러리 사용법 등도 배워 두자)

2. 머신러닝에 대한 개념은 이해하자.(머신러닝을 활용한 경진대회에 접근하기 위한 주옥같은 내용이 담겨있다.)

 

이 책을 읽고

이 책을 읽으면서 처음 알고리즘 공부를 하던 기억이 떠오르네요~

처음 알고리즘 책들을 접하면서 깨알같이 쓰여진 내용들이 까만것은 글자이고 하얀것은 종이인데 어떤 것을 의미하는지 잘은 모르겠지만 그래도 한번 읽고 두번 읽고 하면서 조금씩 내용을 깨닫게 되었던것 같네요.

처음 캐글에 대해 알지도 못하고 무작정 신청한 책이었지만~

한번 훑어보고 다시 한번 읽어 보니 글자가 보일듯 말듯 하지만 아직은 어렵고 생소하기만 하네요~

하지만 이 책을 읽으면서 또 하나의 목표를 가지게 되었고 데이터과학자에 도전하시는 분이시라면 한권쯤 소장하고 계속해서 읽어 보라고 권하고 싶네요~

이 책은 막막한 데이터의 바다속에 헤매고 있는 여러분에게 한줄기 등대의 빛이 될것이라는 생각이 들었습니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

결제하기
• 문화비 소득공제 가능
• 배송료 : 2,000원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원이 주문하신 경우 무료배송

무료배송 상품을 포함하여 주문하신 경우에는 구매금액에 관계없이 무료로 배송해 드립니다.

닫기

리뷰쓰기

닫기
* 도서명 :
데이터가 뛰어노는 AI 놀이터, 캐글
* 제목 :
* 별점평가
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
데이터가 뛰어노는 AI 놀이터, 캐글
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
데이터가 뛰어노는 AI 놀이터, 캐글
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?

자료실