행동 데이터 분석

ink***l2023-06-26

R과 파이썬으로 시작하는 행동데이터 분석

한빛미디어의 책은 제목이 매우 정직하다.

제목만 봐도 무엇을 목표로 하고 있는지 정확히 알 수 있다.

'행동 데이터 분석'

사람들의 행동 데이터를 분석하는 방법에 대해 설명하고 있다.

기존에는 과학 데이터 분석처럼 머신 러닝을 과학적인 용도로 많이 설명하고, 소개하고 있는데

이 책은 사람들의 행동에 관해 분석하고, 향후 경향성을 예측하는 방법에 대해 설명한다.

과학데이터를 몇 개의 변수로부터 상관 관계, 혹은 더 나아가 인과관계를 찾는다면

행동 데이터는 변수자체가 매우 많기 때문에 처리해야 하는 데이터들간의 관계가 더욱 중요해지는 것 같다.

그럼에도 이 책은 선형 회귀와 로지틱스 회귀만 사용하고 있다.

이를 이용해

'무엇이 행동을 유발하는가?'라는 질문에 답을 찾고자 한다.

단순히 행동을 예측하는 것만이 아니라 행동을 설명하고 그 원인을 파악하는 것을 목표로 하고 있다.

R이나 파이썬을 사용하여 비즈니스 데이트를 분석하는 독자를 위한 책으로

R 또는 파이썬에 대해 프로그래밍 지식이 필요하고, 가능하다면 2개 모두로 코드를 읽고 작성할 수 있어야 한다고 말하고 있다.

실제로 두 개의 언어를 사용한 예시들을 제시하고 있다.

책의 구성

크게 5개의 파트로 나누어져 있다.

파트1. 행동의 이해

파트2. 인과관계 다이어그램과 교란 해소

파트3. 견고한 데이터 분석

파트4. 실험 설계와 분석

파트5. 행동 데이터 분석을 위한 고급 도구

실제 실행 단계는 파트3부터이다.

견고한 데이터 분석을 위해 해야하는 '결측 데이터 처리', '불확실성 측정' 을 다룬다.

그 후 실험 설계의 기초와 무작위 배정, 분석, 해석에 대해 다룬다.

마지막 파트5 는 고급 도구로 데이터를 조절하는 방법에 대해 다루고 있다.

비즈니스 목표 달성을 위한 분석 방법

데이터 자체를 목적으로 다루기보다는 인간의 심리와 행동들을 분석하여 여러 요인 사이의 인과관계를 알아내고, 분석하는 도구로서 활용하는 방법에 대해 알고 싶은 사람이 읽으면 좋을 것 같다.

과학적인 방법으로 데이터를 처리하고자 하는 경우(저같은 경우) 맞지 않을 수 있다.

맞지 않다기보다 그런 용도의 책들을 워낙 많이 나와 있기 때문에 굳이 이 책을 선택하지 않아도 되고,

정말 비즈니스에 활용하기 위한 혹은 설문이나 사회학적인 분석에 활용하고자 한다면 좋은 선택이 될 수 있다.

nanhmjj***l2023-06-26

행동 데이터 분석

데이터 분석 그 중에서 특히 인간의 의도가 무엇인지 분석하는 행동 데이터 분석을 다룬 책으로 현대적 인과관계 분석 방법 및 엄밀하진 않지만 구전으로 전해오는 실무 비법들을 공개한다.

상관관계는 인과관계가 아니다.

아이스크림이 많이 팔릴수록 상어가 사람을 많이 공격하니, 아이스크림을 덜 팔면 상어가 인간을 덜 공격할 것이다.

말도 안되는 명제임에 틀림없음에도 분명 데이터 분석 세계에서는 흔히 일어날 수 있는 결론이다. 아이스크림 판매량과 상어의 공격 빈도는 계절별로 놀라울 정도의 상관성을 갖기 때문이다.

두 데이터의 패턴은 일치하지만 저런 어리석은 결론이 도출된 결정적인 이유는 인과관계가 결여되어있기 떄문이다. 무엇 때문에 아이스크림이 많이 팔렸는지, 무엇 때문에 상어에게 공격을 당하는지 찾아본다면 쉽게 위 결론을 부정할 수 있다.

문제는 위 명제가 상식에 의해 참이 아니라는 나름의 믿음이 있기에 오류를 발견할 수 있다는 점이다. 이 책에 등장하는 예제처럼 무엇때문에 매출이 증가했는지, 혹은 할인 프로모션이 과연 매출 상승에 도움을 준 것이 사실인지와 같은 결론을 알지 못하는 명제를 맞딱드린다면 저런 우를 범하기 쉬워진다.

이런 문제를 해결하고자 이 책에서 도입한 기법이 인과관계 기법이다. 위에 언급한 “무엇”이 무엇인지를 찾기 위해 즉, 원인을 찾기 위해 데이터 분석에서 사용할 수 있는 다양한 실용적인 실무 기법이 소개된 것이 이 책의 가장 큰 장점이다.

교란 데이터를 찾아내는 기법이 그 중 하나이다. 단순히 아이스크림의 판매량이 기온이라는 원인에 의해 영향을 받는 것으로 분석하여 모델을 만들고 계절 특성이 타지 않는 갑작스런 기온 상승에 본 모델을 활용하여 재고량을 비축하는 과정에서 모델의 예측이 어긋나는 경우를 그 예시로 들고 있다.

사실 판매량은 기온 외에도 특정 계절에 학생들이 방학을 맞이하여 판매량이 늘었다는 또 다른 원인이 숨어있었다는 사실을 밝히고 교랸 변수를 찾다보면 인과관계를 찾아내는 과정은 결코 쉬운 일이 아님을 깨닫게 된다.

인간의 복잡한 마음이 단순하게 규명되긴 쉽지 않기에 그 과정을 도식화 하는 과정을 통해 모델의 정확성을 높이고 단순화하여 이해하기 쉽게 만들 수 있는 여러 기법이 소개되는데 그 중 가장 먼저 등장하는 것이 인과관계 다이어그램이다.

특히 사슬, 분기, 충돌이라는 세가지 기본 구조의 소개가 인상적이었다. 사슬이란 기온이 아이스크림 매출을 올리고, 아이스 크림 매출이 도넛 매출을 따라 올리는 연쇄적인 유발 관계를 의미한다. 이러한 사슬은 확장도 가능하고 축소도 가능하다.

분기란 기온이 아이스크림 매출을 올리기도 하지만 아이스커피의 매출을 올리기도 하는 관계를 의미한다. 반면 충돌은 2가지 이상의 변수가 동일한 결과를 유발한다. 여름철 여부라는 변수가 기온에도 영향을 주고 매출량에도 영향을 주면서도, 기온이 또 매출량에도 영향을 주는 셈이다.

이런 복잡한 매커니즘을 단순화하는 방법으로 피처를 분할하거나 집계를 내거나 순환을 관리하는 방법들이 존재하는데 기법 자체로도 중요하지만 데이터를 분석하는 사람이라면 철학적으로도 반드시 알아둬야 할 기본 교양이라 생각한다.

이를 토대로 4장에서는 인과관계 다이어그램을 만들어보는 예제가 여럿 등장하는데 한 과정씩 따라하다보면 구체적으로 인과관계 다이어그램을 어떤 방식으로 그릴 수 있는지 감을 잡을 수 있다.

아울러 앞서 언급한 교란 해소 방법으로 DCC(분리 인과 기준)과 BC(백도어 기준)은 반드시 읽어볼 것을 권하고 싶다. 이런 교란은 실무에서는 본능적으로 애써 외면하게 된다. 별다른 성과없이 엄청난 시간과 노동력을 잡아 먹을만한 주제라는 것을 알기 때문이다.

하지만 대부분의 문제는 먼 길을 돌다보면 결국 이 교랸 문제의 모순을 해결해야 풀리는 경우를 자주 발견한다. 비록 구체적인 예제가 등장하지 않아 아쉽지만 그럼에도 좋은 예시와 해결방법이 소개되어 있다.

이 책은 인과관계만 다루는 것은 아니다. 또 하나의 주제로 그동안 입문서나 교과서에서 다루지 않던 또는 수학과 같이 엄밀함을 보장할 수 없어 어두운 그늘에서 실무자 사이에만 구전으로 전해오던 현실에서의 실전 분석 방법도 상당수 소개되고 있다.

그 중 대표적인 것이 결측치 처리이다. 결측치를 처음 접했을 때만 해도 어차피 없는 데이터 따위는 없애거나 대체하면 그만이라 쉽게 생각했는데 그 없다는 것도 나름의 정보이다. 이를 무시하면 절대 성능좋은 모델을 만들 수 없다.

보이지 않는 데이터가 때로는 보이는 데이터보다 결정적인 결과를 도출하기도 한다. 교양서이지만 통계학의 대가 데이비드 핸드가 저술한다크데이터라는 책을 읽어본다면 결측치를 결코 만만하게 볼 수 없음을 깨달을 수 있다.

아무튼 MCAR, MAR, MNAR 등을 인과관계 다이어그램과 결부시켜 실습해보는 것이 인상적인 부분인데 비교적 적은 코드로 결측치의 숨은 진실을 쉽게 파악할 수 있게 잘 정리되어있다 생각했다.

부트스트랩을 이용한 불확실성 측정 또한 놀라웠다. 그동안 그저 모델이 정확도를 높이기 위해 부트스트랩을 활용해 왔는데 p-value의 남용 이슈와 관련된 부분에서도 큰 도움을 받을 수 있다는 사실을 직접 실습할 수 있어 유익했다.

p값 남용 문제는 통계학회의 권고 외에도 무수히 많은 책에서 확인해 온 내용이지만 그래서 결론은 어쩌라구? 라는 내 질문에 나름의 해법조차 전달한 책을 찾기는 드물었다. 분명 분석가 나름의 방법이 있을텐데 엄밀하지 않아서 확실하지 않아서 명예가 훼손될까 감춰진 경향이 강했다. 저자는 그 기법을 쿨하게 밝히고 있다. 물론 서문에서 다른 학자 및 전문가와 견해를 달리할 수 있음을 밝혀두었다. 전통적 검정력

그 외에도 실험을 직접 설계해보며 조절효과나 매개효과를 측정하는 방법 또한 매우 유익했다. 논문을 읽을 때마다 확실한 이해가 부족하여 막혔던 부분인데 이 책을 읽고 어느정도 감을 잡고 자신감을 얻을 수 있었다.

실습 언어는 R, Python 두 언어를 모두 사용하고 있다. 예제에 따라 두 언어 중 보다 적합한 언어를 선택하여 예제를 구성하고 있다.

다만 실습 위주의 책은 아니다. 크게 얻을 것이 없는데 실습 량이 많아 질 것 같은 부분은 예시로 대체하고 있으며 짧은 실습으로 언어적 기술보다 이해에 도움이 될 부분만 예제를 도입하고 있는데 그 완급조절이 가히 예술이다. 최대한 적은 분량으로 많은 것들을 알기 쉽게 전하는 책이다.

이렇듯 이 책은 99%의 입문서나 교과서가 담고 있지 않은 현실에서의 더럽고, 복잡하고, 자신있게 주장하기 힘든 데이터 분석 문제에 대하여 저자 나름의 해법을 용기있게 전달하는 책이다. 아울러 이 책에서 소개한 큰 주제 중 하나인 인과관계는 개인적으로 강인공지능(AGI)을 위한 열쇠라고 생각한다.

저자의 경험에서 얻은 노하우의 공유에 감사드리며 데이터 분석에 임하는 모든이들에게 꼭 한 번 읽어볼 것을 권하고 싶다.

책소개 - 행동 데이터 분석

ahnkyung***l2023-06-25

데이터 사이언티스트 중급자를 위한 책

10년 전 처음 빅데이터 책을 읽었을 때 너무 신세계여서 충격받은 적이 있다. 수많은 데이터를 모아 지지고 볶음으로써 미래를 예측할 수 있다니. 이미 기업에서 빅데이터를 적극적으로 활용한다는 사실을 알고 조만간 영화 '마이너리티 리포트'가 현실화 되는거 아닌가 상상한 적이 있다.

그런데 이때도 의문이 있던 지점은 있었다. 빅데이터 처리라는 건 마치 블랙박스 같은 게 가운데 있어서 Input(데이터)이 있으면 Output(예측)이 나온다. 하지만 왜 이런 결과가 나오는거지? 라는 질문에 명쾌한 해답은 알 수 없었다.

예를 들면 이런거다. 빅데이터 분석 결과 여름이 되면 아이스크림 매출이 오른다!! 라는 결론이 도출되었다고 하면, "왜" 여름에 아이스크림 매출이 오르는지에 대한 이유는 여전히 알 수 없다는거다.

사람들이 더워서 아이스크림을 더 사먹는걸까? 아니면 여름방학 시즌이라 아이들이 아이스크림을 더 먹게 되는걸까? 이런 질문에 대한 해답을 10년 전에 내가 읽었던 빅데이터 책에서는 알기 힘들었다.

"행동 데이터 분석"은 요런 간지럼움을 해결해 준다. "무엇이 행동을 유발하는가?"에 대한 답을 찾고자 하는 책이다.

회사에서 기획 업무를 해본 사람은 자기가 떠올린 개선안을 가지고 사람들한테 말을 할 때 그 근거를 대는 게 항상 어려웠을 것이다. 그건 데이터 분석을 하지 못했기 때문인데, 이제는 걱정하지 마시라. 당당하게 "이런 이런 이유로 서비스를 이렇게 개선해야 합니다!!"라고 이야기할 수 있는 방법이 책 속에 있다!

"행동 데이터 분석"이라는 게 참 마법처럼 느껴지지 않는가? 하지만 세상에 공짜는 없지. 이 책은 살짝쿵 난이도가 있는 어려운 책이다. 최소 데이터 사이언티스트 중급자 이상은 되어야 이해할 수 있다. 기본적인 파이썬과 R, 통계, 도메인 지식 등 필요한 백그라운드 스킬 몇 가지를 필수로 한다.

어쩔 수 없다. 좋은 건 그만큼 비싼 법이니까. 필요로 하는 베이직 기술은 분량상 책에서 소개하지 않으니 숙지하지 못한 사람은 얼른 공부하고 오자. 내 말빨에 날개를 달아 줄 "행동 데이터 분석"이 기다리고 있으니까!

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

qorskawls***l2023-06-25

행동 데이터 분석 괜찮다!

다만 아쉬운 건, 번역이 아쉽다. 읽기 거북한 건 아닌데 어색하다. 다만 그거 빼고는 내용이 너무 좋아서 괜찮다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

youn***l2023-06-25

누구에게나 추천 가능한 책

데이터 분석은 역시 R과 파이썬인 만큼 책의 예제 코드 또한 R과 파이썬 두 가지로 구성되어있습니다.
하나의 언어로만 된 것이 아닌 두가지 언어로 제공된다는 점에서 독자를 배려한 것 같습니다.

행동 데이터 분석이라는 이름처럼 책의 내용은 인과 행동 프레임워크, 인과 관계 다이어그램, 결측 데이터 처리 등으로
구성되어있습니다.

행동 분석에 대한 이론적인 내용 뿐만 아니라 부트스트랩, 실험 설계 및 분석까지 다양한 내용이 포함되어 있어서
대상 독자의 범위가 상당히 넓을 것으로 생각됩니다.

최근에 대량 데이터를 분석하고 모델 설계를 하면서 데이터 인과 관계에 대해 관심이 많아지고 있는 시점에서
저 또한 도움이 되지 않을까 싶어서 읽어본 도서이고, 모든 데이터 분석의 인과 관계에 해당하지는 않겠지만
부분적으로 있어서는 도움이 많이 되었습니다.

이 책을 추천드리고 싶은 분들은 데이터 분석을 시작하면서
시각화에 재미를 느끼고 있으신 분들, 실무에 대입하여 고객 동향 분석을 해보고자 하시는 분들까지...
사실상 책이 입문부터 실무까지 다양하게 목표를 두고 제작된 것 같아 추천해드리고자 하면 끝이 없을 것 같습니다.

가장 큰 장점이라면 기본 이론부터 실험 환경까지에 대한 내용이 담겨 있는 만큼 그 누가 읽어도 좋은 도서입니다.

기회가 되신다면 읽어보시는 것을 추천드립니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

growl***l2023-06-25

리뷰] 행동 데이터 분석

사람이나 동물의 행동 패턴을 수집하고 분석하여 행동에 대한 통찰력을 얻는 과정을 행동 데이터 분석이라고 말합니다. 사용자의 행동 데이터 분석이 왜 필요할까요? 사용자들이 서비스를 잘 쓰고 있는지 판단할 수 있는 하나의 방법으로 알려진 행동 데이터 분석에 대해 알아봅시다.

이번에 소개할 행동 데이터 분석은 고객 중심 데이터 분석으로 최적의 비즈니스 전략을 세우는 실전 가이드를 알려줍니다. 한 번쯤 고민해 봤을 사용자 행동에 대한 고민인 과연 ‘고객의 행동을 유발하는 것은 무엇인가?’란 질문인데요.

오라일리(O'Reilly) 시리즈 행동 데이터 분석 책이 가장 핵심적으로 전달하고 싶은 것은 3가지입니다.

1. 현실 세계의 실제 행동 경향의 이와 관련된 심리적 현상(의도, 인지, 감정 등)

2. 인과관계 분석 및 다이어그램

3. 데이터

3가지 핵심 요소를 오가며 연마해야 효과적인 데이터 분석을 할 수 있다는 점을 배울 수 있습니다.

크게 PART 1 ~ 5로 이루어져 있는데요. PART 1에선 인과-행동 프레임워크와 행동 경향, 인과관계 추론과 데이터 사이의 관계성에 대해서 배웁니다. 전체적으로 인과-행동 프레임워크에 대해 중요하며 인과관계 분석을 선택한 이유를 자세하게 설명하는데요. 행동의 이해를 충분히 이해하고, 기본 모델과 실용적인 팁과 행동을 데이터에 연결하는 원리에 대해 알 수 있습니다.

PART 2는 인과관계 다이어그램과 교란 해소에 대해 알아봅니다. 교란의 개념을 정리하고 인과관계 다이어그램을 사용해 데이터를 분석할 때 교란을 해소하는 방법을 설명합니다. C마트의 아이스크림 예제를 통해 인과관계 다이어그램을 매우 단순한 설계를 바탕으로 만들어 봅니다. 이뿐만 아니라 C마트 아이스크림 예제에서 교란 변수를 제거하는 과정을 설명합니다.

PART 3에서는 결측 데이터를 다루는 도구를 살펴보고 부트스트랩 시뮬레이션을 소개합니다. 부트스트랩은 행동 데이터를 분석할 때 매우 유용한 도구입니다. 크기가 작거나 이상한 형태의 데이터를 다룰 때 추정치에 대한 불확실성을 적절하게 측정할 수 있는데요. 책의 나머지 부분에서 부트스트랩 신뢰도 구간 개념을 계속 활용합니다. 개념이 익숙하지 않으면 이번 파트를 주의 깊게 읽어보시길 바랍니다.

PART 4는 실험 설계와 분석으로 회귀와 부트스트랩을 사용할 때 간단한 A/B 테스트가 어떻게 이루어지는지 소개합니다. 그리고 실험 대상을 미리 알고 있다면 블록을 통해 균형 잡힌 실험 집단을 만들 수 있습니다.

마지막으로 PART 5에서는 지금까지 배웠던 모든 것을 종합해 행동 데이터 분석의 세 가지 강력한 도구를 살펴봅니다. 조절 효과, 매개효과와 매개효과에서 파생된 도구 변수를 살펴봅니다. 결과적으로 한 줄짜리 코드로 깊이 있고, 실행할 수 있는 행동 관점의 결론을 얻을 수 있습니다.

행동 데이터 과학에 나온 코드 환경은 해당 장의 실습을 진행하기 위해 필요한 R과 파이썬 패키지를 안내합니다. 책 전반에 걸쳐 사용되는 몇 가지 호출 방법을 소개합니다. 또한 책과 함께 제공되는 깃허브에는 모든 스크립트에 호출 과정이 포함되어 있어 언제든지 확인할 수 있습니다.

행동 데이터 분석은 아직까지 정의되지 않은 부분이 많은 분야인데요. 이를 보안하기 위해 일상적인 예를 활용해 행동 과학에 좀 더 친숙해지고, 각 개념과 기법을 정확하면서도 쉽게 설명하고 있습니다. 행동 데이터 분석은 다양한 분야에서 활용되며, 데이터 분석가뿐만 아니라 마케터나 기획자 등 무엇이 고객의 행동을 유발하는지에 대한 답을 듣고 싶은 독자분들에게 추천합니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

jomk2***l2023-06-25

좋은 서비스는 사람들의 행동 패턴에서 나온다

좋은 서비스를 개발하기 위해서는 사람들의 행동패턴, 니즈를 알 필요가 있다고 생각한다.

프론트엔드 웹 개발을 하면서 주어진 기능을 만드는 것 보다 이 기능이 왜 필요한지 알고 만드는 것이 개발자로서 필요한 사고과정이라는 생각이 들었다.

더 나아가 구현한 기능들을 실사용자들이 어떻게 이용하는지 확인하고 의도에 맞게 수정해나가야 좋은 결과물이 나올것이라는 생각과 함께 행동패턴을 파악하는 방법을 안다면 개발자로서 도움이 되지 않을까하는 마음으로 책을 보게되었다.

책의 내용은 데이터를 수집, 분석, 해석하는 방법에 대해 R과 파이썬을 사용하여 실습자료와 함께 설명하고 있다.

책은 총 5개의 파트로 이루어져 있다.

PART1 '행동의 이해': 인과 관계를 추론하는 법과 데이터 사이의 관계성을 소개, 교란 변수의 위험성

PART2 '인과관계 다이어그램과 교란 해소': 데이터를 분석 할 때 교란 변수를 해소하는 방법

PART3 '견고한 데이터분석': 결측 데이터 처리 방법, 부트스트랩에 대한 설명 및 사용법 소개

PART4 '실험 설계와 분석': 전통적인 A/B 테스트 방식 대신 부트스트랩과 신뢰구간을 활용한 분석 방법 설명 및 예제 제공

PART5 '행동 데이터 분석을 위한 고급 도구': 실험 데이터 분석을 보다 깊고 상세하게 수행하는 방법 소개

체계적이고 단계적으로 모든 파트가 구성되어있으며, 데이터분석을 접해보지 않았던 사람이라면 생소한 용어가 많기 때문에 시간을 들여 읽어야 할 것 같다. 또한 R과 파이썬에 대한 기초 사용 방법이 없기 때문에 이에대한 이해도도 있어야 한다. (행동 데이터에 대한 내용이 주를이루고 있어서 개인적으로 마음에 드는 포인트이다.)

그림자료를 통해서 내용을 설명하고 있기 때문에 눈으로 따라가며 책의 내용을 이해하기는 좋다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

zzo***l2023-06-25

비즈니스에 필요한 통계의 기본부터 응용까지를 다루며 실제 상황에서 어떻게 활용해야하는지에 대한 구체적인 가이드를 제시한다.

행동 데이터 분석을 알려주는 이 책은 비즈니스에 필요한 통계의 기본부터 응용까지를 다루며 실제 상황에서 어떻게 활용해야하는지에 대한 구체적인 가이드를 제시한다.

경험이 풍부한 저자는 R과 Python 을 모두 사용하여 실제 상황에 맞는 코드를 제시하고 있으며 그 결과를 어떻게 해석하고 개선해야하는지 비즈니스의 의사결정을 어떻게 해야하는지 현실 세계에서 고민할 법한 질문을 던져주며 문제를 해결하는 방법을 알려준다.

보통 이론적인 내용에 치중하다보면 실제 비즈니스 상황을 잘 반영하지 못하기도 하는데 이 책은 두 마리 토끼를 모두 잡을 수 있는 책이다.

최근에 봤던 비즈니스 데이터 분석 관련 책 중에서 손에 꼽을 정도로 이론적인 내용과 실무적인 내용을 균형있게 다룬 책이다.

책 초반을 보면 이 책은 t-검정이나 ANOVA와 같은 기존의 행동 데이터 분석 방법론을 소개하는 책이 아니며 비즈니스 문제를 풀면서 회귀 분석이 이러한 전통적인 방법보다 효과가 덜하다고 느낀적이 있다고 한다. 그래서 비즈니스 상황별로 적절한 통계적 기법과 분석 방법을 제시하고 있다.

파이썬과 R 두 가지로 책의 소스코드를 작성하여 제공하고 있으며 각 언어에 대한 의견도 제시하고 있다. EDA는 R로 하는 것을 선호하지만 웹 스크래핑은 파이썬이 훨씬 사용하기 쉽다는 의견이다.

인과 관계에 대해 설명하며 다중공선성에 대해서도 자세히 설명하고 있다. 상관 관계와 인과 관계를 설명할 때 자주 등장하는 기온과 아이스크림 판매량에 대한 예시로 설명한다.

현실 세계의 문제 해결방법에 대한 스토리텔링이 좋다. 각 챕터마다 비즈니스 상황을 제시하고 어떤 변수와 상황에서 어떤 의사결정을 내릴지에 대해 상황과 도표로 함께 설명한 점이 좋다.

400페이지 분량의 책을 통해 통계적인 지식, 분석결과 해석하기와 비즈니스 실무까지 이어서 다루기 때문에 비즈니스에서 데이터 분석을 하고자할 때의 팁을 다양하게 얻을 수 있었다.

이 리뷰는 한빛미디어의 나는 리뷰어다 이벤트를 통해 책을 제공받아 작성했습니다.

g***l2023-06-25

R과 파이썬으로 데이터분석을 하는 이유

R은 통계와 데이터 분석을 위해 특화되어 있어요. 그래서 통계학자와 데이터 과학자들 사이에서 오랜 기간 동안 사용되고 있죠. R은 데이터 분석에 필요한 다양한 통계 기능과 패키지를 제공하고 데이터 시각화와 통계적 모델링 등에 특히 강점을 갖고 있어요.

Python은 엄밀하게는 통계용 이 아니에요 다반 범용성이 있고 다양한 라이브러리가 있어서 다양한 데이터분석 활용사례 분야에 적용되고 있어요. pandas, NumPy, scikit-learn 등의 라이브러리가 많이 활용되고 있죠. 제가 생각하기에 파이썬 데이터분석 활용의 장점은 데이터 분석 결과에 대한 시각화예요. R보다 더 다양하게 만들 수 있거든요.

빅데이터 활용사례 분야 : 통계

빅데이터 활용사례 활용분야 중에서 가장 활발하게 연구되고 있는 곳은 비즈니스 분야예요. 고객의 데이터를 바탕으로 향후 비즈니스 전략을 세울 수 있는 인사이트를 얻을 수 있기 때문이에요. 오라일리 행동 데이터 분석은 빅데이터 통계에서 비즈니스를 위한 분석 가이드라고 할 수 있어요.

대부분의 빅데이터 활용분야 분석 교재들이 파이썬과 R 패키지를 다루는 입문서의 성격을 띄고 있는 반면, 행동 데이터 분석은 철저하게 실무적인 관점에서 다양한 예제를 풀어보면서 실제로 어떻게 활용해야 하는지 실습할 수 있는게 장점이었어요.

R과 파이썬 모두 균형있게 다룰 수 있게 행동 데이터를 분석하고 회귀 분석과 인과변수를 도출하는 과정을 단계별로 제시하고 있었는데요.

인과관계분석과 회귀분석 과정에서 필요한 전처리 부분, 인과관계를 다이어그램과 행동 프레임워크를 통해 변수들을 분할하고 집계하여 정돈하는 과정은 정말 심플하면서 핵심적인 내용으로 구성되어 있어요.

고객 중심 데이터 분석으로 R과 파이썬을 활용해서 빅데이터를 다루는 행동 데이터 분석은 입문서보다 살짝 높은 단계라고 할 수 있어요. 그렇지만 실무적으로 활용할 수 있는 예제들을 통해 제대로 배울 수 있다는 점은 이 책의 장점이라고 생각해요.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

jeee***l2023-06-25

[서평] 행동 데이터 분석

이 책은 데이터 분석을 전문으로 하는 개발자 또는 데이터를 활용하여 상관관계와 인과관계를 명확히 구분하고 인과 추론을 해야하는 마케터에게 추천하는 책이라고 생각한다. 사용하는 언어는 R과 파이썬이므로 해당 언어의 기초 과정을 학습하고 책을 읽기를 추천한다. 저자는 각 언어마다 특장점이 있으므로 그 점을 중심으로 둘 다 공부하는 것을 권장한다. 그리고 저자는 '선형 회귀와 로지스틱 회귀에 대한 대략적인 지식'과 'R과 파이썬 코드를 해석하고 작성할 수 있는 지식'을 가지고 책읽기를 추천한다. 하지만 언어에 대한 지식 없이도 그래프와 알고리즘 그림을 통해 모르는 독자도 어느 정도 전체적인 그림을 이해할 수 있도록 친절히 설명되어있다. 책에서 가장 강조하는 내용은 데이터를 통해 유저들의 행동을 수치화하여 '유저들이 어떠한 행동을 하기까지 어떠한 인과 요인들이 얼만큼 작용하는지' 를 프로그래밍을 통해 최대한 빨리 알아보는 것이다. 이를 위해 기술분석, 예측분석, 인과관계분석 등 데이터에 맞는 분석 유형을 적용하여 유저들의 예측 불가능하다고 생각한 행동을 파악하고 데이터에 '교란'이 있는지 파악한다. 책을 다 읽어보면 비즈니스 판단을 위해 데이터를 어떻게 수치화하거나 그래프로 나타내는지 또 이를 통해 논리적인 인과요인을 파악하여 어떻게 가설에 근거하는 요인을 파악할 수 있는지 여러 방법들을 습득할 수 있다.
머신러닝과 딥러닝을 주로 공부하다보면 유사도나 예측에 힘을 쏟는데 마지막에 그것들이 어긋나면 그동안 해온 것들이 말짱 꽝이 되는게 다반수였다. 이제는 이 책을 통해 EDA를 진행하면서 인과요인을 파악해 실패 확률이 높은 가설들을 빨리 제외하여 전체 시간을 단축하는 데 많은 도움이 될 것 같다. 그냥 데이터를 통한 분석에서 고객을 중심으로 하는 데이터 분석을 하고 싶고 최적의 비즈니스 전략을 세우고 싶은 분들에게 이 책을 꼭 추천하고 싶다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

p.s ) 처음에 책의 가격이 다소 비싸다고 생각했지만 유용한 내용이 많고 자연스러운 내용 흐름과 그래프, 플로우 차트를 통한 친절한 설명들을 보면서 정말 필요한 사람들이 책을 읽으면 이 책의 가격이 그렇게 비싸지 않다고 생각합니다.

soulfeve***l2023-06-25

빅데이터와 AI 분야에 관심이 있는 사람들에게 추천

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다"

『행동 데이터 분석』 은 빅데이터, 인공지능의 개념이 커진 지금 데이터 분석과 활용이 너무너무 중요하고 어떻게 해야하는 지를 알려주는 책이다.

나나는 최근에 빅데이터와 AI에 대한 학습이 필요하다고 생각하며, 이 책은 그러한 관점에서 굉장히 좋은 책이라고 생각했다. 아쉬운 점은 내가 책을 받아들이기에 너무 아는 것이 적었다는 점인데, 나중에 다시 읽으면서 해결해야할 문제다.

이 책은 금융, 정치 등등 다양한 분야에서 데이터를 제대로 분석하고 활용하는 사람이 승자가 될 것이기에 이를 받쳐줄 행동 데이터 분석에 초점을 맞추고 있다.

R과 파이썬을 사용하여 행동 데이터의 분석과 활용 방법을 알려주는데, 이를 통해 난 실제 데이터를 다루고 분석하는 과정을 조금이라도 겪어볼 수 있었다. 초반에 인과관계 다이어그램에 대해 소개하고, 이후에는 이를 활용하여 행동 데이터를 분석하는 방법을 알려준다.

내용만 있지도 않고, 실습만 있지도 않은 학습, 연습이 가능한 형태라 너무 좋았다.

이 책을 읽으면서 어려웠다. 일단 이런 책일 줄 몰랐다. ㅠㅠ

기본적인 데이터 처리, 분석 방법에 대한 이해가 부족하기 때문에 이해하기가 어려웠다. 기초 지식이 있는 사람들에게는 이 책을 충분히 권할만 한 것 같다. 나처럼 느릿느릿하게 읽고 잘 못알아듣는 것보다 빠르게 학습하고, 책에서 보여주는 행동 데이터 분석 기법을 보다 효과적으로 활용할 수 있을 것 같다.

견고한 데이터를 만드는 방법에 대해서도 다루고 있다. 예를 들어, 결측 데이터를 처리하고 시각화하는 방법, 부트스트랩을 사용하여 불확실성을 측정하고 데이터를 실험하는 방법에 대해서도 다루고 있다. 내가 언젠가 이러한 데이터로 판단하는 일을 하게 된다면 유용할 것 같다.

마지막으로, 이 책은 빅데이터와 AI 분야에 관심이 있는 사람들에게 특히 추천하고 싶다. 시간이 갈수록 데이터를 분석하고 활용하는 능력은 매우 중요중요중요!하다. 빅데이터와 AI의 발전은 갈수록 당연하게 이뤄질 건데, 이 책을 통해 데이터 분석의 기초를 다지고 더 나아가는 것은 확실히 가치 있는 투자가 될 것이다.

ljh***l2023-06-25

\"행동\" 데이터 분석

인과에 대한 내용을 중점적으로 데이터를 어떻게 봐야하는지 정도로 가볍게 이야기를 시작하고 있고 진짜 시작은 Chapter2. 행동데이터를 이해하는 방법에 대해서 시작하고 있다.

여기서 주로 사용하는 인간 행동의 기본모델에 대해서 언급되고 있고, 이 모델을 구성하는 5가지요소로 다음과 같이 소개하고 있다.

개인 특성

인지와 감정

의도

행동

비즈니스 행동

이후에는 행동과 데이터에 대한 연결고리를 고민하며 하나의 문제를 예시로 들며 위 5가지 특성들을 고려하여 마인드맵을 그리듯이 생각을 확장하는 것처럼, 현상에 대해서 다양한 요인들을 고려하고 문제를 구제화 시키며 사람의 행동에 대해서 분석을 하기 시작한다.

솔직히 책을 보면서, 저자가 하는 말을 하나하나 읽다보면

"어? 어 그러네"

"어 진짜 어..."

하면서 조용히 따라가게 된다.

chapter 3의 인과관계 다이어그램을 보면서 다양한 경우의 수를 생각하며 생각을 확장시키고, 이를 범주화시키기도 하며 다시 불필요한 부분은 줄이기도 하고 이 모든 것을 앞서 얘기한 인간 행동의 기본모델 5가지 요소로 정리하며 분석을 한다.

이전 직장에서 팀장님이 데이터를 분석하는 모습을 보며, 이렇게도 생각할 수 있겠구나하는 느낌을 넘어서

사람의 "행동을 분석한다"라는 느낌을 여지없이 느낄 수 있었다.

이처럼 사람이란 예측하기 힘든 존재이기도 하고, 이러한 행동을 분석하기 위해서 정말 천부적인 재능이나 사람의 심리에 대해서 잘 아는 것이 아니라면 이 책을 보면서 느낀점이 많을 것 같다.

단순히 머신러닝으로 해결하는 예측 분석 뿐만이 아니라 좀더 심화적인 인간의 행동을 분석하고, 주어진 데이터를 넘어 내면에 숨겨져 있는 사람의 행동까지 분석을 하고 싶다면 이 책을 한번 쯤은 읽어보는 것이 도움될 것 같다.

자세한 리뷰는 블로그를 참고해주세요
https://blog.naver.com/ab415/223138268915

slu***l2023-06-25

행동 데이터에 대한 분석을 위한 좋은 지침서

온라인에서 어떤 제품을 구입하기 위해 여러 가지 상품들을 비교 분석하다보면, 언젠가부터 '이 상품을 구입한 분이 추가로 구입한 상품' 또는 'xxx님이 관심을 가질만한 상품을 추천해 드립니다' 와 같은, 사용자의 행동 패턴 또는 관련 데이터를 기준으로 추가적인 상품을 추천하는 것을 쉽게 볼 수 있다. 그럴 때면 이러한 방식의 시스템은 어떻게 데이터를 분석을 해서 이러한 결과를 가져올까 하고 늘 궁금해 했었다. 단순히 통계 데이터만 가지고 이런 내용을 추천하는 것일까? 그렇다면 특이한 결과가 반영되어 통계가 왜곡이 된다면 이런 것은 어떻게 보정을 하는 것일까? 이런 생각들을 가지고 데이터 사이언스 관련 책들을 보다보면, 알고리즘 측면에서는 이런 식으로 하는 것 같구나... 와 같이 너무 쉽게 생각하고 넘어가게 된다. 하지만 여기에는 왜 이런 식의 접근을 하는 지, 그리고 사람들의 행동이 이러한 판단에 어떠한 영향을 미치는지, 잘못된 영향을 줄 만한 요소가 많을텐데 이런 것들은 어떻게 접근을 해서 문제를 해결할 것인지에 대한 부분은 빠져있다. 어찌 보면 그게 당연할 수도 있겠지만, 좀 더 호기심을 가지고 바라볼 때, 관련 설명이 친절하게 나와 있는 자료가 있었으면 할 때가 있다.

이 책은 이러한 '무엇이 왜 어떠한 행동을 유발하는가? 이런 경우 어떤 결과가 도출될 것인가?'라는 인과 관계에 초점을 두고 '인과관계 다이어그램'과 '인과 행동 프레임워크'라는 툴을 이용해, 단순히 겉으로 보이는 현상이 아니라 사람의 '심리와 행동'과 여러 요인들 사이의 관계성을 분석하고 이를 실험하여 결론을 도출하는 일련의 과정을 다루고 있다. 이러한 방식의 접근에 익숙치 않은 독자를 위해 다음과 같은 순서로 차근 차근 설명을 해 나갑니다.

- 1부 '행동의 이해'에서 이러한 접근법을 적용하는 이유를 설명

- 2부 '인과관계 다이어그램과 교란 해소'에서는 책의 전반에 사용되는 툴인 '인과관계 다이어그램'을 작성하는 방법 및 잘못된 분석을 유도할 수 있는 교란 해소 방법을 간단히 연습

- 3부 '견고한 데이터분석'에서는 결측 데이터를 핸들링하는 방식에 대해 설명하고, 부트스트랩에 대한 설명 및 사용방법을 소개

- 4부 '실험 설계와 분석'에서는 전통적인 A/B 테스트 방식이 아닌, 부트스트랩과 신뢰구간을 이용하여 분석하는 방법을 연습하되, 실험 시 어떠한 순서로 어떠한 부분에 중점을 두어야 하는지 유의하면서 상세한 예제를 제공

- 5부 '행동 데이터 분석을 위한 고급 도구'에서 실험 데이터 분석을 더 깊고 상세하게 할 수 있는 방법을 설명

아무래도 책 자체가 관련 분야에 대한 지식이 있지 않은 분들에게는 어렵게 다가올 수 있기 때문에, 책의 내용에는 수식을 활용한 설명은 찾기 힘들다. 또 예시를 위해 가상의 하지만 일상적으로 있음직한 상황을 예를 들어(상품 구매, 고객 만족도, 고객 예약 시스템 등) 독자가 이해를 쉽게 할 수 있도록 한 것은 이 책의 장점이라 생각한다.

근래 출간되는 데이터 사이언스 관련한 기본 내용 및 툴 사용법을 친절히 작성해 놓은 책들과 달리, 행동 과학, 행동 경제학 과 같은 IT 관련 지식은 알고 있지만, 좀 더 근본적인 이론에 대해 설명을 하면서 이를 Python과 R 이라는 언어를 사용하여 설명을 하고 있기 때문에, 먼저 Python이나 R 언어 중 하나의 언어에는 어느 정도 지식이 필요하며, 통계학 관련 지식도 최소한의 지식이 필요하다고 생각한다. 그냥 이런 내용이 있구나 라는 정도가 아니라 책에서 설명하는 코드를 쫓아가면서 실습해보기 위해서는 Python 사용자의 경우 Jupyter-Notebook을 이용할 수 있으면 더욱 좋다(예제도 ipynb 파일로 배포가 된다). 또 예시에 따라 두 언어 중 하나의 예시만을 책에서 보여주는 경우도 있어, 가능한한 github 사이트에서 예제를 다운받아 책과 함께 체크해보는 것이 좋다. 언제나 그렇듯 이러한 부분들은 단점이자 장점이라 생각하는데, 시간은 많이 들겠지만 책에서 언급한 참고자료를 보거나 인터넷 자료 등을 참고하면서 공부해나간다면 많은 내용을 배울 수 있다.

이 책은 행동 데이터를 기반으로 인과 관계 분석하여 왜? 라고 하는 부분에 대한 근본적인 이해를 돕는데 도움을 줄 수 있는 책이라 생각한다. 반드시 책에서 제시하는 '인과 관계 분석'이 이러한 분야에 대한 정답 이라 말할 수는 없겠지만, 관련 분야에 대한 호기심을 가진 분들이나 더 많은 인사이트를 얻고 싶어하시는 분들에게 좋은 참고자료가 될 것으로 생각한다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

ch930***l2023-06-25

최신 알고리즘이 아닌 데이터 자체에 초점을 맞춘 데이터 분석

딥러닝이 대세가 되면서 많은 데이터 분석 분야에서 딥러닝 알고리즘을 활용한 데이터분석을 많이 시도하고 있습니다.

딥러닝 알고리즘은 장점 매우 많으나, 단점으로 그 결과가 왜 도출되었는 지에 대한 이유를 알 수 가 없기 때문에,

딥러닝만 사용하게 된다면 알고리즘에 너무 의존적이고 해당 결과에 대한 원인을 알 수 가 없습니다.

이 책은 예측방법이 아닌 "무엇이 행동을 유발하는가?"에 초점을 맞추고 있습니다.

단순히 최신의 더 좋은 알고리즘을 써서 데이터분석을 진행하는 것이 아닌

- 데이터 자제를 목적으로 하기보다는 데이터를 인간의 심리와 행동을 들여다보는 렌즈로 바라보는 행동과학적인 사고방식

- 여러 요인 사이의 인과관계를 알아내고 관계썽이 얼마나 강한지 측정하는 인과관계분석 도구 모음

을 주제로 설명하고 있습니다.

저자는 위 주제를 "인과-행동 접근법" 또는 "프레임워크" 라고 부르고 있습니다.

이 책은 사용자의 비즈니스 데이터를 분석는 업무를하는 개발자들에게 적절한 책입니다.

최신알고리즘을 소개하는 책은 아니기도하고 알고리즘이 아닌 데이터 자체에 초점을 맞춘 책이어서

높은 수준의 언어이해도는 필요 없습니다.

R과 파이썬을 간단하게 다룰줄만 알면 이 책을 읽는데 큰 무리가 없을것입니다.

이 책은 크게 다섯부분으로 나뉘며

1부 행동의 이해 에서는 "인과-행동 프레임워크"에 대한 간단 설명을 통해 데이터에서 인과관계 추론과 데이터 사이의 관계성을 설명하고 있고,

2부 인과관계 다이어그램과 교란해소 에서는 데이터 교란의 개념을 소개하고 인과관계 다이어그램을 통해 데이터 분석시 교란을 해소하는 방법을 설명하고 있습니다.

3부 견고한 데이터분석 에서는 데이터 분석의 신뢰드를 높이기 위한 방법들을 설명하고 있으며, 데이터가 작거나 불규칙한 형태거나 이상치가 있거나 결측치가 있는 경우등에 대한 대처법을 알려주고 있습니다.

4부 실험 설계와 분석에서는 실험을 설계하고 분석하는 다양한 방법과 사례들을 알려주고 있으며,

마지막 5부 행동데이터 분석을 위한 고급 도구에서는 전체 내용을 종합하여 조절효과, 매개효과와 도구 변수를 설명하고 있습니다.

IT서적은 보통 필요한 부분만 골라서 읽어도 되는 책이 많지만, 이 책은 순서대로 차근차근 읽는걸 추천합니다.

단순히 알고리즘만 써서 데이터 분석에대한 결과만 딱 뽑는게 아닌, 데이터 자체에대한 인사이트를 얻고

데이터와 분석 결과간의 인과관계를 분석하고 싶은 데이터과학자들에게 추천하는 책입니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

kcsgood***l2023-06-25

[Book] 행동 데이터 분석

우리 주변에서 볼 수 있는 데이터의 유형은 다양하다. 어떤 센서로부터 나오는 데이터가 있을 것이고, 자연 현상의 어떤 특징을 담아놓은 데이터도 있을 것이고, 또는 사람의 행동 패턴을 담은 데이터도 있을 것이다. 이러한 데이터들은 어떻게 보면 어떤 현상의 순간적인 시점에서 쌓은 데이터일 수도 있고, 혹은 정해진 기간동안의 모든 관찰정보를 담고 있어서 약간의 시계열의 형태를 띌 수도 있다.

이렇게 쌓은 데이터에서 어떤 경향성이나 패턴을 찾고자 하는 것이 요즘의 데이터 과학의 트랜드가 된것 같다. 과거에는 그냥 흘러넘어갔던 데이터들도 이제는 어떤 특정 개인을 단정짓지는 못하더라도, 그 사람이 속한 연령대, 그룹의 경향성 정도는 유추할 수 있게 되었기 때문이다. 그냥 단순하게 생각했을때 이런 분야가 적용된 것이 "마이데이터" 인 듯 하다. 아마 경험한 사람들은 알겠지만, 시중의 금융사들은 다양한 이벤트들을 통해서 고객들의 금융데이터에 대한 접근권한을 얻으려고 노력했다. 별개 아닐수도 있겠지만, 만약 금융사들이 고객들이 돈을 쓰는 유형이나 어디에서 돈이 제일 많이 빠지고, 대출을 많이 하는지를 알 수 있다면, 그에 맞는 상품을 추천해줄수도 있는 것이다. (나도 대출받은 곳이 하나있는데, 이상하게 대출 상환일이 다가오면 다가올수록 저리의 대출로 이관할 수 있다고 홍보하는게 잦아지는 거보면 이런거랑 연관이 있지 않을까 싶다...)

아무튼 이렇게 데이터를 통해서 사람의 경향성을 분석하는 분야를 행동분석학 (Behavioral Analysis)라고 표현하는 듯하다. 물론 최근에 많이 사용하는 딥러닝 기법을 활용해서 어떤 행동을 예측하는 것으로 확장할수도 있겠지만, 개인적으로 생각했을 때 이 분야의 목적은 뭔가에 대한 예측보다는 어떤 행동을 했을 때 그 행동이 발생하게 된 요인이나 근거를 찾는데 조금더 초점을 맞추고 있는 것을 보인다. 물론 딥러닝의 설명적인 측면이 부족하기에 어떤 현상에 대한 설명을 위해서 그런 부분이 중점적이지 않을까 하는 생각까지 해본다. 그래서 이번에 다루는 책도 역시 그런 딥러닝 기법이 아닌 전형적인 데이터 분석과 통계적 기법을 통해서 사람의 행동 데이터를 통한 분석에 대해서 설명하고 있다.

앞에서 소개한 것과 같이 이 책은 확률 통계 기법을 통해서 고객 데이터를 다루는 방법에 대해서 R과 Python으로 소개한 책이다. 그래서 딥러닝에 대한 내용도 거의 없고, 다만 통계 관련 내용을 활용해서 내용이 전개되기 때문에 관련 지식에 대해서 조금 알고 있으면 내용 이행에 도움이 될 듯 하다. 그래도 관련 연구자들이 이 책을 통해서 도움을 받을 수 있는 부분은 행동 데이터라는 것 자체가 다양한 특성을 가지고 있어서 실제 모델을 적용하기 위한 전처리나 결측치 처리가 필요한 부분이고, 이는 굳이 행동 데이터가 아니더라도 다른 데이터를 다룰 때에도 유용하게 사용할 수 있는 부분이 있어서 참고할 만하다고 생각하다. 또한 개인적으로 이 책의 백미는 4장인 실험 설계와 분석 부분인데, 개인적으로도 어떤 이론에 대한 실험을 하는데 있어서 가장 어려움을 느끼는 부분이 바로 실험 설계와 결과에 대한 분석 쪽인데, 이 챕터에서는 3장을 통해서 예시를 통한 실험 설계와 진행, 분석에 대한 내용을 다루고 있다. 뭔가 어떤 실험에 대해서 설계를 고민하고 있다면, 해당 챕터에서 다루는 내용이 도움이 될 것 같다.

조금 아쉬운 부분이라면 (물론 이는 번역서 문제가 아닌 원서의 전개 방식에 대한 것이긴 하지만..) 이 책의 구현이 R과 Python으로 되어 있다보니, 예시도 두가지 모두 제시되어 있고, 어떻게 보며 이 때문에 분량이 조금 늘어진 부분도 있는 것 같다. 만약 하나의 언어만 아는 사람이라면 조금 생소할 수 있는 부분이다. 오히려 책에는 Pseudo code 정도로만 소개하고, 예시를 Jupyter notebook 같은 것으로 제시했어도 좋지 않았을까 하는 생각이 든다. 또한 책에는 보면 설명을 뒷바침할 수 있는 다양한 그래프들이 제시되어있는데, 오히려 예시코드에 이런 그래프를 출력할 수 있는 코드도 같이 있었으면 좋지 않을까 싶다. (오히려 두가지 언어로 표기가 되면서 늘어난 분량이 시각화 관련 내용으로 소개되었으면 좋았을것 같다는게 개인적인 생각이다..)

사실 아쉬운 점을 소개하긴 했지만, 앞에서 소개한 것처럼 행동 데이터라는 것 자체가 다양한 특성을 지니고 있고, 그만큼 전처리나 분석하는 기법이 조금 어려운 데이터인데, 이 책은 그런 데이터를 이론과 실제 구현 코드를 통해서 쉽게 분석하는 방법에 대해서 소개했다는 측면에서 여타 다른 데이터 분석책보다는 다른 특징을 가지고 있다고 생각한다. 또한 책에 담겨져 있는 내용 자체가 실제 응용될 수 있는 분야가 굉장히 넓기 때문에 관련 연구를 하는 사람들에게는 좋은 지침서가 되지 않을까 개인적으로 생각한다.

(책을 고르게 된 개인적인 여담을 소개하자면 사실 책의 내용이 행동과 관계되어 있어서, 내가 관심있는 주제 중 하나인 Behavior Cloning이랑 관련이 있을까 싶었는데.. 전혀 관계가 없다.)

(해당 포스트에서 소개하고 있는 "행동 데이터 분석" 책은 한빛 미디어로부터 제공받았음을 알려드립니다.)

blusk***l2023-06-25

데이터 분석을 왜, 어떻게 하는지 알려주는 책

내가 이 책을 선택 한 이유는 최근에 머신 러닝 관련 해서 관심을 갖고 있었고 데이터 분석에 대한 내용이 궁금 했기 때문이었다. 머신러닝에 관심은 있지만 아직은 공부하는데 어려움을 겪고 있었기에 최근에 관련 책들을 읽어보고 있으나 이마저도 이해하는데는 쉽지 않은것 같다.

이 책은 데이터를 어떻게 분석을 하는지에 대한 내용을 담고있다. 우리가 매일매일 무수히 많은 도구를 통해서 얻을 수 있는 데이터들을 어떻게 연관짓고, 어떻게 의미있는 결과로 도출 하는지에 대한 내용들이다. 거기에다 그것을 이용한 사용자의 행동들을 어떻게 유추할 수 있는지 알려준다.

이 책을 읽으면서 내가 느꼈던 부분들은 다음과 같다
- 이 책은 수식이 들어가지 않는 설명 부분은 이해하는데 큰 어려움이 없었다.
- 수식은 내게는 어려웠다. 선형대수학, 미적분학등 기호조차도 생소한 수식은 이해할수가 없었다.
- 차트와 관련된 내용은 이해까지는 가능 했지만 관련 통계 용어가 나오는 부분들은 어려웠다. (일단 통계 용어 자체도 생소했기 때문이다.)
- R과 파이썬 관련 예제들은 그냥 스킵해도 된다. 예제들이 있긴 하지만 코드보다는 설명을 더 꼼꼼히 읽어보는게 더 낫다는 생각이 들었다. 코드가 없었어도 이상하지 않았을것 같다.

모든 머신러닝 관련 책들은 내 기준에는 쉽지 않은 책들이다. 이 책도 마찮가지 이다. 쉬운부분이 있긴 하지만 문제는 쉬운 부분 가지고는 공부에 발전이 없다. 이런 종류의 책들을 좀더 읽어보면 언젠가는 쉽게 다가올수 있지 않을까 생각이 된다. 한마디로 열심히 읽어야 한다. ^^

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

convin***l2023-06-25

고객의 행동을 데이터로 분석하고 싶은 분께 추천

요즘은 대부분의 기업에서 데이터를 쌓고 있고, 잘 활용하고자 한다. 그렇게 쌓인 데이터를 잘 분석해서 궁극적으로 하고 싶어 하는 것은 고객이 어떻게 행동하는지 또는 왜 이렇게 행동하는지를 파악하여 비즈니스에 적용하는 것이라고 생각한다.
그렇다면 고객의 행동은 어떻게 분석해야할까?
한빛미디어에서 출간된 “행동 데이터 분석”은 고객의 행동을 분석하기 위한 데이터를 수집하는 기본적인 내용부터 시작하여 어떻게 비즈니스단에서 활용할 수 있는지까지 전체적인 내용을 다루고 있어 위와 같은 궁금증을 가지고 계신 분들께는 큰 도움이 될 것 같다.
분석을 진행하고 결과에 대한 내용을 전달하는 경우, 어떤 요인이 어떻게 얼마 정도의 영향으로 작용을 하는지에 대한 설명을 요구받는 경우가 많다. 근래 분석 및 예측에 사용되는 대부분의 머신러닝 모델들은 블랙박스 모델인 경우들이 많아 해당 니즈를 충족시키기에는 살짝 무리가 있다. 하지만 이 책에서는 전체적인 내용 전개에 있어서 다양하고 어려운 방법을 사용하는 것이 아닌, 회귀 분석을 사용하기 때문에 분석하는 입장에서도 결과를 다른 이해관계자들에게 설명하기에도 좋을 것 같다는 생각이 들었다.
또한 개인적으로 요즘 분석을 진행하는 데 있어 가장 혼란스러웠던 “교란”이라는 개념에 대해서도 다시 정립하고 어떻게 해소할 수 있는지에 대해 알 수 있어서 좋았다.
전체적으로 잘 짜여진 구조를 가지고 있다는 느낌이 들었던 “행동 데이터 분석”. 고객에 대한 데이터를 접해볼 경험이 있거나 궁금증을 한 번이라도 가져본 분들은이 읽어보면 좋을 것 같다.

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

blue***l2023-06-25

단순 겉핥기 데이터 분석이 아니라 진짜 고객 행동을 이해하고 싶을 때

인간 행동의 원리부터 분석하고 이해할 수 있는 책을 만났습니다.

이 책을 작년에 만날 수 있었다면 지난 프로젝트의 완성도가 180도 달라질 수도 있었을 것 같습니다.

심플하게 요약하면

이미지 116.png

인간의 행동이 발생하기 까지의 단계를 구분하고

각 단계에서 발생할 수 있는 데이터적 특성을 살펴본 뒤

'행동' 에 집중해서 논리와 기술을 전달해 주는 책입니다.

구체적인 사례들을 통해서 고객의 의도나 행동과 데이터의 연결고리가 상관관계인지 인과관계인지 따져보며 발생할 수 있는 오류나 실수를 알려주고 해결방법까지 제안합니다.

특히 편향되지 않은 회귀분석을 위해서 '인과관계 다이어그램'을 제시하는데 이 책에서 처음 접한 개념이지만 정말 강력한 도구로 활용할 수 있었습니다.

인과관계 다이어그램은 사슬, 분기, 충동이라는 핵심 요소를 통해서 데이터를 더 잘 이해할 수 있게 도움을 줍니다.

인과관계 다이어그램에서 사슬은 같은 방향으로의 연쇄적 연결고리를 뜻합니다.

이 책의 예에서는

이미지 117.png

기온의 변화가 아이스 커피 매출에 영향을 주고 그 영향을 다시 도넛 매출에 영향을 주는 사례를 설명합니다.

여기서 사슬은 상황에 따라 축소하거나

이미지 118.png

확장할 수 있습니다.

보다 더 구체적인 상황 이해나 추적을 위해서 확장!

명백하게 연결고리가 탄탄할 때에는 축소도 가능합니다.

다음으로 분기는

이미지 119.png

이렇게 기온의 영향을 받는 것이 아이스커피만 있는 것이 아니라 아이스크림도 있을 때 사용합니다.

즉, 기온이 올라가면 아이스커피나 아이스크림의 매출이 상승하지만 아이스 커피를 산다고해서 아이스크림을 사는 것은 아닐 때 사용합니다.

그럼 이제 분기와 사슬을 합쳐서 아래와 같은 인과관계 다이어그램도 만들 수 있습니다.

이미지 120.png

마지막으로 충돌은 분기와 반대되는 개념으로 하나의 결과를 유발하는 서로 다른 원인입니다.

이미지 121.png

아이스크림 매장에 바닐라맛과 초콜릿맛 두 가지의 아이스크림을 판매한다고 하였을 때 각각의 맛의 선호도는 각각의 맛의 아이스크림 판매량에 영향을 미칠 것입니다.

이것을 하나의 아이스크림 판매량으로 묶으면 두 원인이 하나의 결과에 영향을 미치게 됩니다.

위에서 살펴본 사슬, 분기, 충돌 이라는 개념을 활용해서

비즈니스 데이터에서 발생하는 다양한 원인 결과의 인과관계 분석과 노이즈 제거를 이 책에서 설명해줍니다.

물론 책의 중반부터는 보다 복잡한 상황에 대한 인과관계 다이어그램 또한 제시됩니다.

이미지 122.png

이런 인과관계 다이어그램으로 상황을 정확하게 인지하고

해당 상황에서 발생하는 데이터를 실질적으로 어떻게 분석해야할 지를 3장에서 가이드합니다.

또한 발생한 결과 데이터만을 다루는 것이 아니라

4장에서는 실험의 설계(A/B 테스트 기반)를 진행하고 그 결과를 분석하는 과정 또한 다룹니다.

마지막인 5장에서는 고급 도구를 소개하고 있습니다.

중간중간 어려운 부분이 있긴 하지만 전반적으로 어려운 개념을 쉽고 간단하게 기술 한 책입니다.

오랜만에 정말 배울 것이 많았던 책이며 번역또한 매끄럽게 잘 되어서 참 좋았습니다.

그리고 데이터 분석이라는 제목 때문에 파이썬이나 R의 기초적인 내용을 다루느라 지면을 낭비하지 않아 더더욱 좋았습니다!

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

hji7***l2023-06-24

고객들이 왜 그렇게 행동하는지 이해할 수 있게 해주는 책입니다.

한빛미디어 "나는 리뷰어다" 활동을 하면서 가장 당황스러웠던 책이었던 것 같습니다. 책을 받아서 열어보자마자. 내가 정녕 이 책을 선택했다는 말인가... 라고 탄식이 저절로 나오더군요. 하지만 "나는 리뷰어다"활동에 묘미가 여기 있는 것 같습니다. 주요 관심사에서 벗어난 책을 받아들고 읽게 된다는 거죠. 그리고 그중에서 시야가 넓어짐을 느낍니다.

이 책은 "행동 데이터 분석"이라는 제목에 충실한 책입니다. 이 책에서 행동은 "고객의 행동"을 의미하는데요. 고객이 어떤 이유에서 어떤 의도를 갖고 어떻게 행동하느냐를 분석하는 것입니다. 이는 비즈니스적인 측면에서 중요하겠죠. 특히 고객의 수가 많으면 많을 수록 "행동 데이터 분석"이 매출에 미치는 영향은 더더욱 커지게 될 것입니다.

그렇다면 더 잘해야겠죠. 더 잘한다는 건, 뒷받침하는 이론으로 무장한다는 말이 되고요. 이 책은 그 이론을 제공해주는 책입니다. 흥미로운 책이 아닐 수 없는 것입니다.

저는 꽤 오래전 부터 애자일 개발 방식에 대해 관심을 가지고 있었는데요. 애자일에서 말하는 "현장 고객"방법에 대해 많이 공감해왔습니다. 하지만 고객을 팀에 포함시킬 수 없으니 대안을 찾아야 하겠죠. 그러나 ... 애자일 자체에 대해 관심을 갖는 조직도 흔치 않기 때문에, 이 부분에 대해 경험을 얻기는 힘들었습니다.

그렇다고 회사들이 이런 용도를 가진 직책을 두지 않는 건 아닙니다. 일반적으로 기획업무를 하는 분들이 이 일을 하시는 경우가 많으니까요. 제품 기획자들은 본인의 경력과 상상력을 동원해서, 유사 서비스들을 참고 하는 것으로 ... 사용자가 필요로 할 것 같은 상상속의 서비스를 기획해서 개발 의뢰를 하는 경우가 있습니다.

그러나 이런 방식이 합리적인지는 잘 모르겠습니다. 왜냐면, 남이 하는 서비스와 비슷한 서비스를 한다면, 그것 만으로 경쟁력이 있다고 볼수 없기 때문이죠.

몇년전에 보았던 책에는 "페르소나"를 동원하는 방법을 이야기하는 책도 있었습니다. 고객을 모델링 하는 방식이거든요.

최악의 경우는 개발자들에게 그냥 요청하는 방법입니다. 이런저런 기능이 필요하니 그걸 만들어 달라고 요청하는 식으로 일이 진행되는데요. 개발자들은 사용성보다는 기술쪽으로 더 기운 사람들이기 때문에 사용자의 사용성에 악영향을 줄만한 서비스를 만들어 버리기도 합니다.

가장 합리적인 방법은 실험을 하는 것입니다. 서비스를 조금 바꾸고, 사용자들의 반응을 보고, 조금 추가하고 사용자들의 반응을 보고 이러는거죠. 그리고 근 십년간은 이런 방식을 잘하는 회사들이 성공했던 것 같습니다.

예를 들어 인스타그램 같은 경우는 맞집 위치 공유하는 서비스로 시작했다가 사용자들이 위치 공유 기능은 안쓰고 사진 기능이 잘 쓰고 있다는 것을 관찰한 후 주요 기능이 었던 위치 공유 기능을 제거한 서비스를 내놓아서 성공했습니다. 유튜브도 데이트 서비스를 만들었는데, 사용자들이 데이트 신청은 하지 않고, 동영상 올리는 것만 열심히하는 부분을 확인한다음 데이트 신청 서비스를 잘라내 버리고 성공했지요.

사용자가 우리 서비스를 어떤 방식으로 쓰는지, 그리고 그런 행위를 왜 하게 되는지 정확하게 분석할 수 있다면, 인스타그램이나 유튜브처럼 성공할 가망성이 더 높아지는 거라 볼 수 있는 것입니다.

그렇게 보면, 이 책은 서비스 소프트웨어들에거 성공하는 최단 거리를 알려주는 책이 아닐까 싶기도 하네요.

용어들이 낯설고, 왠지 수학적인 표현으로 보이는 수식들이 있어서, 왠지 주눅이 들면서 읽어가긴 했지만, 주제에 대해서 정말 잘 설명한 책이라는 것과 이 책을 통해 "데이터 분석"이라는 분야에 대해서 좀더 긍정적인 느낌을 갖게 되었던 것 같습니다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

ghcjs***l2023-06-23

행동 데이터 분석에 관심이 있는 분들은 오라일리 이책 추천

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

image (1).png

시작하며

내가 프로그래밍을 공부하기 시작하면서 굉장히 흥미로운 생각이 떠올랐다. 그것은 수많은 데이터들이 있는데 그 데이터들을 골똘히 분석하다 보면 정말 재미있는 사실을 알게 되지 않을까? 그 궁금증을 가지고 그때 당시(아마도 한 15년은 더 전이었을 듯)자바를 가르치던 선생님에게 물어봤다. 그랬더니 그 선생님께서 데이터 마이닝이라는 분야에 대해서 설명하셨었는데... 지금까지 난 관심만 가지고 있었다ㅎㅎㅎ 그리고 시간이 많이 흘러서 이 책에 대해 알게 되었고 오!? 나 이거 관심 있던 건데 하면서 이제서야 책을 보게 되었다. 사실 이건 말 그대로 행동 데이터 분석이고 데이터마이닝이 더 포괄적인 개념이라 할 수 있겠다. 행동 데이터 분석이라... 행동 데이터 분석이 뭐야?

행동과학?

행동과학(行動科學, behavioural science)이란 사회 및 조직을 관리하는 기술을 개발하기 위해, 인간 행동을 체계적으로 규명하여 일반 법칙으로 정립하는 학문이다. 행동과학은 심리학, 사회학, 인류학, 생리학, 정신 생물학, 정치학, 경제학 등 여러 가지 학문과 관련 있는 복합 응용 학문으로서, 비교적 역사가 짧은 편이다.

출처 : 위키백과

책에서 행동과학이라고 하는 것에 대한 위키백과 내용이다.

목적 : 사회 및 조직관리를 위한 기술 개발

방법 : 인간 행동을 체계적으로 규명하여 일반 법칙으로 정립

관련 학문 : 심리학, 사회학, 인류학, 생리학, 정신 생물학, 정치학, 경제학 등... 복함 응용 학문

워~우~이거 증말 어려운 거네?

그래도 내가 책을 쑤욱 훑어보면서 얕은 지식으로나마 쉽게 정리하자면

인간의 행동을 데이터 기반으로 분석하고 변화 시키려는 의도가 있는 기술이라 하겠다.

내가 관심만 있었지 전혀 모르는 분야라 처음에 책을 읽는데 뭔 소린지 하나도 모르겠더라.

정신 차리고 다시 찬찬히 살펴보는데 나름 흥미롭고 재미있었다.

위의 그림은 중년 고객의 위기감을 기반으로 인간의 행동을 모델링 한 그림이다. 책에서는 반복해서 이런 방식으로 모델링을 표현하고 이것을 그대로 코드로 변환하여 데이터를 분석한다. 이러한 과정에서 겪게 되는 오류들

예를 들자면 위의 그림 2-2에서 40대 중년 고객이 모두 위기감을 느끼는가? 아니다.

이러한 경우는 행동 데이터 분석에서는 "개인 특성"이라고 정의해~라고 알려준다.

그리고 확률론적 관점에서 행동의 원인을 "기여요소"로 정의해~라고 하나씩 단계별로 알려준다.

사실 모르는 단어들 개념들이 너무 많아서 뭔 소린지.. 했지만 집중하고 따라가니까 나름 설명이 잘 되어있다.

다음은 위의 모델링의 근간인 인간의 행동 모델의 구조이다.

처음 보여준 위기감을 가진 중년 남성 모델링 그림이 위의 그림을 기초로 만들어진 것이다.

데이터 분석에서 가장 중요한 건 데이터이다.

이 책은 그 데이터를 행동 과학의 관점에서 파이썬과 R을 사용하여 분석하는 단계를 설명한다.

데이터 그 자체를 수집하고 가공하는 방법에 대해서는 다른 책에서 공부하면 되겠고.

일단 데이터를 수집한 게 있으면 그것을 가지고 책에 나온 지식을 토대로 분석을 해나가면 되겠다.

사실 예제 코드도 다 있고 샘플 데이터도 다 있다. 즉 이 책을 그대로 쭉 따라가면 맛볼 수 있게 정리되어 있다.

이 책에 대해 핵심만 요약하자면 다음과 같다.

이 책의 핵심 3가지

현실 세계의 실제 행동 경향과 이와 관련된 심리적 현상(의도, 인지, 감정 등)
인과관계 분석 및 다이어그램
데이터

첫 번째는 행동과학분석에서 연구 대상으로써 사람들의 행동, 사고방식, 감정 상태 등의 심리적 요소를 분석하고 어떻게 상호작용하는지 이해하는 것을 말한다. 이것을 잘 이해해야 제대로 된 모델링을 할 수 있다.

두 번째를 통해서 심리적 요소 간의 원인과 결과 관계를 시각화해서 모델링 한다.

세 번째 데이터를 통해 분석을 하고 그것을 수치나 그래프 등으로 표현하여 사람들의 행동을 변화시킬 수 있는 전략을 세우게 된다.

이러한 것들을 이해하고 실습을 통해 직접 맛볼 수 있게 책이 쓰여있다.

책의 큰 구성 5가지

행동의 이해 : 사람의 행동과 관계를 이해한다.
인과관계 다이어그램과 교란 해소
견고한 데이터 분석 : 데이터가 작거나 불완전하거나 불규칙할 때 대처 방법
실험 설계와 분석
행동 데이터 분석을 위한 고급 도구

다음은 구성 5가지 중에 3번까지를 이해하기 위한 개념 키워드이다.

교란

- 나무와 숲이 동시에 존재해도 이게 나무 때문에 숲이 있는 건지, 숲 때문에 나무가 있는 건지 알기 어려운 현상

인과관계

- 하나의 일이 다른 일에 영향을 주는 관계

예) 사탕을 먹으면 배가 아파, 물을 뿌리면 땅이 젖는다.

인과 추론

- 인과 관계를 파악하는 것 방법은 다음 2가지가 있음 분리 인과 기준, 백도어 기준

분리 인과 기준

- 어떤 일이 다른 일에 영향을 주는지 알기 위해 관계가 없는 일들을 빼주는 것

백도어 기준

- 도미노처럼 연달아 일어난 일들 사이에서 어떤 일이 무엇 때문에 일어난 것인지 찾아내는 방법

됐고 어려우니까 chatGPT4한테 정리시켜봤다.

영화관에서 팝콘이 많이 팔린 이유를 행동 데이터 분석을 통해 알아낼 때, 다음과 같은 과정을 거치게 됩니다.

1. 행동의 이해: 사람들이 영화관에서 왜 팝콘을 사서 먹는지를 이해하는 것이 첫 단계입니다. 이를 위해 영화관 내에서 팝콘이 인기 있는 메뉴인 것을 확인하고, 구매하는 사람들의 행동을 관찰합니다.

2. 인과관계 다이어그램과 교란 해소: 팝콘 매출이 높은 원인과 결과 사이의 인과관계를 분석하는 것이 다음 단계입니다. 하지만 영화 종류, 팝콘 가격, 영화 상영 시간 등 다양한 교란 요인 때문에 이를 명확하게 파악하기 어렵습니다. 이때 교란 해소를 통해 다양한 요인들을 고려한 분석을 수행해야 합니다.

3. 견고한 데이터 분석: 팝콘 매출 데이터 중 일부가 누락되었다면, 이 결측 데이터를 적절하게 처리해야 합니다. 이렇게 결측 데이터를 찾아내고 처리함으로써 분석 결과의 정확성을 높일 수 있습니다.

결국, 영화관에서 팝콘 매출이 높은 이유를 알아내기 위해서는, 사람들의 행동을 이해하고, 원인과 결과 사이의 인과관계를 파악하되 중간에 있는 교란 요인을 해결하고, 정확한 데이터 분석을 해야 합니다. 이 과정을 거치면 팝콘 매출에 영향을 주는 원인을 찾아낼 수 있습니다.

출처 : chatGPT4

끝내며

일단 잘 모르는 분야라서 좀 어버버 했지만 읽다 보니 나름 흥미로운 내용이다.(아직 다 읽지는 않음)

사람의 행동의 특징적인 것 들을 변수로 만들고 그것을 모델링하고 분석해서 의미 있는 결과를 찾아내는 일

사실 이런 모델링 과정은 굳이 사람뿐만 아니라 사회적인 현상도 이러한 방식으로 분석할 수 있겠다.

다만 이 책은 사람의 행동을 분석하는 거니까 그것에 중점을 두고 전문적으로 쓰인 책이다.

평소에 생각하지 않는 부분들을 그리고 몰랐던 부분들에 대해 알게 되어 재미있었고 이 일은

아주 많이 똑똑하거나 엄청난 집착이 있어야 가능하겠는걸?이라는 생각이 들었다.

아마도 후자가 많지 않을까 싶다.

아직 뭐 내가 이 책에 대해서 제대로 읽고 글을 쓰는 건 아니지만 책 제목처럼 행동 데이터 분석에 대해 공부하고자 하는 분들이 읽어보면 좋은 책이라 생각한다.

나는 이 책에서 추천해 준 다른 책들을 봐야 할 필요성을 느꼈다.

아 다른 사람들은 행동경제학에 관련한 이론이라고도 하더라

넛지
마음이 움직이는 순간들
상식밖의 경제학
댄 애리얼이 부의감각
왜 양말은 항상 한 짝만 없어질까?
주데아 펄과 다나 맥켄지의 The Book of Why Basic Bookxm 2018

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

행동 데이터 분석

저자: Buisson, Florent
출판: 한빛미디어
발매: 2023.05.26.

k9331***l2023-06-22

[나는 리뷰어다. 2023.6월] 행동 데이터 분석

R과 파이썬으로 시작하는 행동 데이터 분석 가이드

한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

갤럽이 매일 1000명의 미국인을 상대로 연 인원 45만 명의 데이터를 얻어 분석한 바에 의하면 가난은 인생을 고달프게 만들고 부는 삶의 만족을 높이다. 그러나 사람이 살면서 느끼는 ‘체험적 행복감’은 부에 의해서 크게 영향을 받지 않는다는 것이 발견되었다. 체험적 행복감은 매 순간 즉각적으로 느끼는 행복이다.

지나고 난 뒤에 평가하는 ‘기억적 행복’과 구별된다. 부자가 죽을 때 자신의 인생이 만족스러웠다고 평가하는 것은 기억적 행복이고 지금 고픈 배를 느끼는 것은 체험적 행복이다.

대니얼 카너먼은 DRM(Day Reconstruntion Method)이란 방법으로 체험적 행복을 측정했다. 실험 참여자들은 하루에 기억을 되살려 여러 개의 에피소드로 나눈다. 각 구간에서는 가장 주의가 집중되었던 활동을 하나 선택하여 0~6으로 채점한다. 여러 날에 걸친 이런 데이터는 사람들이 일상적으로 얼마나 행복하게 지내는지 훔쳐볼 수 있느 창구가 된다. 개럽의DRM 조사에 의하면 대도시 같이 생활비가 많이 드는 지역에서 가족의 연 수입이 7만 5000 달러 정도가 되면 체험적 행복감이 최대치에 올랐으며 추가의 수입이 기여하는 바는 미미하였다. 카너먼의 해석에 의하면, 추가의 수입은 좀 더 많은 쾌락을 구매할 수 있게 하지만 늘어난 수립이 삶의 다른 즐거움을 빼앗아간다. 지구를 반 바퀴 돌아 알프스에서 스키를 타는 것은 행복을 줄 수 있겠지만 동네 놀이동산에서 썰매를 타는 것도 상당히 즐거운 일이다.

행동 데이터를 분석해 어느 정도 부가 삶의 가치에 영향을 주는지를 측정한 사례로 볼 수 있다.

행동 데이터 과학은 근래의 많은 데이터 과학 및 데이터 분석 책 중에 실무자가 심도있게 볼 수 있는 가이드이다.

사내 강의를 하면서도 실무 예제를 삼을 수 있는 자료가 부족했는데 이 책은 충분히 그 영역을 채워주었다.

특히 R과 파이썬 양 쪽의 사례를 제공해주어 분석 도구에 따른 문제 해결 방법을 배우기에도 좋고, 문제를 정의부터 시작하는 방법과 실무 경험을 담고 있어

사례 적용에도 도움이 될 수 있었다.

기본적인 데이터 분석에 대한 이해나 행동 경제학 전문가인 대니얼 카너먼 같은 유명한 학자들이 여러 자료를 통해 기본적인 지식을 알고 있지만

하지만 그들처럼 왜 사람들은 그런 행동을 하는지에 대한 측정과 분석, 도구 활용에 대한 방법을 심도있게 접근하기에 실무를 담당하는 사람들은 접근 방법에서 길을 찾기가 어려운 부분이었다.

데이터 과학과 데이터 분석을 다루는 책들은 알고리즘에 제공하는 사실을 제외하고는 데이터를 이해하기에는 어려움이 있었다.

- 데이터 자체를 목적으로 하기보다는 데이터를 인간의 심리와 행동을 들여다보는 렌즈로 바라보는 행동 과학적 사고 방식

- 여러 요인 사이의 인과관계를 알아내고 관계성이 얼마나 강한지 측정하는 인간관계 분석 도구모음

이 두 요소를 '인과-행동 접근법 or 프레임워크'를 제공해 데이터를 이해할 수 있는 방법을 제공하고 있다

suntom***l2023-06-18

[행동 데이터 분석] 읽고 주저리

■ 행동 데이터 분석 읽고 주저리

.

R과 파이썬으로 시작하는 행동 데이터 분석 가이드

전세계 행동과학 저문가 필독서

고객 중심 데이터 분석으로 최적의 비즈니스 전략 세우기

.

지은이 : #플로랑뷔송

옮긴이 : #시진

이메일 : ask@hanbit.co.kr

출판사 : #한빛미디어

.

#행동데이터분석 #행동데이터 #행동과학 #데이터분석 #비즈니스전략

.

#책을펴면서

이전에 #파이썬 책을 본 경험이 있었는데~ 그 프로그램으로 행동 데이터를 분석하는 방법, 가이드에 대해서 배웠으면 좋겠다는 생각담아 책을 펴본다. 고객 중심 데이터 분석 이라는 부분은 최근 다양하게 변해가는 소비자의 트렌드를 잘 이해하고 분석하는데 도움을 주고, 거기에 그 결과에 따른, 분석에 따른 비즈니스 전략을 수립하는데도 도움이될 수 있는 내용을 발견해 나가기를 바래본다.

.

‘ #데이터 는 새로운 석유다 라는 말처럼 데이터는 하나의 자원으로 자리잡았으며 데이터를 처리하는 알고리즘은 경제를 발전시키는 일종의 새로운 엔진이라고 말할 수 있습니다’

--10페이지에서--

.

‘교란변수가 있는 환경에서 회귀모델의 계수를 인과관계로 해석하면 잘못된 결론을 내리게 됩니다’

--40페이지에서--

.

‘사공이 많으면 배가 산으로 가듯이 변수가 너무 많으면 문제가 될 수 있습니다’

--41페이지에서--

.

‘사람의 마음을 변호시키는 것은 그 사람의 행동에 영향을 미치는 것과는 다르며, 그 반대도 마찬가지입니다’

--50페이지에서--

.

‘비유를 하자면 누군가가 어떤 이야기를 했을 때 행동 과학자는 그 이야기가 믿을만하다고 확인할 때까지 의심을 하고 UX 연구원은 반대로 그 이야기가 틀렸다는 점을 확인할 때까지 사실로 믿습니다’

--54페이지에서--

.

‘광고, 마케팅과 협상의 목표는 누군가의 의도에 영향을 미치는 것입니다’

--56페이지에서--

.

‘비즈니스에서는 의도를 달성하는 것을 방해하는 장애물을 표현할 때 페인포인트 (pain point)라는 용어를 사용합니다. 고객의 페인 포인트를 해결하는 방법에 집중하다보면 원하는 목표를 이룰 수 있는 길을 찾을 것입니다’

--56페이지에서--

.

‘가치있는 결론을 얻으려면 먼저 주어진 정보로부터 의미를 찾아내야 합니다’

--64페이지에서--

.

‘상관관계는 인과관계가 아니기 때문에 더 이상 아무것도 추론할 수 없습니다.’

--81페이지에서--

.

‘세상ㅇ[ 원인이 단 하나인 경우는 거의 없습니다. 2개 이상의 변수가 동일한 결과를 낳으면 관계는 충돌이 생깁니다.’

--88페이지에서--

.

‘ #대체효과 = 경제학 이론에서 아주 중요한 개념입니다. 고객은 제품의 가용성, 가격, 고객의 다양한 욕구에 따라 제품을 다른 제품으로 대체 할 수 있습니다’

--94페이지에서--

.

‘ #피드백루프 = 사람이 환경의 변화에 반응하여 행동을 수정하는 것~’

--95페이지에서--

.

‘이책의 목표는 한 변수가 다른 변수에 미치는 영향을 측정하는 것입니다’

--101페이지에서--

.

‘두 관심변수의 공동 요인을 제대로 이해하지 못하면 상황을 잚소 해석하게 되고 관심 요인에 대한 회귀 계수는 편향됩니다 (중략) 따라서 어떤 변수를 포함하고 어떤 변수를 포함하지 않을지 결정하는 것은 데이터 분석 또는 더 나아가 인과적 사고방식의 교란을 해소하는 가장 중요한 문제~’

--131페이지에서--

.

‘분석 결과가 비즈니스 파트너에게 동일한 의미를 가진다면 결측 데이터를 삭제할 수 있습니다’

--157페이지에서--

.

‘결측의 상관관계가 높은 변수가 있다면 이것은 한 변수의 누락이 다른 변수의 누락을 의미한다는 것을 의미합니다’

--158페이지에서--

.

‘관찰되지 않은 변수는 #잠재변수 라고도하며 이론상으로는 접근 가능할 수도 있지만 실제로는 가지고 있지 않은 정보를 말합니다’

--164페이지에서--

.

‘결측의 유영을 신중하게 분류했을 때 시간은 더 걸리겠지만 편향이 생기지 않는다는 것~’

--169페이지에서--

.

‘특히 행동 및 자연과학에서는 숫자형 변수가 정규분포를 따른다고 가정하거나 실제로 정규분포를 따르는 경우가 많기 때문~’

--187페이지에서--

.

‘ #부트스트랩 = 데이터가 아무리 작거나 이상하더라도 강건한 결론을 도출할 수 있습니다’

--195페이지에서--

.

‘비즈니스에대한 이해와 지식이 없는 상태라면 어떤 방법을 TJㅗ 의미 있는 실험을 수행할 수 없습니다’

--228페이지에서--

.

‘무엇을 테스트해야하는지 아는 것이 최우선입니다. 무엇을 달성하려고 하는지를 명확하게 인지하지 못한 상태에서 실험을 진행하면 실험에 실패하기 마련입니다’

--229페이지에서--

.

‘실험의 목표는 좋은 비즈니스 결정을 내리는 것입니다. 수익에만 매달리면 비즈니스를 개선할 수 있는 많은 가능성을 놓칠 수 있습니다.’

--231페이지에서--

.

‘비즈니스파트너는 종종 광범위하고 명확한 답을 원하고 세부 사항을 길게 나열하는 것을 좋아하지 않습니다.’

--233페이지에서--

.

‘명확한 행동논리의 장점 두가지

1.행동 논리는 그 자체로 실험 가능합니다

2.일반적으로 잠재적인 이점을 제공한다는 것~‘

--234~235페이지에서--

.

‘ #알버트아인슈타인 = 문제를 풀 시간이 한 시간이 주어진다면 나는 문제에 대해 생각하는데 55분을 쓰고 나머지 5분동안 문제를 푸는 방법을 생각할 것이다라고 (중략) 즉 논리를 충분히 이해하는 것이 가장 중요~’

--235페이지에서--

.

‘논리를 명확하게 설명하려면 비즈니스 지표를 작은 구성 요소 단위로 세분화하는 것이 좋습니다.’

--236페이지에서--

.

#책을덮으면서

95페이지보면서~ 행동데이터, 사람이 어떻게 행동하는가에 따라서 기업이 그들의 목적을 이루기위해 분석한대로 지향점을 현실에 반영하는 것.. 책에서도 자주 등장하는것처럼 CCTV가 사람의 행동을 분석해서, 그 안테나샵에서 벌어지는 시사점을 기업에 전달해주는 행동데이터의 분야도 커진다고 하던데~ 결국 소비자의 그 무엇이든 데이터를 분석해서 인사이트를 얻는 그 과정이 매우 중요함을 이책에서 다시한번 느끼게된다. (물론 저자의 말대로 겉으로 드러나는 것 밖에는 분석을 못하지만 말이다)

124페이지보면서~ 보여지는 고객의 행동을 수집하고 분석해서, 유의미한 그 뭔가를 도출해내기위해서는 참 다양하고 복잡한 사전 로직을 구성하고, 상호 연계되는 부분까지 고려한 세심한 디테일 부분이 살아있어야한다는 것을 저자는 보여주고 있다 (프로그램을 잘 다루지는 못하지만, 순서도, 로직, 다이어그램, 연관관계 등에 대한 설명을 하는 표,서식을 볼 때, 참 세밀한 것까지 다루고 사전에 고민하는 것을 충분히 알 수 있게 되어있다)

호기심을 가지고, 또한 개선이 이루어져야한다는 문제의식을 가지고, 수시로 고객에 대한 데이터를 모아두고 정리해야하는 것을 두려워해서는 안될거같아보인다. 그 데이터, 그리고 그 호기심이 파이선, R과 같은 프로그램과 만나면 정말 어마무시한 데이터를, 분석의 결과를 도출해낼 수 있음을 이책을 통해서 배운다. 늘 뭔가 지금보다는 나아지기를 바라는 생각으로 현재를 바라봐야할거같다. 좋은 내용이다 (물론 능숙하게 프로그램을 다루지도 못하고, 프로그램과 관련된 세부 사항은 잘 이해하기가 어렵지만, 그럼에도 불구하고 논리적인 접근에 대해서는 프로그래머가 참 멋진 생각을 담고 있는 직업이구나 하는 생각을 해본다)

멋진 책이다.

jay0***l2023-06-17

일반인들에게 좋은 입문서

데이터 분석은 꽤 많이 해본 것 같은데, 행동 데이터 분석은 한 번도 다뤄보지 않은 것 같다. 뭔가 산업디자인과 같은 곳에서 HCI 연구를 할 때 많이 사용할 것 같긴 하다. 이름에서 추측을 해보자면 웹 사이트 클릭이나, 모바일 앱을 사용하는 등의 경우에서 어떤 행동이 나타나는지, 어떤 순서로 나타나는지에 대한 정보를 가지고 있는 데이터를 얘기하는 것 같다. 그러한 데이터로부터 이제 의미 있는 내용을 도출하고 그것을 바탕으로 어떠한 전략을 설계하는 것이 아마 전체적인 흐름일 것이고.

한국어 제목은 행동 데이터 분석이라는 단순한 세 단어의 조합이지만 아래에 적혀있는 영어 제목에는 with R and Python이라는 것이 추가되어 있다. 이제는 R이 파이썬에 밀려 거의 한 물 간 것 같긴 하지만, 아무튼 아직도 R을 주로 사용하는 사람들이 있나 보다.

앞부분의 이 책에 대한 소개를 보면 내가 생각했던 것과 거의 일치한 것을 알 수 있다. 결국 데이터로부터 어떻게 우리가 원하는 형식으로 정보를 뽑아낼지가 중요한 것이고, 이 방법을 알고 나면 행동 데이터로부터 결국 비즈니스 전략을 세울 수 있겠다는 것이다.

특히, 그냥 데이터가 아니라 행동 데이터의 관점에서 데이터 처리를 바라보게 된다. 결국 데이터를 처리하는 알고리즘은 data "agnostic" 하고 혹자는 그냥 아무 알고리즘이나 써보면 되는 것이 아니냐고 물어볼 수 있겠지만, 데이터에 대한 prior 지식을 가지고 있는 똑똑한 사람은 그 데이터에 특별히 적합한 알고리즘을 좋은 실험설계와 함께 적용하여 판단할 수 있을 것이다. 행동 데이터에 포함되어 있는 여러 가지 정보들, 고객의 나이, 고객의 사용 시간대 등 여러 가지 변인들을 바탕으로 데이터에 들어있는 그들의 행동을 봐서, 어떤 변인이 실제로 수익에 관여했는지를 통계적 실험으로 알 수 있을 것이다.

대상 독자는 뭐, 그리 특별하지는 않았다. 전반적으로 어느 정도의 기초 지식을 고루 가지고 있어야 한다고 하는데, 겁을 주고 있지도 않다. 읽어봤을 때는, 사실 뭐 코딩을 아예 처음 하는 수준이 아니라면 예제 코드들도 잘 있어서 못 따라 할 것 같지는 않다. 또한, 파이썬과 R을 동시에 다루고 있는 책으로서, 같은 내용을 다룰 때 두 가지 언어로 동시에 알려주는 점이 좋았다. 사실 제일 신기했던 것은, 두 가지 언어를 비교하면서 어떤 언어가 훨씬 나을지를 알려주는 점이다.

C언어와 다르게, 파이썬과 R은 뭐 설치도 간편하고 진입 장벽이 낮기 때문에 내가 원하는 실험이나 파트가 있을 때, 더 간편하다고 하는 언어로 사용하는 것도 좋을 것 같다.

책을 보다 보면 그림이나 그래프들이 많아서 볼 만했다. 사실 이런 "전공 서적"처럼 생긴 책들의 문제가 읽기 싫어 보인다라는 것이 가장 큰 어려운 점일 텐데, 얘는 그렇지 않았다. 뭐 오레일리 책들은 믿을 만 하긴 한데, 아무튼 이 책의 경우도 책 중간중간 여러 딴 얘기(물론 알아두면 좋을 내용)들이 많아서 심심하지 않게 읽을 수 있었다.

정리해 보자면, 이 책은 데이터 분석의 전반적인 이해와, 특히 행동 데이터 분석에 대해 알고 싶은 독자들에게 권하고 싶다. 단순히 데이터 분석에 대해 알고 싶다면, 다른 책들을 보는 게 나을 것 같고, 이 책은 행동 데이터와, 비즈니스 수립에 중점을 두고 있다고 보면 될 것 같다. 복잡할 수도 있는 주제를 쉽게 설명하고, 실용적인 데이터 분석 기법을 배울 수 있는 책인 것 같다.

"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."

tmddms***l2023-06-14

기본 데이터 처리와 학습에 기초적인 지식이 있는 분들께 \"행동 데이터 분석\" 책을 추천한다.

요즘 빅데이터와 AI를 배워야 될 거 같다는 생각을 많이 하고 있다.
결국 마지막에 모든 것은 데이터 싸움이 될 것이라고 생각하기 때문이다.
금융, 정치 등 정말 많고 다양한 분야에서 데이터를 많이 가지고 제대로 분석하고 활용하는 사람이 승자가 될 거라고 생각한다.

데이터에 관련된 공부를 해보고 싶은데 뭐부터 시작해야 될까 하다가, 평소 사람의 행동 분석에 관심이 많아 "행동 데이터 분석"이라는 책을 선택하게 되었다.
R과 파이썬을 활용하여 행동 데이터가 무엇이며 어떻게 분석하고 활용해야 되는지에 대해 설명한다.

이 책은 인가관계를 집중적으로 보며 사람이 행동 데이터를 분석한다.
처음으로는 인과관계 다이어그램에 대해 알려준다.
그 후 배운 내용을 토대로 인과관계 다이어그램을 직접 그려보며 심화학습을 할 수 있도록 구성되어 있다.
그린 인과관계 다이어그램을 통해 데이터 분석의 교란을 해소하며 데이터를 분석하는 법을 알려준다.

데이터 분석의 교란을 해결한 후에는 견고한 데이터를 만든다.
결측 데이터를 어떻게 처리하고 시각화하는지에 대해 설명한다.
부트스트랩을 사용하여 불확실성을 측정하고 데이터를 실험하며 책이 마무리된다.

처음 데이터를 배우는 나에게 이 책은 매우 어려웠다.
기본적인 데이터 처리와 데이터 분석 방법을 알고 "행동 데이터 분석" 책을 읽었으면 더 좋았겠다는 아쉬움이 남는다.

기본 데이터 처리와 학습에 기초적인 지식이 있는 분들께 "행동 데이터 분석" 책을 추천한다.