본문 바로가기
성장하기

[서평] 파이썬 데이터 분석 - 데이터 분석가 추천 도서

by 예시카의 일상 블로그 2021. 9. 19.

#데이터분석 #파이썬 #판다스 #데이터시각화 #데이터모델링 #고급판다스 #시계열분석 #데이터활용

정말 이보다 더 친절할 수는 없겠다는 생각이 드는, 데이터 분석가로 입문하고 싶은 분들께 추천 드리는 책이다. 

아마, 이 분야에 처음이라 하더라도 책의 목차만 쓱~ 훑어봐도 "와~ 정말 친절하다! 그냥 이 대로 따라 하면 되겠네!"라는 생각이 들 것이다. 아래 목차에서 좀 주의 깊게 읽으면 좋은 부분만 별도로 표시해 놓았다. 

Chapter 1. 시작하기 전에

- 필수 파이썬 라이브러리

- 커뮤니티와 콘퍼런스

Chapter 2. 파이썬 언어의 기본, IPython, 주피터 노트북

- 자기관찰(인트로스펙션 introspection)

- 시맨틱, 스칼라형, 흐름 제어

Chapter 3. 내장 자료구조, 함수, 파일

- 튜플, 리스트, 사전, 집합

- 익명 함수(lambda 함수), 커링(일부 인자만 취하기), 제너레이터(이터레이터 프로토콜)

Chapter 4. Numpy 기본: 배열과 벡터 연산

- Numpy ndarray(다차원 배열 객체), ufunc(유니버설 함수)

- 배열 지향 프로그래밍, 배열 데이터의 파일 입출력

Chapter 5. pandas 시작하기

- pandas 자료구조(Series, DataFrame, 색인 객체)

- 핵심 기능(색인하기, 선택하기, 거르기, 재색인, 중복 색인)

- 기술 통계 계산(상관관계, 공분산, 멤버십)

Chapter 6. 데이터 로딩과 저장, 파일 형식

- JSON 데이터, 웹 스크래핑(XML과 HTML)

- 웹 API, 데이터베이스와 함께 사용하기

Chapter 7. 데이터 정제 및 준비

- 누락 데이터 골라내기, 결측치 채우기

- 중복 제거하기, 개별화와 양자화, 특이값 제외

Chapter 8. 데이터 준비하기: 조인, 병합, 변형

- 계층적 색인, 색인 병합하기

- 계층적 색인으로 재형성하기, 피벗하기(긴 형식 ↔ 넓은 형식)

Chapter 9. 그래프와 시각화

- matplotlib API, seaborn

- 동적 대화형 그래프(Bokeh, Plotly)

Chapter 10. 데이터 집계와 그룹 연산

- GroupBy 메카닉, 데이터 집계

- Apply 메서드: 일반적인 분리-적용-병합

Chapter 11. 시계열

- 날짜 범위, 빈도, 이동

- 시간대 다루기, 기간과 기간 연산

- 리샘플링과 빈도 변환, 이동창 함수(moving window function)

Chapter 12. 고급 pandas

- Categorical 데이터, 고급 GroupBy 사용

- 메서드 연결 기법(pipe 메서드)

Chapter 13. 파이썬 모델링 라이브러리

- 팻시(Patsy) 이용해서 모델 생성하기

- statsmodels 소개(선형 모델, 시계열 처리 예측)

- scikit-learn 소개

Chapter 14. 데이터 분석 예제

- Bit.ly이 1.USA.gov 데이터

- MovieLens의 영화 평점 데이터

- 신생아 이름 유행 분석

- 미국 농무부 영양소 정보

- 2012년 연방선거관리위원회 데이터베이스

Appendix A. 고급 NumPy

- 팬시 색인(take, put), 고급 ufunc

- Numba를 이용한 빠른 NumPy 함수 작성

- 성능 팁, 인접 메모리의 중요성

Appendix B. IPython 시스템 더 알아보기

- 소프트웨어 개발 도구

- 생산적인 코드 개발 팁(모듈 의존성 리로딩)

- 고급 기능(친화적인 클래스 만들기)

특히, Chapter 9장의 그래프 시각화는 가장 많이 사용하는 위주로 정말 친절하게 설명이 잘 되어 있다.

또한 Chapter 14장의 다양한 데이터 분석 예제는 이 책에서 배운 기술들을 처리하고자 하는 문제 위주로 실습해 볼 수 있도록 잘 구성이 되어 있다.

캐글 등 데이터 분석 및 딥러닝 경진 대회에 나갈 때 가장 중요한 부분이라고 할 수 있는 '탐색적 데이터 분석(EDA: Exploratory Data Analysis)' 과정에서 제일 빈번하게 많이 사용하는 기능들이 어느 정도 손에 착착 붙도록 잘 설계되어 있다고 생각된다. 

이 책에 수록된 모든 코드 예제와 관련 데이터는 "파이썬 데이터 분석 깃허브 저장소"에서 다운로드 받을 수 있다. 

텐서플로우나 파이토치 등 딥러닝 프레임워크 공부를 목적으로 파이썬 데이터 분석부터 시작해 보려는 분들께 정말 적합한 책이 아닌가 생각된다. 

파이썬 라이브러리를 활용한 데이터 분석 - 한빛출판사

 

※  한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.

댓글