#데이터분석 #파이썬 #판다스 #데이터시각화 #데이터모델링 #고급판다스 #시계열분석 #데이터활용
정말 이보다 더 친절할 수는 없겠다는 생각이 드는, 데이터 분석가로 입문하고 싶은 분들께 추천 드리는 책이다.
아마, 이 분야에 처음이라 하더라도 책의 목차만 쓱~ 훑어봐도 "와~ 정말 친절하다! 그냥 이 대로 따라 하면 되겠네!"라는 생각이 들 것이다. 아래 목차에서 좀 주의 깊게 읽으면 좋은 부분만 별도로 표시해 놓았다.
Chapter 1. 시작하기 전에
- 필수 파이썬 라이브러리
- 커뮤니티와 콘퍼런스
Chapter 2. 파이썬 언어의 기본, IPython, 주피터 노트북
- 자기관찰(인트로스펙션 introspection)
- 시맨틱, 스칼라형, 흐름 제어
Chapter 3. 내장 자료구조, 함수, 파일
- 튜플, 리스트, 사전, 집합
- 익명 함수(lambda 함수), 커링(일부 인자만 취하기), 제너레이터(이터레이터 프로토콜)
Chapter 4. Numpy 기본: 배열과 벡터 연산
- Numpy ndarray(다차원 배열 객체), ufunc(유니버설 함수)
- 배열 지향 프로그래밍, 배열 데이터의 파일 입출력
Chapter 5. pandas 시작하기
- pandas 자료구조(Series, DataFrame, 색인 객체)
- 핵심 기능(색인하기, 선택하기, 거르기, 재색인, 중복 색인)
- 기술 통계 계산(상관관계, 공분산, 멤버십)
Chapter 6. 데이터 로딩과 저장, 파일 형식
- JSON 데이터, 웹 스크래핑(XML과 HTML)
- 웹 API, 데이터베이스와 함께 사용하기
Chapter 7. 데이터 정제 및 준비
- 누락 데이터 골라내기, 결측치 채우기
- 중복 제거하기, 개별화와 양자화, 특이값 제외
Chapter 8. 데이터 준비하기: 조인, 병합, 변형
- 계층적 색인, 색인 병합하기
- 계층적 색인으로 재형성하기, 피벗하기(긴 형식 ↔ 넓은 형식)
Chapter 9. 그래프와 시각화
- matplotlib API, seaborn
- 동적 대화형 그래프(Bokeh, Plotly)
Chapter 10. 데이터 집계와 그룹 연산
- GroupBy 메카닉, 데이터 집계
- Apply 메서드: 일반적인 분리-적용-병합
Chapter 11. 시계열
- 날짜 범위, 빈도, 이동
- 시간대 다루기, 기간과 기간 연산
- 리샘플링과 빈도 변환, 이동창 함수(moving window function)
Chapter 12. 고급 pandas
- Categorical 데이터, 고급 GroupBy 사용
- 메서드 연결 기법(pipe 메서드)
Chapter 13. 파이썬 모델링 라이브러리
- 팻시(Patsy) 이용해서 모델 생성하기
- statsmodels 소개(선형 모델, 시계열 처리 예측)
- scikit-learn 소개
Chapter 14. 데이터 분석 예제
- Bit.ly이 1.USA.gov 데이터
- MovieLens의 영화 평점 데이터
- 신생아 이름 유행 분석
- 미국 농무부 영양소 정보
- 2012년 연방선거관리위원회 데이터베이스
Appendix A. 고급 NumPy
- 팬시 색인(take, put), 고급 ufunc
- Numba를 이용한 빠른 NumPy 함수 작성
- 성능 팁, 인접 메모리의 중요성
Appendix B. IPython 시스템 더 알아보기
- 소프트웨어 개발 도구
- 생산적인 코드 개발 팁(모듈 의존성 리로딩)
- 고급 기능(친화적인 클래스 만들기)
특히, Chapter 9장의 그래프 시각화는 가장 많이 사용하는 위주로 정말 친절하게 설명이 잘 되어 있다.
또한 Chapter 14장의 다양한 데이터 분석 예제는 이 책에서 배운 기술들을 처리하고자 하는 문제 위주로 실습해 볼 수 있도록 잘 구성이 되어 있다.
캐글 등 데이터 분석 및 딥러닝 경진 대회에 나갈 때 가장 중요한 부분이라고 할 수 있는 '탐색적 데이터 분석(EDA: Exploratory Data Analysis)' 과정에서 제일 빈번하게 많이 사용하는 기능들이 어느 정도 손에 착착 붙도록 잘 설계되어 있다고 생각된다.
이 책에 수록된 모든 코드 예제와 관련 데이터는 "파이썬 데이터 분석 깃허브 저장소"에서 다운로드 받을 수 있다.
텐서플로우나 파이토치 등 딥러닝 프레임워크 공부를 목적으로 파이썬 데이터 분석부터 시작해 보려는 분들께 정말 적합한 책이 아닌가 생각된다.
※ 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
'성장하기' 카테고리의 다른 글
[서평] 이것이 마이데이터다 (0) | 2021.09.27 |
---|---|
[서평] 브랜드 유니버스 플랫폼 전략 (0) | 2021.09.22 |
[서평] 실리콘밸리 리더십 (0) | 2021.08.16 |
[서평] 크래프톤 웨이 (0) | 2021.08.08 |
[서평] 머신러닝을 활용한 웹 최적화 (2) | 2021.07.26 |
댓글