dawp

이번달 리뷰 할 책은 이것이 데이터 분석이다 With Python입니다!

저자가 소개하는 것처럼 이론이 아니라 데이터 분석의 흐름을 다루고 있는 책입니다. 프로그래밍을 어느 정도 해봤고, 새로운 경험을 원하시는 분들이 한 번쯤은 조우해도 괜찮은 책입니다.

많은 데이터 분석, ML/DL 책에서 다루는 numpy, pandas, matplotlib를 이 책에서도 다루고 있습니다. 자세한 사용법이 아니라 어떠한 흐름으로 사용을 해야하고 어떤 느낌으로 사용해야 하는지 실생활에서 만나는 데이터를 가지고 생동감있게 다가 옵니다.

이 책에서 가장 중요한 점은 이론이 아니라 흐름을 다루고 있다는 것 입니다. 제대로 데이터를 분석하기 위해선 이론을 무시 할 수 없습니다. 데이터 도메인에 맞는 분석 법이 있고 전처리 기법이 존재합니다. 이런 이론을 가지고 입문한다고 하면 제일 좋겠지만 쉽지 않은게 현실입니다.

모든 준비를 마치고 시작하고 싶을 수 있습니다. 이것도 부족하고 저것도 부족한데 내가 저걸 어떻게라는 걱정은 내려놓고 시작하면 좋겠습니다. 일단 시작을 해봐야 할지 말지 결정도 할 수 있지 않을까요?

이 책은 저자가 직접 이야기 하는 것처럼 이론을 각잡고 공부하면서 데이터 분석이 하고 싶은 사람에겐 부적합한 책입니다. 데이터 분석 책이라 요즘 트렌드인 딥러닝 기법 중에서도 최신 기술을 생각하는 분들에게도 별로입니다.

책 흐름대로 공부를 시작했더라면 데이터 핸들링이 지금보다는 친숙하지 않았을까 하는 아쉬움을 줄 만큼 잘 짜여있다고 생각합니다.

  • 챕터 1: 데이터를 시각화 해서 인사이트 찾기
  • 챕터 2: 데이터를 추출하고, 필요한 형태로 가공하고 시각화 하기
  • 챕터 3: 데이터로 예측하고 평가하기
  • 챕터 4: 피쳐 엔지어링을 가미한 모델 분류
  • 챕터 5: 종합 분석

위와 같이 구성 되어 있습니다. 데이터에 친숙하지 않은 분들은 이 글을 읽으시면서 저게 왜 좋은 구성인데? 라는 의문을 품으실 수도 있습니다.

여러분이 데이터 분석을 해보겠다고 데이터 셋을 받았고, 데이터의 내용을 까봤는데 나오는 것은 의미를 알 수 없는 영문과 숫자가 전부입니다. 클래스도 강아지, 고양이가 아니라 1,2로 되어있고, 1.393715-5e같은 값들 투성인데 과연 여기서 무슨 정보를 끄집어 낼 수 있을까요? 데이터가 어떤 분포를 가지고 있고, 속성에 따라서 어떤 스케일을 가지고 있는지 알아야 어떤 식으로 전처리 해야할지 감을 잡을 수 있습니다. 물론 데이터를 많이 다루다 보면 굳이 시각화 하지 않고도 가능하지만 이 책을 살까말까 고민하는 여러분은 시각화 된 정보가 필요합니다.

시각화를 통해 필요한 정보를 끄집어 냈으면 필요한 형태로 가공하고, 가공 된 데이터로 데이터가 필요한 곳에 사용합니다. 우리가 데이터를 분석하는 이유는 데이터에서 유의미한 정보를 끄집어 내 문제를 해결하거나 다가올 일을 예측하기 위함입니다. 아무런 의미가 없는 데이터 쪼가리를 우리의 삶에 적용할 수 있는 형태도 바꾸는 과정이 데이터 분석입니다.

이 책은 한번에 많은 걸 요구하지 않습니다. 데이터 마다 다른 목적지를 향해 갈 때 방향 지시등 같은 역할을 해줍니다. 큰 갈림길들에서 이정표 같은 책이기에 세밀한 지도가 필요한 분들에게는 추천 드리지 않습니다. 데이터 분석이라는 망망대해에서 항해를 맛보기 하기 좋은 키잡이 같은 책입니다.

난이도 : 중하
추천 대상: 데이터 분석을 찍먹해보고 싶은 분들, 프로그래밍이 어느 정도 익숙한 사람


한빛미디어 2021 도서 서평단 "나는 리뷰어다"의 일원으로 도서를 제공받아 작성한 리뷰입니다.