9명의 저자 분의 글이 하나의 유기적인 글로 막힘없이 읽히는데 편집자님과 저자님들의 노고가 진하게 느껴졌습니다. 다양한 배경을 갖고 계신 분들의 인사이트를 그렇게 두껍지 않은 책을 통해 접할 수 있는 좋은 기회이었습니다. 저자분들을 페이스북이나 링크드인 등 SNS에서 단편적인 글로만 접하다가 정제 된 글을 통해 접하는 것은 색다른 느낌이었습니다.
직접 마주하고 있지는 못하지만 짧게 짧게 보았던 글들에 대한 이해가 깊어지기도 했고, 글 속에 나타난 삶의 태도로 데이터에 대한 접근법을 새롭게 볼 수 있었습니다. 배경이 다양한만큼 시행착오도 다양합니다.
chatGPT가 AlphaGo 이후로 다시 한 번 대중의 관심을 인공지능으로 가지고 왔습니다. prompt engineer라는 용어가 나오고 중고생들부터 학계까지 광범위하게 사용하는 도구가 되었습니다. 이런 흐름 속에 입문을 고민하면서 어쩌다 데이터 분석 with 파이썬을 찾고 계실 것 같습니다.
데이터 과학이라는 큰 범주 내에서는 가까운 사이라고 생각할 수 있지만 AI의 ML/DL(머신러닝/딥러닝)에서 필요로 하는 능력과 데이터 분석은 다소 궤가 다르다고 봐야랍니다. DL을 위해서도 데이터를 분석하고 정제하는 능력이 필요하기 때문에 DL 공부를 염두에 두셔도 볼 만한 책입니다.
올해 마지막 서평을 쓸 책은 비즈니스 데이터 과학입니다. 요즘 데이터 과학 분야 책을 보면 모든 데이터는 인공지능/딥러닝으로 이어지던 흐름에서 ML/DL과 별개로 활용 가능한 데이터 가공 및 모델링 등 분화하는 듯 합니다. 이 책도 회귀로 시작해서 인공지능을 끝을 맺습니다. 인공지능 모델들이 현재까지는 데규모 데이터를 다루는데 효과적인 것은 현재까진 사실에 가까우니까요.
데이터 과학를 다루는 많은 책들이 대부분 Python 기반의 코드를 다루는 것과 대조적으로 개인적으로는 오랜만에 만나는 R로 쓰인 책입니다. 아무리 Pyhton이 쉽고 데이터 사이언스가 견인해서 컸다고는 하지만 통계계통 사용자들의 안식처인 R과 matlab의 규모를 무시할 수 없는 듯 합니다.
스마트폰을 사용하면서 인터넷에 공유되는 정보의 양은 이전과 비교할 수 없을 정도로 폭발적으로 늘어났습니다. 과거에는 인터넷이 연결된 장소와 단말이 한정적이었지만 이제는 언제 어디서나 접속하고 데이터를 만들어 낼 수 있습니다. 맛집을 검색하고, 사진을 찍고, SNS 공유하고 정말 수 많은 양의 데이터가 실시간으로 쌓이고 있습니다. 기업들은 이 데이터를 기반으로 새로운 직관을 얻고, 연구를 진행하기도 합니다.
데이터가 이렇게 많이 쌓이면서 이 데이터들을 기반으로 데이터의 주인을 추정할 수 있다는 것입니다. 그래서 유럽의 GDPR을 필두로 개인정보 운용에 관한 법률들이 제정이 되고, 그에 맞춰 약관들 변경 받으신 기억들이 있을 것입니다.
사실 이번 책은 1장을 다 읽을 쯤 까지 데이터 시각화를 다룬다고 생가했습니다. 책의 정체를 알고 다시 제목을 보니 제가 왜 그런 말도 안되는 착각을 했는지 잘 모르겠지만 이 책은 시각화에 도움이 될 수는 있지만 큰 관련이 없는 책이었습니다.
제목 그래도 의미론적인 데이터 모형화를 다루고 있는 책입니다. Semantic 의미론적인 시각으로 데이터에 접근해 데이터를 만지고 모형화하는 방법을 다루고 있습니다. 우리 인간의 언어는 불완전하고 모호한데다가 애매하기도 합니다. 이런 특성들은 모델의 정확도를 낮추는 원인이 되기도 합니다.
6월에 만나볼 책은 데이터가 뛰어노는 AI 놀이터, 캐글입니다. 저는 개인적으로 인터넷 블로그 등을 통해 정보를 습득하는 것도 좋아는 하지만 책을 좀 더 선호하는 편입니다. 인터넷의 정보들은 파편화 되어 있는 경우가 많아서 전체적인 그림을 위해서는 여러 곳을 방문하고 교차 검증이 필요한 경우가 많은데 책은 그래도 전체적인 내용을 모아 두고 있습니다. Kaggle이라는 놀이터의 튜토리얼이라고 할 수 있겠습니다.
구성 데이터 경진 대회를 참가하려는 이들을 위한 안내서입니다 대회 참가를 위한 기본적인 python library와 ML의 기본을 한다는 전제로 합니다.
이번달 리뷰 할 책은 이것이 데이터 분석이다 With Python입니다!
저자가 소개하는 것처럼 이론이 아니라 데이터 분석의 흐름을 다루고 있는 책입니다. 프로그래밍을 어느 정도 해봤고, 새로운 경험을 원하시는 분들이 한 번쯤은 조우해도 괜찮은 책입니다.
많은 데이터 분석, ML/DL 책에서 다루는 numpy, pandas, matplotlib를 이 책에서도 다루고 있습니다. 자세한 사용법이 아니라 어떠한 흐름으로 사용을 해야하고 어떤 느낌으로 사용해야 하는지 실생활에서 만나는 데이터를 가지고 생동감있게 다가 옵니다.
이 책에서 가장 중요한 점은 이론이 아니라 흐름을 다루고 있다는 것 입니다.