데이터 전처리 대전

data

이번 달에 만나볼 책은 데이터 전처리 대전입니다. 인공지능, 빅데이터 등이 기술 분야에서 큰 자리를 잡아가고 있습니다. 그 동시에 이 데이터를 다루는 기술의 중요도도 커지고 있습니다. 그래서 데이터를 다루는 책 여러권이 시장에 나오고 있습니다.

데이터는 굉장히 다양한 형태로 뽑아져 나옵니다. 종류도 다양하고, 데이터 셋이 가지고 있는 속성 값들, 속성의 종류들 너무 다양한 형태로 존재해서 한가지 방법론으로 모든 데이터를 다룰 수는 없습니다. 또 뽑아져 나온 데이터가 모두 우리에게 필요하지도 않습니다. 수행하려는 작업에 따라 전혀 필요없는 속성들도 존재합니다. 초당 수백개의 데이터가 쏟아져나오는데 여기서 모든 값들을 가공 없이쓰기는 사실상 불가능하고 가능하다고 해도 너무 많은 리소스를 필요로 합니다. 그래서 우리에게 이 데이터들을 우리 입맛에 맞게 가공하는 법이 필요합니다.

이 책의 가장 큰 장점을 뽑자면 SQL, R, PYTHON 데이터 전처리에서 가장 많이 쓰이는 세가지 언어로 작성 되었다는 것입니다. 많은 책들이 특정 언어 사용자를 대상으로 쓰여진 것을 생각하면 큰 장점입니다. 목차를 보면 알 수 있듯 다양한 방법들을 알려줍니다. 이 방법들을 코드로 짤 때 효율적으로 짜고 관리할 수 있는 코드와 그렇지 못한 코드를 비교해 Awesome, Not Awesome 등의 타이틀이 달려 있어 코드 짜는 팁을 배울 수도 있습니다.

편집에서 좀 아쉬운 점이 있었습니다. 코드 파트에서 주석과 본 코드가 같은 폰트로 되어 있어서 가독성이 좀 떨어진다는 문제점이 있었습니다. 해당 파트가 어떤 언어 구형되는지 알려주는 뱃지가 존재하는데 몇몇 곳에서 오표기가 있었습니다.

위의 아쉬운 부분을 제외하고선 알찬 구성으로 필요한 기법만 찾아 볼 수 있게 인덱싱이 잘어 되어 있어서 레퍼런스 북으로 두고 봐도 괜찮을 듯합니다. 이 책은 데이터를 다루어야 하지만 자신이 없는 모든 분께 추천합니다. 다양한 기법을 소개하고 있고 데이터 형, 카테리형 -> 수치형 등 필요에 따른 핸들링 방법이 많아 한권 쯤 두고 볼 책입니다.

추천 대상: 데이터를 다뤄야 하는 IT인들에게
난이도: 중하

나는 리뷰어다 2020의 활동으로 작성 된 리뷰입니다