데이터 익명화를 위한 파이프라인, -빅 데이터와 빅브라더-

anonymization

스마트폰을 사용하면서 인터넷에 공유되는 정보의 양은 이전과 비교할 수 없을 정도로 폭발적으로 늘어났습니다. 과거에는 인터넷이 연결된 장소와 단말이 한정적이었지만 이제는 언제 어디서나 접속하고 데이터를 만들어 낼 수 있습니다. 맛집을 검색하고, 사진을 찍고, SNS 공유하고 정말 수 많은 양의 데이터가 실시간으로 쌓이고 있습니다. 기업들은 이 데이터를 기반으로 새로운 직관을 얻고, 연구를 진행하기도 합니다.

데이터가 이렇게 많이 쌓이면서 이 데이터들을 기반으로 데이터의 주인을 추정할 수 있다는 것입니다. 그래서 유럽의 GDPR을 필두로 개인정보 운용에 관한 법률들이 제정이 되고, 그에 맞춰 약관들 변경 받으신 기억들이 있을 것입니다.

데이터는 양날의 검이라 개인 맞춤 서비스를 제공할 수도 있지만 개인을 공격하는 무기로 쓰일 수도 있습니다. 특히 개인 신상이 노출 될 경우 더 큰 문제가 될 수 있습니다. 그래서 이를 방지하기 위해 각 국가와 기관에서는 규정을 만들고 검증하기 위해 노력하고 있습니다.

이 책은 이 과정들을 위해 어떻게 익명화하고, 단계적으로 가명화, 익명화 등 다양한 스펙트럼을 이야기하고 있습니다. 데이터 파이프라이닝에 관한 책이지만 특정한 프로그래밍 언어나 프레임워크를 다루고 있지 않습니다. 책도 160페이지로 얇은 축에 속합니다. 길지 않은 분량이지만 법률과 모델링을 다루고 있어서 결코 쉽게 쓱쓱 넘어가는 책은 아닙니다.

데이터를 다루고 있거나 다루기를 희망하고 있다면 한 번쯤 읽어보기를 권합니다.

한빛미디어 2022 도서 서평단 "나는 리뷰어다"의 일원으로 도서를 제공받아 작성한 리뷰입니다.