[Book]살아 움직이는 머신러닝 파이프라인 설계
머신러닝을 이용한 서비스는 지속적으로 늘어나고 있는 추세입니다. ML
서비스들은 항상 최고의 수준을 유지할 것라는 기댈를 갖게 합니다. 어제보다, 지난 달 보다 더 나은 추천을 해주고, 내가 원하는 목적지를 나보다 빨리 제안하고, 음악을 큐레이션 해주는 등 사용자 경험이 나아지길 기대하며 ML
베이스 서비스를 이용하고, 기업들에서도 제공하고 있습니다.
하지만 서비스의 성능을 지속적으로 발전시키기 위해서는 자동화되고 잘 짜여진 파이프라인이 필요합니다. 이런 파이프라인 없이 엔지니어가 데이터 셋 업데이트부터 모델 서빙까지 다 맡아서 하다보면 인원의 공백이나 교체 등에 의해 퀄리티가 널 뛰게 됩니다.
사실 연구나 학습 단계에서는 이런 파이프라인을 어떻게 구성할지 고민할 필요가 없습니다. 대부분 처음에 주어진 데이터 셋을 이용해 최종결과물까지 뽑아내기 떄문에 이미 완성된 모델을 업데이트하고 새로운 데이터를 집어넣고, 추가 학습을 하고 자동으로 서빙까지 될 필요가 없습니다. 그렇지만 여러분이 여러분의 모델을 이용해 서비스를 준비 중이거나 이미 서비스 중인데 파이프라인 구축에 어려움을 겪고 있다면 한글로 만날 수 있는 최고의 솔루션 중 하나입니다.
이 책은 ML
을 공부하는 모두에게 필요한 책은 아닙니다. 정말 서비스와 자동화를 위한 책이지만 언젠가 서비스를 릴리즈하겠다는 목표로 공부 중인 분들도 충분히 읽어볼 만한 책입니다.
구글의 머신러닝 프레임워크인 Tensorflow
의 프로덕션을 위해 나온 익스텐디드인 TFX
를 이용한 파이프라이닝 구축에 관한 내용을 담고 있습니다. 이름은 Tensorflow Extended
이지만 TF
뿐만 아니라 PyTorch
, Keras
등 다양한 ML
라이브러리에 접목할 수 있는 도구입니다.
서비스 서빙에 익숙하지 않으신 분들은 파이프라이닝 자체가 생소하실 수도 있지만 파이프라인이라는 것은 수도 배관 같은 것 입니다. 최종 사용자는 배관이 어떤식으로 구성되어 있고 작동하는지 모르지만 매일 싱크대, 화장실의 변기, 세면대, 샤워기 등 다양한 상호작용 가능한 것들을 이용해 수도를 문제 없이 사용합니다. 즉 데이터 파이프라이닝은 우리가 ML
학습에 이용하는 데이터를 수집, 검증, 전처리, 학습, 모델 검증 등 모델 서빙에 필요한 과정들 배관을 설치하는 것과 같이 길을 만들어 주는 과정입니다.
이 책은 이 길을 만드는 기초 설계서로 여러분을 기대라고 있습니다. 이 책을 제대로 이용하기 위해서는 이 한가지 이상의 ML
프레임워크를 자유롭게 이용할 수 있는 수준을 권장하고 있고, 모델 오케스트레이션 등 다양한 개념들이 한꺼번에 밀려 들어오기 때문에 준비가 조금은 필요한 책입니다.
추천대상: ML
모델 서비스를 준비 중이거나 자동화 파이프라이닝 구축이 필요한 분들
나는 리뷰어다 2021
의 활동으로 작성 된 리뷰입니다