머신 러닝에서의 워크플로우
머신 러닝 워크플로우 수집 (Acquisition) 머신 러닝을 위해서는 기계에 학습시켜야 할 데이터가 필요하다. 가장 기본적이지만 가장 핵심적인 부분이기도 하다. 점검 및 탐색(Inspection and exploration) 통칭 EDA라고 한다. 독립 변수, 종속 변수, 변수 유형, 변수의 데이터 타입 등을 점검하는 것이다. 말인즉슨, matplotlib을 굉장히 열심히 사용하여야 한다는 뜻이기도 하다. 전처리 및 정제(Preprocessing and Cleaning) 문자 그대로 데이터 전처리이다. 결측치에 대한 imputing을 하는 것도 전처리이고, 토큰화, 정제, 정규화, 불용어 제거 등도 다 전처리이다....