사람들이 머신러닝을 시작할 때 가장 두려워 하는 점 중 하나는
‘수학적, 통계적 지식이 없는데, 기술을 잘 활용할 수 있을까?’
라는 포인트입니다.
그러나 수학적, 통계적 지식이 부족하다고 해서 머신러닝을 사용할 수 없는 것은 아닙니다. 기본적인 산술연산과 평균, 표준편차, 분포 등에 대한 이해만 있으면 공개되어 있는 알고리즘 사용은 어렵지 않습니다. 오히려 모델링 후 어떻게 모델을 평가, 튜닝하고 실제 사용할 수 있는 수준까지 만드는 작업이 더 중요한 영역일 것입니다. 오늘은 이러한 측면에서 유통사 Data analyst인 Park님과 이야기를 나눠보려고 합니다.
Q1. 안녕하세요. 현재 하고 계신 업무에 관한 간단한 소개 부탁 드립니다.
안녕하세요. 저는 현재 Data Analyst 및 Data Scientist로 활동 중입니다.
주요 업무로는 1) 기업의 핵심 의사결정을 지원하기 위한 데이터 분석 2) 데이터 분석을 통해 기업의 크리티컬한 이슈를 파악하고, 원인 파악 3) ML/DL를 활용한 예측 업무가 있습니다.
전사의 Digital Transformation을 위해서 데이터 분석이라는 기술과 분석 툴을 활용하여 다양한 주제의 프로젝트들을 수행하고 있습니다.
Q2. 다양한 프로젝트들을 진행하신 것으로 알고 있습니다. 가장 기억에 남는 프로젝트에 대해 설명해 주실 수 있을까요?
기억에 남았던 프로젝트는 웨딩 마케팅을 위해서 결혼 예정인 고객을 예측하는 프로젝트가 가장 기억에 남습니다. 예측하려는 타겟 값인 결혼 예정 고객을 정의하는 것 부터가 매우 어려운 문제였으며, 정의된 타겟 자체도 매우 적은 숫자여서 흔히 얘기하는 데이터 비대칭 문제(Class imbalanced problem)를 해결해야하는 상황이였습니다. 예상했던 모델의 성능이 나오지 않아서, 다양한 방법론들(Over-sampling, Dowm-sampling, cost sensitive learning)을 적용해보면서 마지막에는 원하는 성능을 얻을 수 있었습니다.
이렇게 현업에서는 예상하지 못하는 다양한 상황이 발생하며, 이 상황을 어떻게 해결해나가는가에 대한 부분이 중요한 영역이라고 할 수 있을 것 같습니다.
오늘 인터뷰를 함께 할 Data Analyst이자 Data Scientist
Park님에 대한 간단한 소개를 들어보았는데요.
이제 본격적으로 머신러닝 공부에 대해 이야기 나눠보겠습니다.
Q3. 실무에서 머신러닝 데이터 분석을 하기 위해서 가장 필요한 준비는 무엇일까요?
머신러닝을 시작하기 위해서 가장 필요한 것은 2가지가 있을 것 같습니다.
첫번째는 기업에서 머신러닝을 통해서 어떤 문제를 해결하고 성과를 만들어내는지에 대한 이해가 필요할 것이고, 두번째는 머신러닝을 수행하기 위한 기본적인 Skill이 필요할 것 같습니다.
Q4. 앞으로 머신러닝 분야가 얼마나, 어떠한 방향으로 발전할 것이라고 생각하실까요?
기업에서 데이터 분석이라는 주제는 이제 선택이 아닌 필수가 되었습니다. 현업에 있다보면 데이터 관련 조직의 규모도 점점 성장하고 있고, 이제 어느 기업에서나 데이터 관련된 조직이 없는 것을 확인해 볼 수 없습니다. 이런만큼 데이터 조직의 운영하기 위해서는 수 많은 데이터 분석가가 필요합니다. 취업 시장에서의 전망은 밝을 것으로 예상됩니다.
머신러닝 기술 관련된 전망에 대해서는, AutoML / ChatGPT 등 자동으로 모델링을 해주고 코드를 작성해주는 기술들이 점점 등장하고 있는 것 같습니다. 그만큼 머신러닝에 대한 기술이 대중화가 되어가고 있는 것 같습니다.
하지만 실무에서 머신러닝을 활용하여 성과를 창출하는 방법은 사람이 직접수행해야하는 역할이라고 생각합니다. 따라서 데이터 분석가라는 직군은 제 생각에는 앞으로도 유망할 것이라고 조심스럽게 판단해 봅니다.
Q5. 머신러닝을 공부하는데 있어서 이론뿐만 아니라 프로젝트를 직접 해봐야 하는 이유가 있다면, 어떤 이유가 있을까요?
이론뿐인 지식을 현업에서 사용할 수 없습니다. 또한 이론을 마스터하고 실전 프로젝트를 수행하는 것에는 상당한 많은 시간이 소요될 뿐 아니라 효과적인 학습 방법이 아니라고 생각됩니다.
기초적인 이론에 대해서 습득한 후 실무를 수행하는 환경과 동일한 환경에서 실전프로젝트를 수행하시다보면 자연스럽게 머신러닝을 활용한 업무 스킬이 향상될 것 이라고 생각합니다.
Q6. 보통, 사람들이 ‘머신러닝’을 학습할 때 겪는 어려움은 무엇일까요?
사람들이 머신러닝을 시작할 때 가장 두려워하는 부분이, “난 수학적 지식과 통계적 지식이 없는데, 이런 기술들을 활용할 수 있을까?”라는 포인트 인 것 같습니다. 당연히 수학적 지식과 통계적 지식의 기반이 잘 마련되신 분들은 알고리즘의 작동원리를 더 빠르게 이해하고 확장되어서 사용하실 수 있으시겠지만, 수학적 지식과 통계적 지식이 부족하다고 해서 머신러닝을 사용할 수 없는 것은 아닙니다. 기본적인 산술연산과, 평균, 표준편차, 분포 등에 대한 이해만 있으시면 공개되어 있는 알고리즘을 사용하는 것은 어렵지 않습니다.
모델링 후 어떻게 모델을 평가하고 튜닝하고 실제 사용할 수 있는 수준까지 만드는 작업이 사실 더 중요한 영역이라고 할 수 있습니다.
수학적 지식과 통계적 지식보다
모델링 후 어떻게 모델을 평가하고 튜닝하고 실제 사용할 수 있는 수준까지
만드는 작업이 더 중요한 영역이라고 말씀 주셨는데요.
이러한 영역은 어떻게 채우면 될지 이어서 이야기 나눠보도록 하겠습니다.
Q7. 머신러닝을 공부하는데 있어서 가장 중요한 점은 어떤 점이라고 생각하실까요?
머신러닝을 하기위한 Hard Skill이 아닌 우리가 머신러닝을 통해서 어떤 문제를 해결하려고 하는지에 대한 문제정의와 어떤 프로세스를 통해서 해당 성과를 창출할 것인지에 대한 이해가 가장 중요합니다. 이번에 패스트캠퍼스에서 런칭한 강의의 part3에 실무에서 머신러닝으로 문제를 해결하는 과정을 step by step으로 상세하게 담았습니다.
실제 실무에서 수행하는 분석 프로세스를 함께 해결해나가면서 자연스럽게 머신러닝으로 문제를 풀고 성과를 창출하는 일련의 과정을 학습하실 수 있습니다.
Q8. 머신러닝 분야에 대해 강사님께서 다른 사람들보다 더 잘 알려줄 수 있는 이유가 있으시다면, 말씀 부탁 드립니다.
다른 강사님들도 자신만의 강점과 강의 포인트가 있으실 것이라고 생각됩니다.
저는 제조, 금융, 유통 등 다양한 Domain에서 머신러닝 프로젝트를 진행해온 이력이 있습니다.
실무 경력이외에 패스트캠퍼스와 함께 다양한 강의를 기획 및 강의하면서 강사로서 역량도 꾸준하게 키워나가고 있습니다. 이런 장점들을 믹스하여 가장 효과적인 방법으로 학습을 도와드릴 수 있을 것이라고 생각합니다.
Q9. 강의 중에 이것만은 잊지말고 기억하자. 이것만은 꼭 가져가라. 라고 말씀주시고 싶은 내용이 있으실까요?
꽤 많은 양의 강의 분량이므로, 강의를 완강하는데 많은 유혹이 생길 수 도 있을 것 같습니다.
본인께서 지루하지 않고, 수행할 수 있는 분량을 사전에 설정해보시고, 재미있게 지루하지 않게 학습을 같이 진행해 나가면 좋을 것 같습니다.
Q10. 머신러닝 분야와 관련하여 강사님께서 직접 얻으신 인사이트나 수강생들에게 전달해주실 조언의 한마디 부탁 드립니다.
머신러닝 강의는 기존에도 상당히 많았고, 계속해서 생산되고 있는 것 같습니다. 하지만 머신러닝 자체 기술이 중요한 것은 아니라고 생각합니다. 머신러닝은 현업의 문제를 데이터 기반으로 해결하기 위한 하나의 기술에 속할 뿐입니다.
이런 기술을 활용하여 어떻게 현업의 문제를 해결하고 성과를 창출할 것인지에 대한 내용이 더 중요하다고 생각됩니다. 그런 내용을 현업의 전문가분들과 함께 강의에 녹였습니다. 기대해주세요.
★50개 프로젝트로 완벽하게 끝내는 머신러닝 SIGNATURE★
1. 머신러닝 이론에만 치중한 강의 X
-> 머신러닝 기초부터 파이프라인까지 압축한 120시간 커리큘럼
2. 실무와 동떨어진 단편적 예제 X
-> 현업에서 겪게 될 문제 상황을 재구성한 프로젝트 50개
3. 전체 머신러닝 프로세스 학습하기 어려운 구성 X
-> 머신러닝 파이프라인을 그대로 담은 문제 해결 로드맵 10 STEP