요즘 주식에 관심없는 사람은 거의 없다고 볼 수 있는데요, 주식을 시작하신 분들이라면 누가 미래에서 주가를 예측해줬으면…하는 마음 모두 공감하실겁니다.
이렇게 미래를 예측하여 주식 가격을 예측할 수 있는 방법도 바로 ‘시계열 분석’ 중 하나인 것 알고 계셨나요?
이번 아티클에서는 이렇게 다양한 분야에서 활용되고 있는 시계열 데이터 분석에 관하여 신한금융그룹 데이터사이언티스트 최민정 강사님이 전해주신 인사이트를 담아보았습니다.
Q. 먼저 간단히 강사님 소개 부탁드립니다.
안녕하세요, 패스트캠퍼스 ‘딥러닝/머신러닝을 활용한 시계열 데이터 분석’ 강의를 맡게 된 데이터 사이언티스트 최민정입니다.
학부 졸업 후 대학원에서는 인공지능 연구실과 계량통계 세부전공을 중심으로 수학했고, 주로 제도권 금융과 핀테크 영역에서 분석가로서의 커리어를 이어나가고 있습니다.
데이터 사이언티스트 커리어를 생각하고 계신 분께 저의 시행착오와 실무 경력이 조금이나마 도움이 되었으면 좋겠다는 마음으로 강의를 제작했습니다.
Q. 신한금융그룹 데이터사이언티스트로서 구체적으로 어떤 업무를 담당하고 계신지 말씀해주실 수 있을까요?
데이터 관점에서 금융을 살펴보면, 크게 자금의 흐름(flow)과 누적(stock)이 발생하는 금융시장, 금융거래, 금융고객의 3가지 영역으로 나눌 수 있습니다.
금융 데이터라 부를 수 있는 범위가 상당히 넓기 때문에 위 세 영역에 걸쳐 다양한 종류의 정형, 비정형 데이터를 다루고 있습니다. 업무상으로 보면 데이터 분석뿐 아니라 현업 니즈에 따라 분석모델의 서빙(serving)을 비롯한 내부 운영 업무도 함께 맡고 있고, 대고객 서비스 개발시에는 데이터 입수부터 필요한 알고리즘 구현과 검증까지 담당하고 있습니다.
Q. 시계열 데이터 분석 결과를 도출해내는 업무 과정에서 가장 까다롭다고 느껴지시는 부분이 있으실까요?
대부분의 기업 데이터는 따로 시계열 분석을 위해 적재, 추출된 데이터가 아니라고 보아야 할 것입니다. 따라서 시계열 분석 목적에 맞게 적절하게 가공해주어야 한다는 것이 추가로 고려해야 할 점인 것 같습니다.
그리고 이 때 발생하는 데이터 분석 환경상의 어려움도 있을 수 있습니다. 예를 들어 시계열 분석을 위하여 데이터에 차원을 추가하면 메모리와 용량을 많이 차지할 수 있어 기존 분석환경에 무리를 주거나 분석모델의 성능이 떨어질 수도 있기 때문입니다.
강사님께서 말씀해주신대로, 실무에서 데이터 분석 환경상의 어려움이 있을 수 있겠군요.
다음으로, 시계열의 개념이 익숙하지 않은 분들은 정확히 시계열 데이터란 무엇인지, 최근 산업에서 어떻게 적용되고 있는지 궁금하실 것 같습니다.
Q. 데이터 중에서도 ‘시계열 데이터’는 무엇이며, 주로 어떤 목적의 데이터 분석에 활용되나요?
시계열 데이터를 특정 데이터의 view로 한정짓기보다 기존의 관측치에 깊이를 더하는 도구로 생각하시면 좋겠습니다.
모든 데이터틑 특정 시점의 snapshot이라고 생각할 때, 변수의 성격에 따라 누적, 추이 집계가 필요할 때가 있습니다.
이 때 관측의 시점과 변화량을 고려하여 대상을 종합적으로 살펴보고자 할 때에 시계열 데이터 분석이 이용됩니다.
Q. 제조업, 커머스 등 다양한 산업군에서도 이제 시계열 예측을 도입하고 있다고 알려져 있는데요, 이렇게 다양한 산업군에서 앞다퉈 시계열을 접목시키고 있는 이유가 무엇이라고 생각하시나요?
첫째, 기존 데이터 분석만으로 인사이트를 발견하는 것에 한계가 있기 때문입니다. 새로운 데이터, 새로운 알고리즘, 새로운 관점을 시도한다면 미처 인지하지 못했던 사실을 확인할 수 있습니다. 이 때 시계열 분석은 흩어져 있던 개별 관측치를 구슬처럼 꿰어 보는데에 도움을 주는 강력한 도구가 될 수 있다고 생각합니다.
둘째, 시계열 분석만이 대응 가능한 비즈니스 니즈가 증가하고 있기 때문입니다. 전통적인 제조업과 금융업뿐 아니라 플랫폼 산업을 예로 들자면, 이전에는 트래킹하지 못했던 물자와 인간의 수송(모빌리티, 음식 배달, 이커머스에서의 물류 등)을 지금은 준실시간으로 기록하고 확인할 수 있게 되었습니다. 새롭게 파생되는 사업 기회에서 분석가는 새로운 분석에 대한 니즈를 요구받게 되었습니다(시간대별 이동수요 예측, 이에 따른 보상 체계 확립과 시간대별 공급 관리, 마일리지별 보험 등).
또 하나의 예로는 컨텐츠 도메인을 들 수 있겠습니다. 사용자가 웹툰, 웹소설, 음악 등을 소비할 때 방문 순서와 소비 순서를 고려한다면 단순 인기도 기반의 추천보다 추천의 품질이 높아질 수 있습니다. 이는 광고나 검색 도메인도 마찬가지입니다.
시장과 고객을 파악하는데에 있어 과거의 방법으로는 접근하지 못한 지식을 만들어낼 수 있다는 점에서 시계열 분석은 앞으로 더욱 중요한 무기가 될 것이라고 생각합니다.
강사님 말씀을 들어보니, 이러한 변화에 맞춰 미래의 데이터 분석가, 데이터 사이언티스트 등을 꿈꾸는 분들이라면 이제 시계열 역량은 필수일 것 같습니다.
Q. 이번에 패스트캠퍼스에서 진행하시는 강의는 기본 시계열을 넘어 딥러닝/머신러닝을 활용한 시계열 데이터 분석에 대해 다루는 걸로 알고 있습니다.
데이터 분석 관련 직무를 준비하는 분들이 단순 시계열 데이터 분석에서 더 나아가 딥러닝/머신러닝을 활용한 시계열 데이터 분석을 공부해야 하는 이유는 무엇일까요?
네, 우선 이번 강의에서는 시계열 분석의 2가지 접근법을 모두 다룰 예정입니다.
하나는 계량통계 분야의 방법론을 차용한 접근법입니다. 관측치에 대한 몇 가지 가정을 전제하기 때문에 상대적으로 강건성(robustness)이 높고, 설명가능성에 강점이 있습니다. 나머지 하나는 딥러닝/머신러닝을 사용한 방법입니다.
상대적으로 복잡한 패턴을 학습하는데에 강하지만 인풋 데이터의 요구 차원이 높을 수 있습니다. 이러한 방법론은 서로 보완적이기 때문에 어느 한가지만 잘한다고 해서 시계열을 다 이해한다고 보기 어렵습니다. 강의에서는 두 가지 방법론을 다룰 예정이며, 이론과 실습을 통해 각 분석과제에 맞는 방법론을 이용할 것입니다.
Q. 추가적으로, 기존의 다른 시계열 강의와는 다른, ‘딥러닝/머신러닝을 활용한 시계열 데이터 분석’ 강의만의 차별점 혹은 특장점이 있을까요?
본 강의에서는 시계열 자료를 중심으로 데이터 분석을 위한 기술로 머신러닝, 딥러닝 기초까지 다루고 있습니다.
시계열 모형을 알기 위해서는 일반적인 비시계열 자료에 쓰이는 통계적 가정을 먼저 짚고 가야 하기 때문에 한번의 수강으로 시계열(종단면)과 일반(횡단면) 데이터 분석까지 익힐 수 있는 좋은 기회가 되실 것입니다.
또한 공공데이터, 학술데이터, 기업데이터와 유사한 형태로 구축한 자체제작 데이터를 이용함으로써 강의 수준에 깊이를 더했습니다.
Q. 특히 이 강의가 어떤 분들에게 도움이 될지, 강의를 통해 수강생분들이 얻어갈 수 있는 역량은 어떤 것들이 있을지 궁금합니다.
데이터 분석에 열의가 있지만 어려운 용어와 프로그래밍 언어의 장벽으로 망설이셨던 분들 포함 강력하게 추천드리며, 본 강의가 현직에서 고급 데이터 사이언티스트로 한단계 도약하시는데에 큰 도움이 되실 것이라 믿습니다.
시계열 데이터 분석을 위한 머신러닝, 딥러닝 기술까지 다루는 강의라는 점에서 예비 데이터 사이언티스트, 데이터 분석가 뿐만 아니라 현직에 계신 분들께도 좋은 커리큘럼인 것 같습니다.
9. 마지막으로 강사님의 강의를 수강하고자 하는 분들 중에는 강사님처럼 데이터 사이언티스트, 혹은 데이터 애널리스트를 꿈꾸는 분들이 많을텐데, 혹시 도움이 될만한 현실조언이 있을까요?
제 경험을 말씀드리자면, 데이터 사이언티스트(DS) 또는 데이터 애널리스트(DA) 직무를 희망하시는 분을 팀에 모실 때 가장 많이 보는 부분이 본인의 과거 프로젝트 수행 경험을 얼마나 설득력 있게 설명하느냐였습니다.
작은 부분이라도 실제 분석을 수행해보고, 이 때 겪으셨던 어려움을 어떻게 극복했는지 공유해주시면 고민의 깊이를 파악함과 동시에 분석가로서 해결능력을 알 수 있었던 것 같습니다.
하나의 tip은 실무 분석가의 고민은 분석에 국한되지 않고 분석 과정의 앞뒤 전반에 걸쳐있다는 점입니다.
요약하자면, (i) 작은 것이라도 좋으니 되도록 프로젝트 경험을 많이 쌓으시고 (ii) 부딪히는 이슈를 직접 해결해보시면서 (iii) 이 때 얻었던 교훈, 대안적인 접근법, 개선책 등이 있었다면 체계적으로 문서화해두시는 것이 도움이 될 것 같습니다.