#LLM
#AI
#LLMOps
생성형 AI와 LLM의 등장은 새로운 데이터 시대의 탄생을 알리면서 새로운 데이터 엔지니어링 사이클이 생성되었습니다. 생성형 AI 및 LLM 기반 앱을 개발하고 관리해야 하는 과제를 해결하기 위한 MLOps의 발전으로 생성형 AI 운영과 대규모 언어모델 운영 LLMOps 라는 새롭고 전문화된 영역이 등장하게 되었죠.
LLMOps, 왜 중요할까요? 기업에서 LLM을 도입하고 활용하려면 운영을 위한 사이클을 관리하는 LLMOps가 중요한데요.
기업은 기밀 정보 유출 위험이 있어 API 기반서비스는 실질적으로 사용하기 힘들다는거 아시죠? 그래서 자체 로컬 서버나 클라우드에 오픈 소스로 제공되는 LLM을 설치하고 자체 데이터로 추가 학습 진행을 고려한다고 해요. 기업 내에서는 수십명부터 수만명까지 다양한 구성원들이 LLM을 활용하는데요. 때문에 LLM을 초기 설정하는 것부터 구성원들이 정보를 요청하고 응답을 받는 등 모든 과정을 효과적으로 관리하기 위해서는 LLM의 교육, 배포, 그리고 재학습 과정을 체계적으로 하는 것이 필수적이에요. (*출처 : SUPERB AI)
그렇다면 LLMOps와 MLOps,어떤 것을 적용해야 할까요? 처음부터 새로 생성하거나 트레이닝하는 기존 ML 모델과 달리 대규모 언어모델은 세부적인 조정을 통해 더 적은 데이터와 컴퓨팅 리소스로도 특정 애플리케이션의 성능을 극대화 할 수 있어요.
그래서 오늘은 LLMOps라는 이 새롭고 전문화 된 영역에 대해서 현 쿠팡 데이터 엔지니어 엄현호님과 이야기 나눠볼게요.
Q. 먼저 이력 및 프로젝트 참여, 저서 등 간단 소개 부탁 드립니다.
안녕하세요. 현재 쿠팡에서 검색 데이터, 머신러닝 소스 데이터의 파이프라인 유지 보수 및 최적화 작업을 담당하는 데이터 엔지니어로 일하고 있는 4년차 개발자 엄현호 라고 합니다. 패스트캠퍼스의 Spark & Elastic Stack을 활용한 데이터 분산 처리, 실시간 빅데이터 처리를 위한 Spark & Flink & Kafka 강의에서 Spark, Kafka 파트의 강의를 진행한 경험이 있습니다.
Q. 이번에는 패스트캠퍼스에서 LLMOps 실습 강의를 진행하시는 것으로 알고 있는데요. 어떤 것들을 배울 수 있을까요?
데이터 엔지니어링과 관련한 기술들에는 어떤 것들이 있는지, 각 프레임워크의 기초적인 사용법에 대해 습득하실 수 있습니다. 그리고 현재 핫한 LLM 등의 ML이 실무에서 어떤 방식으로 운영(ML 모델 학습 뿐만 아니라, 만들어진 ML 모델을 어떻게 배포하는지, ML 모델의 성능 등 운영 지표를 모니터링하는지, ML 모델의 소스 데이터 파이프라인들을 어떻게 구축 및 운영해야 하는지 등)되고 있는지에 대한 큰 그림을 알아갈 수 있습니다.
Q. 강의 커리큘럼 내 주제와 내용들은 어떤 기준으로 잡으셨나요?
LLM등 ML 쪽과 관련한 데이터 엔지니어링 분야로 나아가길 희망하시는 취업준비생, 신입 개발자 분들을 강의의 주요 타겟으로 생각하였습니다. 그렇기 때문에 각 기술들에 대해 심도 깊게 공부하기 보다는 LLM등 ML과 관련한 데이터 엔지니어링에는 어떤 기술들이 사용되고 필요한지에 대해 개괄적으로 설명을 드리고자 합니다. 그러므로 여러 기술들에 대해 소개하고 각각의 다소 깊이가 얕을 수는 있지만, 각각의 핵심적인 동작 원리에 대해서는 실무 레벨에서 부족함 없이 설명 드릴 예정입니다.
Q. 해당 강의 기술들이 실무에서 어떻게 활용되고 있나요?
많은 회사에서 데이터 파이프라인을 구축하기 위해 사용합니다. 다른 기술 스택을 사용하더라도 근본 원리는 대략 비슷하다고 생각합니다.
Q. 강의를 수강한 후 어떤 것들을 얻어갈 수 있을까요? 또는 어떻게 달라질 수 있을까요?
데이터 엔지니어링 분야로 준비하는 취업 준비생 분들의 경우, 웹/앱의 프론트엔드, 백엔드 분야와 대비해서는 실무에서 어떤 문제들을 풀어가고 업무를 해야 하는지 감을 잡기 어려울 수 있습니다. 몇 가지 이유를 들자면, 데이터 엔지니어링 분야의 경우 웹, 앱 분야와 대비해서 강의나 자료가 많지 않고, 실무에 대해 잘 이해하기 위해서는 대용량의 데이터, 준-실시간으로 변하는 데이터들에 대해 다룰 수 있으면 좋은데, 이 데이터들을 개인이 구하기는 어렵기 때문입니다.
수강생 분들께서 이 강의를 수강한 후에는 적어도 실무에서 데이터 엔지니어링이 어떤 문제를 풀기 위해 존재하는지, 어떤 식으로 운영되는 지에 대한 큰 그림을 그릴 수 있게 될 거라 생각합니다. 또한 데이터 엔지니어링과 관련한 각 기술들에 대해 스스로 심도깊게 공부할 수 있도록 하는 기초를 다지실 수 있습니다. 혹시나 실무에서 접하시게 될 기술 스택이 강의에서 소개한 기술과 다르다고 해도, 그 기술의 근본 원리는 비슷하기 때문에 기초를 다지는데에 도움이 될 것이라 기대합니다.
Q. 수업에서 배운 내용으로 현업에서 어떻게 활용할 수 있을까요?
현업에서 데이터 엔지니어링 관련 기술을 도입해야할 때나 개선점이 필요할 때 의사 결정에 도움이 될 수 있다 생각합니다. 각각의 프레임워크의 기본 사용법과 원리에 대해 알아가고자 하실 때도 도움이 될 수 있을 것으로 보입니다.
‘한 번에 끝내는 LLMOps & 데이터 파이프라인 구축’ 강의에서 더 자세한 내용을 확인 해 보세요.
▶강의 보러가기 : https://buly.kr/8pfNfK1