2022년 11월 chat GPT 등장 이후 그야말로 기업 간 대규모 언어 모델 전쟁이 시작되었다. 글로벌 기업들은 앞다투어 AI 초거대 모델 구축과 서비스에 무한 경쟁을 전개하고 있다. 이러한 거대 언어 모델은 새로운 기회와 가능성을 제시하고 있다. chat gpt를 시작으로 다양한 언어모델이 발표되고 있지만 특정 도메인이나 주제에 대한 질문에 답하거나 텍스트를 생성하는 등의 특정 작업에서는 최적의 성능을 발휘하지 못하는 경우가 빈번하다. 언어 모델의 전쟁이 시작되면서 단연 주목받게 된 분야가 바로 ‘파인 튜닝(Fine-tuning)’이다. 파인 튜닝은 사전 학습된 언어 모델의 매개 변수를 업데이트하는 프로세스를 말한다. 특정 작업이나 도메인에 특화된 추가 학습 데이터를 사용하여 모델을 조정하고, 정확하고 관련성 높은 출력을 생성할 수 있도록 한다. 예를 들어 특정 제품이나 서비스에 대한 고객의 질문에 답변할 수 있는 챗봇을 만들려면 해당 제품이나 서비스에 대한 고객 문의 및 응답 데이터 세트에 대해 모델을 파인 튜닝할 수 있다. 이 프로세스를 통해 모델은 해당 도메인에서 사용되는 언어의 패턴과 뉘앙스를 더 잘 이해하고 보다 관련성 있고 정확한 응답을 생성할 수 있어 더욱 중요성이 커지고 있다.
메타, 마이크로소프트, 구글 등 빅테크 기업들은 저마다 언어 모델을 개발하며 치열한 경쟁을 벌이고 있다. 메타는 ‘라마(LLaMA)’, 구글은 ‘바드’, 마이크로소프트는 ‘코스모스 1’이라는 이름으로 각 회사마다 서로 다른 접근 방식으로 대규모 언어모델을 접근하고 있다.
먼저 메타는 2022년 ‘갤럭티카(Galactica)’라는 대규모 언어모델을 공개했다. 이 모델은 약 4800만 개의 교과서, 강의 노트, 백과사전 등의 데이터로 학습한 모델이다. 갤럭티카는 과학적인 측면에서 강조되고 있다는 특징을 지닌다. 하지만 부정확하다는 지적이 나오면서 서비스를 중단하고 2023년 2월 ‘LLaMA’를 공개하였다. 라마는 텍스트 생성, 수학, 자료 요약 등 많은 가능성을 보여주는 개방형 언어 모델이다. 세계에서 가장 많이 사용하는 언어 20가지의 텍스트를 훈련하면서 사용하였다. 이처럼 메타는 챗봇, 검색 서비스 등 특정 서비스를 출시하는 대시 언어모델 자체를 공개하는 방식을 택하였다.
구글은 ‘람다’라는 언어 모델을 기반으로 채팅 AI를 개발하였다. 람다는 초거대 AI 연구에 활용되는 ‘트랜스포머(Transformer) 계열 심층 신경망을 기반으로 개발이 되었다. 이 언어 모델은 광범위한 주제의 지식을 학습하면서 사람처럼 대화하도록 도와준다. 2021년 Google I/O에서 발표한 언어모델 람다는 챗봇과 비슷한 기능을 지니고 있다. 람다는 대화에 집중해 훈련이 되어 자연스러운 대화를 할 수 있고 구체적인 정보를 포함한 답변이 가능하다. 이 람다를 기반으로 만든 것이 ‘제미나이(GEMINI)’라는 언어 모델이다. ‘바드’라고 불린 인공지능 챗봇은 2024년 2월 제미나이로 통합되면서 AI 생태계를 만들어가고 있다.
마이크로소프트는 오픈 AI와 전략적 협업을 통해 검색엔진 ‘빙(Bing)’을 업그레이드하고 있다. 빙에 오픈 AI의 GPT 3.5 업그레이드 버전인 ‘프로메테우스(Prometheus)’를 장착하였다. 자체적으로도 sLLM 전담팀을 신설해 언어 모델을 개발하고 있다. sLLM은 대규모 언어모델(LLM)에 비해 도입 비용이 적고 연산 작업이 적어 모바일 기기에서도 활용할 수 있다는 특징을 지닌다. MS는 오픈 AI사가 개발한 GPT4와 유사하지만 실행 비용이 저렴한 언어모델을 늘려나가고 있다. 또한 시각과 언어 기능을 갖춘 멀티모달 대형 언어 모델(MLLM) 역시 적극적으로 도입하고 있다. 2023년 3월 코스모스-1을 공개하면서 이미지를 분석하고 질문을 답하고 읽는 멀티모달 모델을 개발하고 있다. 시각과 언어가 결합된 추론을 수행할 수 있는 가능성을 계속하여 탐구해 나가고 있는 단계이다.
2023년 2월 마크 저커버그 메타 CEO는 자신의 SNS 계정을 통해 라마(LLaMA)라는 이름의 인공지능 모델을 발표하였다. 대규모 언어 모델이 텍스트 생성은 물론이고 수학 정리, 단백질 구조 예측까지 한 단계 더 복잡하고 어려운 작업을 처리할 수 있음을 시사하였다. 이로서 대규모 언어모델 간 뜨거운 경쟁이 다시 한번 본격화되었는데 과연 챗 GPT와 LLAMA는 어떤 차별점을 지니고 있을까?
LLAMA는 챗 gpt와 다르게 오픈소스로 공개되었다. 이는 상업적으로 이용이 가능하다는 점이다. 오픈소스의 챗 gpt나 구글의 ‘람다’의 경우 소스 코드가 공개되지 않는다. 상업적으로 사용할 때 역시 비용을 지불해야 한다. 하지만 메타의 경우 무료로 오픈소스 공개 방침을 밝혔다는 점이 두드러진 차별점이다.
매개변수 즉 파라미터는 인간 뇌의 시냅스와 같은 것이다. 라마 2는 다른 LLM에 비해 용량이 적다. 매개변수 규모에 따라 4가지 모델(70억 개, 130억 개, 330억 개, 6500억 개)로 규모를 나눠 사용할 수 있다. 가장 큰 650억 파라미터도 GPT 3.0(1750억 개) 보다 작다. 파라미터가 크면 클수록 GPU 등의 컴퓨팅 파워를 적게 사용한다는 장점이 있다. Llama 2 언어 모델은 OpenAI의 GPT-3.5보다 더 최신 데이터를 제공하여 출력되는 결과물 역시 안전성이 높다는 장점이 있다.
llama 2는 파인 튜닝 프로세스를 대폭 개선하여 chatgpt를 포함한 다른 오픈 소스 모델과 차별화했다. 파인튜닝은 성능과 유용성을 향상하기 위해 특정 작업 및 데이터 세트에 대한 기본 모델을 교육하는 작업이다. llama2의 주요 장점 중 하나는 인간의 선호도에 맞춰 세밀하게 조정되었다는 것이다. chat gpt, bard 등 많은 언어 모델의 경우 파인 튜닝이 어렵거나 부족했다. 이번 llama 2는 광범위한 파인 튜닝을 통해 모델의 유용성과 안전성을 향상했다.
파인튜닝은 딥러닝 모델에 특정한 작업을 효과적으로 수행할 수 있도록 추가 학습을 진행하는 것을 의미한다. 기존 모델의 지식을 기반으로 새로운 작업을 위한 세부 정보를 학습하고 성능을 향상하는 것이다. 이렇게 되면 모델이 특정 작업이나 특정 도메인에 특화된 성능을 보이게 된다. 파인튜닝은 초기 훈련 단계에서 이미 언어의 기본 규칙을 학습한 모델에 특정 데이터셋을 사용해 새로운 지식을 적용하는 것을 목표로 한다.
파인튜닝은 머신러닝 모델이 초기 학습에서 사용된 데이터의 맥락 이해로 결과를 반영한다는 점에서 시작되었다. 만약 초기 학습에서 다루지 않은 특정 도메인의 데이터가 나타난다면 샘플을 이해할 때 어려움이 생기고 오답을 생성할 확률이 높아진다. 예를 들어 의료 분야의 경우 여러 가지 병리 현상을 이해해야 하는데 파인튜닝이 없다면 정확한 질문에 대한 답변 제공이 어렵게 된다. 이렇게 특정 도메인과 목표에 부합하기 위해 파인튜닝을 진행하게 된다.
파인 튜닝은 자연어 처리 분야에서 주로 사용되며, 질의응답, 번역, 문서 분류 등 다양하게 응용할 수 있다. 시간이 갈수록 대규모 언어 모델을 잘 활용하는데 중요한 건 ‘파인 튜닝’이라는 점이 부각되고 있다. 패스트캠퍼스에서는 IT 대기업 AI 엔지니어가 LLaMa 기술을 활용하여 실제 프로젝트 구현부터 파인 튜닝을 하는 방법까지 자세히 안내하여 언어모델은 더욱 고도화 할 수 있다. 대규모 언어모델인 LLaMa의 핵심개념에 대한 학습은 물론이고 실제 파인 튜닝을 하면서 챗봇을 개발하는 실습까지 진행하여 현업에서 충분히 활용할 수 있도록 학습 내용을 구성하고 있다. ChatGPT 와 거대 언어모델에 관심 있는 AI 엔지니어나 NLP 엔지니어 취업을 희망하는 학부생 및 대학원생이라면 개념 정리와 함께 실습을 하여 효율성을 향상시킬 수 있다. 특히 파인 튜닝은 사전 훈련된 모델을 출발점으로 활용하고 작업별 데이터에 맞게 미세 조정함으로써 모델 훈련에 필요한 계산 리소스와 시간을 크게 줄여 개발 프로세스를 더욱 실용적이고 비용 효율적으로 만들 수 있다. 지속적인 학습: 오늘날 빠르게 발전하는 언어 환경에서 파인 튜닝은 지속적인 보완을 해나갈 수 있다. 새로운 데이터를 사용할 수 있게 되거나 시간이 지남에 따라 작업 요구 사항이 변경되면 기존 모델을 파인 튜닝하면서 이 새로운 정보를 통합하고 동적 환경에서 관련성과 효율성을 보장할 수 있어 앞으로 더욱 기대되는 기술이다.