인공지능 기술의 발전으로 LLM과 RAG가 다양한 분야에서 활용되고 있지만, 이들이 내놓는 답변의 신뢰성과 품질이 항상 보장되지는 않습니다. 그렇기에 LLM이 내놓은 답변에 대한 정확한 평가가 필요한데요. LLM과 RAG 평가가 단순히 결과를 확인하는 수준에 머문다면, 모델의 가치를 온전히 실현하기가 어렵기에 평가는 체계적이고 정확한 방식으로 이루어져야 합니다. 

 

하지만 LLM 평가는 일반적인 자연어 처리(NLP)능력, 다양한 주제에 대한 반응, 새로운 문제 상황에서의 적응력 등 더욱 다양한 측면에서 평가되어야 하기 때문에 논문 수준 구현보다 더 실무적인 노하우 및 판단력이 필요한데요. LLM, RAG 평가가 타 NLP, ML 평가에 비해 난이도가 높다보니 평가에 대한 기준이 제대로 안잡혀 있는 경우도 많고, 그냥 주먹구구로 답변만을 평가하는 경우도 많습니다. 조금 과하게 표현하자면 금융 RAG를 평가하는데, “비트코인 어디까지 오를까?” 이런 쓸데없는 질문들을 던져보는 것이지요.

 

 

 

정확한 평가를 위한 그 첫 번째

1. 내 데이터에 맞는 평가 방법 알기

LLM과 RAG의 성능을 제대로 평가하려면 목적에 따른 지표와 평가 기준을 설정하는 것이 중요합니다. 대표적인 8개 평가 목적으로는 번역, 요약, 대화데이터, retrieval, 질의응답, ai safety, reasoning, 비용과 속도가 있는데요. 목적에 따라 평가 목적과 지표가 달라집니다.

 

1) 번역 목적 LLM 평가: 해석의 정확도에 중점을 맞춥니다.(+자연스러움) 성능 평가 중 가장 간단한 평가로, NLP 평가 지표(예: BLEU, ROUGE)로 평가합니다.

2) 요약 목적 LLM 평가: 축약에 중점을 맞추며 텍스트 요약의 간결성과 정확성을 확인합니다. NLP 평가 지표과 LLM as a judge같은 메트릭을 사용합니다.

3) 질의응답 LLM 평가: 질문의 의도에 알맞은 답변 도출에 중점 맞춥니다. Sem-score, NLP 평가 지표, LM 기반 메트릭, LLM as a judge를 사용하여 평가합니다. 평가 결과의 합산법 또한 필요합니다.

4) 대화 데이터에서 LLM 성능 평가: LLM이 이전 대화를 얼마나 잘 기억하는지 장기 기억력에 중점 맞춥니다. 질의응답에 활용된 평가 지표를 그대로 활용하나, 대화형으로 변형한 incremental 메트릭 합산법이 필요합니다.(대화의 맥락과 연속성을 고려) Sem-score, NLP 평가 지표, LM 기반 메트릭, LLM as a judge를 사용합니다.

5) Reasoning 목적 LLM 평가: 정답과 복잡한 문제풀이 과정을 함께 도출해야 하기 때문에 reasoning 단계별 평가하는 방법을 구현하는 데에 집중합니다. 객관식 메트릭, reasoning 단계별 평가법, LLM as a judge를 사용합니다.

6) AI Safety 목적 LLM 평가: 답변에 욕설을 하거나 정치적으로 부적절한 답변을 하지 않는지에 중점을 맞춥니다. LLM as a judge를 사용하여 답변이 윤리적이고 신뢰할 수 있는지 검증합니다.

7) 비용과 속도 평가: 속도를 높이고 비용을 낮추게 하되, 답변의 정확성을 놓치지 않게 하는 데에 중점을 맞추어 평가 지표를 설정해야 합니다. 사용 토큰 수, Time-to-First Token 속도 등을 평가 지표로 사용하여 효율성을 측정합니다.

8) Retrieval 성능 평가: 다양한 메트릭을 한번에 활용하는 것에 중점을 맞춥니다. Rank-aware Retrieval Metric, LLM as a judge, LLM aRank-unaware Retrieval Metrics a judge 등의 지표를 사용하여 평가합니다.

 

 

2. RAG의 퀄리티를 좌우하는 청킹과 파싱

RAG 모델의 성능은 데이터셋의 품질과 직결됩니다. 아무리 좋은 RAG라도 데이터셋이 제대로 구축되지 않으면 정확한 답변을 도출할 수 없는데요. 앤드류 응(Andrew Ng) 교수는 “우수한 데이터 관리와 가공이 인공지능 구축의 80%를 차지한다”라고 했을 만큼 평가의 시작은 데이터셋 제작이며, 비정형 데이터를 텍스트로 뽑아내는 청킹(Chunking)과 파싱(Parsing)은 RAG 3대 요소라고 불릴 만큼 RAG 최적화의 핵심입니다. 이에 LLM/RAG 평가를 진행할 때에는 내 데이터에 알맞게 청킹 & 파싱을 진행하고 있는지 확인도 필요합니다.

 

이중 오늘은 파싱에 대해서만 간단히 얘기해 보자면, 

파싱은 PDF와 파일 안의 글자를 정확히 빼내는 것이 중요한데요. 표 속에 표가 있다든지 복잡한 구조로 이루어져 있는 한국 문서들은 문자를 추출하는 것이 특히 까다롭습니다. 다양한 스택들을 활용하여 문서를 더 정확하게 추출할 수 있지만 대표적인 파싱 도구로는 PDF 라이브러리, OCR, 멀티모달 파서가 있습니다.

 

1) PDF 라이브러리리

PDF 라이브러리는 무료로 사용이 가능합니다. 단, OCR에 비해 정확도는 떨어집니다. PDF Miner, PDFPlumber, PDFPlum2, PyPDF, PymuPDF, Unstructured PDF 등의 스택이 있는데요, 어떤 주제(법률, 의료 등)의 문서를 파싱 하느냐에 따라 정확도가 조금씩 달라집니다. (스택별 자세한 정확도는 Auto RAG팀 velog 참고)

2) OCR 모델

 

OCR은 유로로 사용 가능하며, 복잡한 표 정보까지 파싱이 가능합니다. Llamaindex, Upstage, CLOVA OCR 등이 있습니다.

 

3) 멀티모달 파서

 

멀티모달 파싱도 유료로 사용 가능하며, Llama Parse의 MultiModal을 이용한 파싱 기능을 통해 PDF 속 텍스트와 표뿐만 아니라 복잡한 “이미지” 정보까지 파싱이 가능합니다.

 

 

3. 체계적인 평가를 위한 실무 팁 (강의 소개)

 

LLM/RAG 평가에서 중요한 것은 내 LLM/RAG 목적에 맞는 프레임워크를 활용하는 것입니다. 주먹구구식 접근이 아니라, 상황에 맞는 명확한 지표와 도구를 설정하고 이를 반복적으로 적용해야 개선 방향을 찾을 수 있습니다. 특히, 모델이 제공하는 답변의 정확성, 관련성, 유창성, 일관성, 최신성을 체계적으로 검토하는 것이 필요합니다.

 

오늘은 LLM/RAG 평가에 관련한 8가지 평가 목적부터 파싱의 몇 가지 종류까지 간단히 알아보았는데요.  정확한 답변을 도출하는 데이터셋 제작부터 목적/태스크/도메인에 알맞은 LLM, RAG, agent 평가와 개선까지 더 딥한 학습이 필요한 분에게 아래 강의를 소개하며 글 마치겠습니다. 

내가 만든 RAG 평가하고는 싶은데…

🤔 어떤 평가 지표를 써야 할지도 모르겠고

😔 평가 점수는 나왔는데, 이게 높은 건지 낮은 건지도 모르겠다면?

 

시중의 모든 평가&최적화 방법을 다~ 써봤다는 Auto RAG 제작자가

내 상황별 평가 방법과 RAG별 맞춤 스택 골라드립니다!

 

✅내 RAG에 맞는 평가 방법 학습(8개 CASE)

✅청킹&파싱을 통한 정확한 데이터셋 제작

✅평가 프레임워크 전격 비교

 

내 목적에 딱 맞는 평가 지표를 사용해야

더 정확한 답변을 도출하는 RAG 제작이 가능합니다.

 

국/내/유/일 RAG 평가와 최적화 강의 지금 시작해 보세요🔥

▶강의 보러가기: https://bit.ly/3OSAwTX 

 

끝없이 이어질 인공지능의 이야기
AI:ing에서 당신의 커리어 성장이 시작됩니다.

ALL

IT

AI:ING only

AI Double UP

AI 자격증(AICA)

이벤트