Search
Close this search box.

'쁨벙이의 난'과 데이터 환각, 검색 증강 생성(RAG)

#AI

#RAG

2023년, 인터넷의 한 유저가 챗GPT(3.5)와 끝말잇기를 하던 중, ‘이쁨’ 단어 뒤에 챗GPT가 ‘쁨벙이’라는 존재하지 않는 단어를 사용해서 화제가 되었습니다. 이 사건 이후 다른 유저가 챗GPT에 쁨벙이의 뜻을 물었을 때, “‘쁨벙이’는 한국어에서 귀여운, 깜찍한 느낌을 나타내는 말입니다”라고 사실과 다른 말을 해서, 한동안 챗GPT는 ‘쁨벙이’라고 불리며 조롱을 당하기도 했습니다.

 

‘쁨벙이의 난’은 거대 언어모델(LLM)을 기반으로 한 생성형 AI의 데이터 환각(Halluciation) 현상을 보여주는 한 사례입니다. 간단히 말해, 거짓 정보를 사실인 것 처럼 답변하는 것이죠. 질문에 대한 답변을 할 수 없을 때 기존에 학습된 데이터에서 정답일 것 같은 정보를 묶어 ‘뻔뻔하게’ 정답인 것처럼 대답하는 겁니다. 

 

챗GPT가 3.5버전에서 4.0버전으로 업그레이드 되면서, 학습 데이터의 폭이 더 넓어지고 인간 피드백을 통한 강화 학습(RLHF)과 정교한 파인 튜닝을 통해 정확도가 대폭 개선되었지만,  언어 모델이 데이터 학습에 의존하는 한, 이러한 환각 현상을 완전히 없애는 것은 어렵습니다.

 

데이터 환각과 검색 증강 생성(RAG)

 

데이터 환각은 일반적으로 학습 데이터의 편향성, 과적합, 좁은 문맥 이해도 등으로  인해 발생합니다. AI 모델은 학습된 데이터에 크게 의존하기 때문에, 데이터의 환각 및 오류는 잘못된 결과물을 생성할 수 있습니다. 단순한 정보의 오류를 넘어 전혀 사실이 아닌 내용을 짜맞춰서 답변할 경우, 정보를 접하는 사용자의 신뢰를 심각하게 훼손할 수 있습니다. 특히, 정확한 정보와 사실 여부가 중요한 전문 분야에서는 더욱 심각한 문제가 발생할 수 있습니다.

 

이러한 데이터 환각을 줄이는 방법으로, 검색 증강 생성(Retrieval Augmented Generation, 이하 RAG) 기술이 급부상하고 있습니다. RAG는 생성형 AI의 패러다임 전환을 의미합니다. 이름에서 볼 수 있듯이, 생성형 모델과 ‘검색’을 통합하는 것입니다. 전문적인 자료가 있는 외부 데이터베이스에 접근할 수 있는 검색 시스템을 생성 모델과 통합함으로써 RAG는 생성된 모든 콘텐츠가 ‘검증된 데이터’에서 근거를 두고 있음을 보장합니다. RAG는 관련 정보를 검색하고 가져오는 ‘검색 컴포넌트’와 이 정보를 사용하여 일관되고 맥락에 맞는 정확한 답변을 생성하는 ‘생성 컴포넌트’로 구성됩니다.

 

RAG가 데이터 환각을 줄이는 방법

 

RAG는 주로 검증된 문서나 정보를 기반으로 사실에 근거한 답변을 제공하는 기본 프로세스를 통해 데이터 환각을 해결합니다. 신뢰할 수 있는 대규모 소스에서 정보를 검색함으로써 RAG는 ‘믿을 수 있는’ 답변을 만들어냅니다. 명확한 근거를 바탕으로 답변을 실제 정보와 비교하여 지속적으로 확인하는 과정을 거치기 때문에, 데이터 환각의 빈도가 현저히 줄어듭니다.

 

맥락적 관련성(Contextual Relevance)을 향상시키는 것은 RAG의 또 하나의 중요한 핵심입니다. 질문과 직접적으로 관련된 문서에서 데이터를 가져오는 RAG의 능력은 응답의 정확도를 보장할 뿐 만 아니라 사용자의 의도, 요구와 관련성이 높다는 것을 의미합니다. 이러한 관련성은 정확한 정보가 의사 결정에 직접적인 영향을 미칠 수 있는 의료 분야(임상 진단)이나 금융 분야(재무 흐름 예측)과 같은 산업에서 더욱 중요합니다.

 

RAG를 통해 동적 콘텐츠를 조정하면, AI 모델이 최신 정보를 기반으로 응답을 조정할 수 있게 하며, 이는 빠르게 진화하는 분야에서 특히 유용합니다. 또한 구체적인 사실이 담긴 문서에 기반한 답변은 결과물의 수준과 정확성을 향상시켜 기존 AI 모델에서 부족한 신뢰성을 강화합니다.

RAG의 이점 및 생각해볼 점

 

RAG는 데이터 환각 현상을 줄이는 것 외에도 AI 시스템에 긍정적인 영향을 미칩니다. 다양한 분야에 적용 가능한 범용성을 가지며, 광범위하고 다양한 데이터 세트를 사용하는 접근 방식은 훈련 데이터에 내재된 편향을 개선하는 데 도움이 됩니다. 가장 중요한 것은, RAG로 생성된 응답의 정확성과 신뢰성이 향상되어 모든 AI 기반 서비스에서 사용자 신뢰를 높일 수 있다는 점입니다.

 

그러나, RAG를 전면 도입하는 것은 쉽지 않습니다. 생성 기능 외에 검색 기능을 추가함으로써 높은 컴퓨팅 사양과 데이터 리포지토리에 대한 접근성이 필요하기 때문입니다. 특히, 검색 및 생성 과정의 효율성을 유지하면서도 응답 품질을 저하시키지 않는 것이 매우 중요합니다. 따라서 검색과 생성의 균형을 잘 맞추는 것이 필요합니다.



—-



RAG는 현재 시점에서 AI의 데이터 환각 문제에 대처할 수 있는 여러 대안 중에서 가장 주목받고 있는 기술입니다 . AI가 생성하는 콘텐츠를 검증된 정보와 끊임없이 교차 대조함으로써, 응답의 정확성을 높이고 사용자 신뢰도를 강화하는 역할도 합니다. AI가 앞으로 더 우리 삶에서 큰 변화를 만들기 위해서는, 현실과의 차이를 최소화하는 것이 중요합니다. 더 이상 ‘쁨벙이의 난’이 발생하지 않도록 말이죠.

 

Post Views: 610

끝없이 이어질 인공지능의 이야기
AI:ing에서 당신의 커리어 성장이 시작됩니다.

ALL

IT

AI:ING only

AI Double UP

AI 자격증(AICA)

이벤트