EventJoin us at AWS re:Invent 2024! Learn how to use MongoDB for AI use cases. Learn more >>

생성형 AI란?

2023년 한 해 동안, 세계는 생성형 AI의 부상이라는 혁신적인 변화를 겪었습니다. AI로 콘텐츠를 생성하는 혁신적인 애플리케이션이 등장하며 생성형 AI가 모든 산업 분야, 사회의 모든 부문에 근본적인 영향을 미칠 것이라는 분위기가 조성되었습니다.

조직들은 생성형 AI의 잠재력을 확보하기 위해 경쟁을 펼치고 있습니다. 여러분의 조직도 여기에 포함된다면 가장 먼저 해야 할 일은 생성형 AI의 복잡성을 이해하는 것입니다. 방향을 잘 설정할 수 있도록 이 글에서는 다음과 같은 주요 질문을 살펴보도록 하겠습니다.

위 질문에 대한 답변을 먼저 살펴본 후 MongoDB가 생성형 AI 기반 애플리케이션을 구축하려는 조직에 어떤 도움이 되는지 살펴보겠습니다.

그럼, 기본부터 시작해봅시다.

생성형 AI란 무엇이고, 어떻게 작동하나?

생성형 AI는 인공지능의 한 분야로, 텍스트, 시각 예술, 음악, 소프트웨어 코드 등 새롭고 고유한 콘텐츠를 생성하는 데 중점을 둡니다. 머신 러닝을 사용해 과거 데이터를 분석하고 패턴이나 추세를 파악해 예측하는 예측형 AI(또는 분석형 AI)와는 달리 생성형 AI는 단순히 분석하고 예측하는 수준을 넘어 새로운 것을 창조합니다.

예를 들어, 수백만 장의 그림, 예술가에 관한 데이터를 학습한 예측형 AI 도구가 있다고 가정해 보겠습니다. 예측형 AI에 이전에 본 적 없는 그림을 제공하면 예측형 AI가 그림을 그린 예술가가 누구인지 알아낼 수 있습니다. 하지만 생성형 AI 시스템의 경우 이 예술가의 스타일로 새로운 그림을 생성할 수 있습니다.

'몬드리안 화풍의 컴퓨터 이미지'라는 프롬프트를 DALL-E에 입력한 후 AI가 생성한 이미지

'몬드리안 화풍의 컴퓨터 이미지'라는 프롬프트를 DALL-E에 입력한 후 AI가 생성한 이미지

생성형 AI는 보통 인간의 지능과 창의성을 모방하도록 설계됩니다. 그래서 생성된 콘텐츠는 문맥적으로 적절하고 일관성이 있습니다. 완전히 새로운 콘텐츠는 인간이 하는 사고, 표현의 패턴과 유사합니다. 시각적 요소와 AI 예술은 인간이 만든 콘텐츠와 구별하기 어려울 수 있습니다. 생성형 AI 도구로 만든 결과물은 텍스트일 수도, 음성일 수도 있습니다. 어떠한 유형이 됐든 생성형 AI는 친숙하면서도 독창적이고, 혁신적인 결과물을 만들어 냅니다.

생성형 AI 기능은 추론을 통해 문맥적으로 적절한 콘텐츠를 생성합니다. 따라서 전략 계획과 예측, 문제 해결, 가정 분석 등의 비즈니스 업무에도 생성형 AI 기능을 적용할 수 있습니다.

생성형 AI 모델의 유형

AI 모델은 머신 러닝을 사용해 데이터에서 패턴을 식별해 예측을 하거나 원본 데이터의 구조와 스타일을 모방한 새로운 데이터를 생성할 수 있도록 하는 AI 알고리즘의 집합입니다. AI 분야에는 다양한 유형의 모델이 존재합니다. 그리고 현재 생성형 AI 분야에서 가장 잘 알려진 것은 파운데이션 모델입니다.

파운데이션 모델은 방대한 양의 데이터로 사전 학습됩니다. 이 모델은 특수한 작업에 맞게 조정할 수 있는 '기반' 역할을 합니다. 이러한 특성 덕분에 파운데이션 모델은 매우 다양한 작업에 활용이 가능합니다. 파운데이션 모델의 예로는 거대 언어 모델(LLM)을 들 수 있습니다. OpenAI의 GPT('Generative Pre-trained Transformer'의 약자)는 인간의 언어로 실행되도록 설계된 거대 언어 모델입니다. 거대 언어 모델은 자연어 처리에 중점을 두며 질의응답, 챗봇, 전사, 번역 등의 대화형 작업을 수행할 수 있습니다.

텍스트가 아닌 콘텐츠에 중점을 둔 다른 유형의 파운데이션 모델도 있습니다. 여기에는 Flamingo 나 OpenAI의 DALL-E처럼 이미지를 생성하는 시각적 파운데이션 모델과 UniAudio 나 LLark 같은 오디오 파운데이션 모델이 포함됩니다.

검색 증강 생성(RAG)이란?

LLM이 사용 가능한 정보는 LLM이 가장 최근에 학습한 범위 이내로만 제한됩니다. 따라서 마지막 학습 이후에 발생한 이벤트나 업데이트된 내용은 알 수가 없습니다. 그렇다면 새로운 데이터까지 고려할 수 있게 하려면 LLM을 어떻게 활용해야 할까요?

한 가지 방법은 새로운 데이터로 생성형 모델을 재학습시키거나 미세 조정하는 것입니다. 하지만 이 작업에는 많은 시간과 자료가 필요할 수 있습니다. 더 나은 방법은 검색 증강 생성(RAG)을 사용하는 것입니다. RAG는 LLM이 콘텐츠 생성 과정 중에 외부 정보를 실시간으로 가져올 수 있도록 지원합니다. RAG를 사용하면 생성형 AI 시스템이 실시간으로 정보 데이터베이스를 참조해 필요한 지식이 원래 학습에 사용된 데이터에 포함되어 있지 않더라도 보다 정확하고, 다양한 정보에 기반하고, 문맥적으로 적절한 결과물을 생성합니다.

하지만 거대한 데이터 말뭉치에서 의미상으로 유사한 관련 정보를 효율적으로 검색하기 위해서는 고차원 공간에서 데이터를 수치로 표현하는 벡터 임베딩을 활용해야 합니다. 이러한 임베딩을 저장하고 검색하는 최적의 방법은 벡터 데이터베이스를 사용하는 것입니다.

사진 제공: Unsplash(Alina Grubnyak)

사진 출처 Alina Grubnyak on Unsplash

RAG는 거대 언어 모델이 최신 정보를 반영하고 고품질 콘텐츠를 생성하는 능력을 확장해줍니다. 이 글 에서 발췌한 인용문은 RAG를 잘 요약해 설명합니다.

RAG는 LLM이 학습하지 않은 지식의 빈틈을 메워주고, 질문에 대한 답을 제공하는 작업을 '오픈북 시험'으로 변환한다. 이는 제한이 없는 개방형 질문에 대한 답을 제공하는 작업보다 더 쉽고, 덜 복잡하다.

AI 분야에서 생성형 AI의 중요성

콘텐츠 제작 분야에서 생성형 AI의 역할은 AI에 혁신적인 잠재력을 더해줍니다. 생성형 AI 모델은 엔터테인먼트에서부터 의료까지, 모든 산업에 적용할 수 있습니다. AI 연구와 AI 기술의 혁신은 생성형 AI 모델의 기능과 애플리케이션의 역량을 지속적으로 확장하고 있습니다. 생성형 AI 기능은 머지않아 현대적인 AI 도구의 필수가 될 것입니다.

GPT에 Stable Diffusion과 같은 확산형 모델을 결합해 이미지 생성에 생성형 AI를 사용하는 것도 가능해졌습니다. 그 결과, 예술가가 생성형 AI를 사용해 실제 이미지와 거의 구분할 수 없는 사실적인 이미지를 만들어내는 등 AI 예술 분야가 거대한 시장으로 성장했습니다.

마케팅 담당자는 생성형 AI를 사용해 할인 이벤트에 관한 180자 트윗을 만들고, 디자이너는 생성형 AI를 사용해 새로운 제품 디자인을 만듭니다. 제약 회사에서도 생성형 AI를 사용해 신약 개발을 지원하고 있습니다.

책장에 책들이 꽂혀있는 이미지.

사진 제공: CHUTTERSNAP on Unsplash

생성형 AI에서 데이터의 역할

생성형 AI 시스템을 비롯한 모든 AI 시스템의 효과와 용도는 모델 학습에 사용되는 데이터의 품질, 양, 다양성에 따라 달라집니다. 아래에서 데이터와 생성형 AI 모델 간의 관계에서 중요한 역할을 하는 몇 가지 주요 측면을 살펴보도록 하겠습니다.

학습 데이터

생성형 AI 모델은 방대한 양의 데이터세트를 기준으로 학습합니다. 텍스트용으로 설계된 모델은 수십억 개의 기사로 학습시킬 수 있고, 이미지용으로 설계된 모델은 수백만 개의 그림으로 학습시킬 수 있습니다. 대형 언어 모델이 일관되고 문맥적으로 적절한 콘텐츠를 생성할 수 있으려면 방대한 양의 머신 러닝 학습 데이터가 필요합니다. 데이터가 더 다양하고 포괄적일수록 모델이 광범위한 콘텐츠를 이해하고 생성하는 능력이 향상됩니다.

일반적으로 데이터가 많을수록 모델 출력의 품질이 향상됩니다. 더 큰 데이터세트를 통해 생성형 AI 모델은 더 미묘한 패턴을 식별하여 더 정확하고 세밀한 결과를 얻을 수 있습니다. 그러나 데이터의 품질도 매우 중요합니다. 때로는 소규모의 고품질 데이터세트가 더 크고 관련성이 낮은 데이터세트의 성과를 능가할 수 있습니다.

가공되지 않고 복잡한 데이터

미가공 데이터, 특히 복잡하고 구조화되지 않은 데이터는 학습에 사용하기 전에 데이터 파이프라인의 초기 단계에서 전처리가 필요할 수 있습니다. 이 단계는 데이터의 유효성을 검사해 데이터가 대표성이 있고 편견이 없는지 확인하는 단계이기도 합니다. 이 유효성 검사 단계는 왜곡되거나 편향된 출력을 방지하는 데 매우 중요합니다.

레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터의 비교

레이블이 지정된 데이터는 각 데이터 포인트에 대한 특정 정보(예: 이미지와 함께 제공되는 텍스트 설명)를 제공하는 반면, 레이블이 지정되지 않은 데이터에는 이와 같은 주석이 포함되지 않습니다. 하지만 생성형 모델은 대부분 고유한 구조와 패턴을 파악해 콘텐츠를 생성하는 방법을 학습할 수 있기 때문에 레이블이 지정되지 않은 데이터로도 학습이 가능합니다.

독점 데이터

데이터 중에는 고객 주문 내역, 직원 성과 지표, 비즈니스 프로세스 등 특정 조직에만 관련된 고유한 데이터도 있습니다. 많은 기업이 이러한 데이터를 수집하고 익명화를 통해 민감한 PII나 PHI가 다운스트림으로 유출되는 것을 방지한 후 전통적인 방식의 데이터 분석을 수행합니다. 이러한 데이터에는 생성형 모델을 학습시킬 때 사용할 경우 훨씬 더 심층적인 마이닝이 가능한 정보가 풍부하게 포함되어 있습니다. 이러한 데이터를 사용하면 결과물을 비즈니스의 요구 사항과 특성에 맞게 조정할 수 있습니다.

RAG에서 데이터의 역할

위에서 언급했듯이 RAG는 LLM의 성능과 실시간 데이터 검색을 함께 활용합니다. RAG를 사용하면 더 이상 사전 학습된 데이터에만 의존하지 않아도 되며, 외부 데이터베이스에서 관련 정보를 시기적절하게 가져올 수 있습니다. 그러면 생성형 모델이 최신 정보를 반영해 콘텐츠를 생성하기 때문에 정확성이 높아집니다.

독점 데이터로 생성형 AI 모델을 보강하는 방법

프롬프트 엔지니어링은 생성형 모델을 사용할 때 모델에 가이드를 제공하기 위해 구체적인 입력 쿼리나 명령을 만들어 모델이 생성하는 결과물이나 답변을 더 세세하게 조정하는 기술입니다. RAG를 사용하면 독점 데이터로 프롬프트를 확장해 AI 모델이 기업 데이터를 반영해 적절하고 정확한 응답을 생성할 수 있도록 할 수 있습니다. 또한, 독점 데이터를 사용해 LLM을 다시 학습시키거나 세세하게 조정하는 리소스 집약적 방식은 시간과 자원이 많이 들기 때문에 이 방식이 선호됩니다.

해결 과제 및 고려 사항

물론 생성형 AI로 작업하는 데 어려움이 없는 것은 아닙니다. 조직에서 생성형 AI의 잠재력을 활용하려는 경우 다음과 같은 주요 문제를 염두에 두어야 합니다.

데이터 전문성과 대규모 컴퓨팅 성능의 필요성

생성형 모델에는 많은 양의 리소스가 필요합니다. 먼저, 숙련된 데이터 과학자와 엔지니어의 전문 지식이 필요합니다. 데이터 조직을 제외한 대부분의 기업은 LLM을 학습시키거나 세세하게 조정하는 데 필요한 전문 기술을 갖춘 팀을 보유하고 있지 않습니다.

컴퓨팅 리소스의 경우, 방대한 양의 데이터로 모델을 학습시키는 데는 몇 주에서 몇 달이 걸릴 수 있습니다. 이는 강력한 성능의 GPU나 TPU를 사용하는 경우에도 마찬가지입니다. LLM을 세세하게 조정하는 데는 백지상태에서 학습을 시작할 때처럼 강력한 컴퓨팅 성능이 필요하지 않을 수 있지만, 여전히 상당한 리소스가 필요합니다.

방대한 양의 리소스를 학습시켜야 하고 세세한 조정이 필요한 LLM의 특성상, RAG는 기존 데이터가 사전 학습된 LLM에 최신 데이터와 독점 데이터를 통합할 때 사용할 수 있는 매력적인 대안 기술입니다.

윤리적 고려 사항

생성형 AI의 부상은 개발 및 사용에 수반되는 윤리적 고려 사항에 대한 격렬한 논쟁도 불러일으킨 것은 사실입니다. 생성형 AI 애플리케이션이 점점 더 주류가 되고 대중이 쉽게 접근할 수 있게 됨에 따라 다음과 같은 사항의 해결 방법에 대한 논의가 집중되었습니다.

  • 공평하고 편견 없는 모델 보장
  • 모델 중독 또는 모델 변조와 같은 공격으로부터 보호
  • 허위 정보 확산 방지
  • 생성형 AI의 오용 방지(딥페이크 또는 오해의 소지가 있는 정보 생성)
  • 귀속관계 보존
  • 실제 사람이 아닌 생성형 AI 챗봇과 상호 작용한다는 사실을 최종 사용자가 알 수 있도록 하는 투명성 제공
다른 AI 도구 및 시스템과의 비교

생성형 AI 도구에 대한 소문과 참신함은 AI 분야가 제공하는 더 광범위한 도구와 시스템의 가치를 퇴색시켰습니다. 많은 사람이 생성형 AI가 모든 문제를 해결할 수 있는 AI 도구라고 오해합니다. 새로운 콘텐츠를 만들 때는 생성형 AI가 유용하지만, 다른 비즈니스 작업에는 다른 AI 도구가 더 적합할 수 있습니다. 기업이 사용하는 다른 도구와 마찬가지로 생성형 AI의 이점은 다른 도구의 이점과 비교해 평가해야 합니다.

RAG 관련 해결 과제

거대 언어 모델을 활용하는 RAG 접근 방식은 강력하지만 해결해야 할 과제도 있습니다.

  • 벡터 데이터베이스 및 검색 기술 선택: 궁극적으로 RAG 접근 방식의 효율성은 관련 데이터를 신속하게 검색할 수 있는 능력에 달려 있습니다. 따라서 벡터 데이터베이스 및 검색 기술을 선택하는 것은 RAG 성능에 영향을 미치는 중요한 결정입니다.
  • 데이터 일관성: RAG는 실시간으로 데이터를 가져오기 때문에 벡터 데이터베이스를 최신 상태로 일관성 있게 유지해야 합니다.
  • 통합의 복잡성: RAG와 LLM을 통합하면 시스템이 복잡해집니다. RAG로 생성형 AI를 효과적으로 구현하려면 전문 지식이 필요할 수 있습니다.

비록 위와 같은 해결 과제가 있기는 하지만, RAG는 조직이 운영 데이터와 애플리케이션 데이터를 활용해 풍부한 인사이트를 얻고 중요한 비즈니스 의사 결정을 내릴 수 있도록 지원하는 간단하고 강력한 방법을 제공합니다.

생성형 AI 기반 앱을 위한 MongoDB Atlas

당사는 생성형 AI의 혁신적인 잠재력을 다루었으며, RAG와 함께 제공되는 실시간 데이터의 강력한 향상을 확인했습니다. 이러한 기술을 통합하려면 생성형 AI 기반 애플리케이션에 맞게 조정된 기능 제품군을 제공하는 유연한 데이터 플랫폼이 필요합니다. 생성형 AI와 RAG의 세계로 모험을 떠나는 기업을 위해 MongoDB Atlas 게임 체인저가 되어 드리겠습니다.

MongoDB Atlas의 핵심 기능은 다음과 같습니다.

  • 네이티브 벡터 검색 기능: 네이티브 벡터 스토리지 및 검색 기능이 MongoDB Atlas에 내장되어 있어 벡터를 처리하기 위한 추가 데이터베이스 없이도 RAG에 대한 빠르고 효율적인 데이터 검색이 가능합니다.
  • 통합 API 및 유연한 문서 모델: MongoDB Atlas의 통합 API를 통해 개발자는 벡터 검색을 구조화된 검색 또는 텍스트 검색과 같은 다른 쿼리 기능과 결합하여 활용할 수 있습니다. 이는 MongoDB의 문서 데이터 모델과 결합되어 구현에 놀라운 유연성을 제공합니다.
  • 확장성, 안정성, 보안: MongoDB Atlas는 사용자의 비즈니스와 데이터가 원활하게 성장할 수 있는 수평적 확장을 제공합니다. 내결함성과 간단한 수평 및 수직 확장 기능을 갖춘 MongoDB Atlas는 워크로드 요구 사항에 관계없이 중단 없는 서비스를 보장합니다. 물론 MongoDB는 쿼리 가능한 업계 최고의 데이터 암호화를 통해 보안을 최우선으로 처리합니다.
생성형 AI 기반 앱을 지원하기 위해 여러 작업을 수행하는 MongoDB Atlas의 이미지.

MongoDB Atlas는 RAG 기반 LLM 시스템의 구현을 간소화하는 데 중추적인 역할을 합니다. MongoDB는 생성형 AI 데이터 서비스를 처리함으로써 엔터프라이즈급 생성형 AI 기반 앱 구축 프로세스를 간소화합니다. 통합하려는 데이터가 독점 데이터이든 최신 이벤트 데이터이든 관계없이 MongoDB를 사용하면 RAG 접근 방식을 구현할 수 있습니다. 1,500명의 응답자를 대상으로 한 최근 AI 현황 설문조사에서 MongoDB Atlas Vector Search는 모든 벡터 솔루션 중에서 가장 높은 개발자 만족도 를 차지했습니다.

결론

인공지능에 속하는 생성형 AI는 방대한 양의 기존 콘텐츠를 기반으로 학습한 모델을 사용하여 새롭고 독특한 콘텐츠를 생성하며 현대 기술의 혁신적인 도약을 대표합니다. 하지만 생성형 AI가 인간의 지능과 창의성을 모방한다는 약속을 이행하려면 대량의 고품질 데이터를 기반으로 하는 학습이 필요합니다. 생성형 AI 모델의 효과는 학습 데이터의 품질, 수량, 다양성에 따라 달라집니다.

LLM에서 사용할 수 있는 데이터는 가장 최근에 해당 LLM에 학습시킨 데이터까지로 제한됩니다. 모델을 다시 학습시키고, 세세한 조정을 한다고 해서 최신 데이터를 통합할 수는 없습니다. 이러한 프로세스가 완료되는 순간 데이터는 더 이상 최신 상태가 아니기 때문입니다. 신속한 엔지니어링 작업의 일환으로 벡터 데이터베이스에서 최신 데이터를 검색하는 RAG가 그 해결책이 될 수 있습니다. RAG는 리소스 집약적 학습이나 세세한 조정 없이도 조직의 독점 정보를 포함할 수 있는 최신 관련 정보에 액세스할 수 있는 기능을 제공해 LLM의 성능을 향상시켜줍니다.

이를 실현하기 위해 많은 기업이 MongoDB Atlas를 사용하고 있습니다. 네이티브 벡터 검색 기능은 통합 API, 유연한 문서 모델과 결합해 독점 데이터를 가져오는 RAG 접근 방식으로, LLM을 개선하려는 기업에 매력적인 옵션입니다.

MongoDB Atlas 시작하기

무료 체험판 다운로드