EventYou’re invited to MongoDB.local London on October 2. Get your early bird discount now! Learn more >>

什麼是生成式人工智慧

於 2023 年間,隨著生成式人工智慧(通常會被簡稱為 GenAI)的興起,我們的世界也迎來了革命性的轉變。在人工智慧生成內容的創新應用方針如雨後春筍般地問世後,人們也開始意識到,生成式人工智慧將大大地改變社會上各行各業的工作概況。各大企業無不正傾力角逐並發掘生成式人工智慧所能帶來的效益。如果您的企業組織亦是如此的話,那麼,您的首要任務便是要瞭解生成式人工智慧的本質。在本篇文章中,我們將為各位解答以下幾個關鍵問題(還有其他諸多項目),以幫助您掌握未來趨勢:

在為各位解答了這些問題以後,我們將會帶您瞭解 MongoDB 是如何幫助各大企業組織構建採用生成式人工智慧技術的應用程式的。

讓我們從基礎知識開始講起吧。

什麼是生成式人工智慧?生成式人工智慧又是如何運作的呢?

生成式人工智慧指的是人工智慧的其中一種子類別,主要著重於創建全新且獨特的資料內容:舉凡文本、圖像藝術、音樂、軟體編碼等諸多。與會透過機器學習來分析歷史數據資料,識別模式/趨勢然後進行預測的預測式(或分析式)人工智慧不同,生成式人工智慧不僅能夠進行分析和預測,還能夠進行所謂的創作

舉例來說:預測式人工智慧會分析數百萬件畫作及其藝術家的數據資料並藉此進行訓練。假如各位隨意提供了一幅該預測式人工智慧尚未接觸過的畫作,預測式人工智慧或許是能夠斷言這幅作品的畫家是誰。而不一樣的是,生成式人工智慧可以藉由分析並學習該藝術家的特有風格來生成一幅全新的畫作。

由 AI 人工智慧所生成的圖片(DALL-E 在收到提示「以畫家蒙德里安的作畫風格來繪製一台電腦」所產出的成果)

由 AI 人工智慧所生成的圖片(DALL-E 在收到提示「以畫家蒙德里安的作畫風格來繪製一台電腦」所產出的成果)

生成式人工智能的設計宗旨大多是要能模擬並重現人類的智慧和創意,這意謂著 AI 人工智慧所生成的內容要與情境相關且有所關聯。全新的產出內容能夠與人類的思維和表達模式相呼應。這些產出內容可能是視覺元素或是 AI 人工智慧所創作的藝術,細膩程度之高讓人幾乎無法分辨哪些是由人類或是 AI 人工智慧所創作的。生成式人工智慧工具的產出內容可以是一段文本或是語音。無論產出格式為何,內容一樣都具有令人感到似曾相似的原創感在,在創新的同時又帶有一定的傳統元素在。生成式人工智慧會藉由推演來創作對應情境資料的內容,生成式人工智慧的功能可以供各位應用在策略規劃、趨勢預測、問題解決與假設分析等等的公司任務上。

生成式人工智慧模型的幾個類型:

AI 人工智慧模型是由一組 AI 人工智慧演算法所組成的,這些演算法會透過機器學習來在數據資料中識別趨勢,從而做出預測或生成模擬原始資料結構和樣式的全新資料。人工智慧領域中有許多不同類型的模型,其中又以生成式人工智慧的「基礎模型」最為著名。

基礎模型會預先透過大量的數據資料進行訓練。該模型會被作為一切的「基礎」,以方便相關人員根據特定任務需求來進行特化訓練。這讓基礎模型具備令人難以置信的多功能性,能夠在接受特定訓練後對應各式各樣的任務。一個基礎模型的例子就是大型語言模型(LLM)。OpenAI 的 GPT(Generative Pre-trained Transformer,意指「生成式預先訓練轉換器」)即是一種用來對應人類語言的大型語言模型。大型語言模型著重於自然語言的處理,可以勝任病執行對話的任務,舉凡:問答、聊天機器人、謄寫與翻譯等任務。

其他類型的基礎模型可能會比較著重於非文本類的內容。舉凡生成圖片的視覺類基礎模型,如 Flamingo 或 OpenAI 的 DALL-E;或是音訊類基礎模型,如 UniAudio 或是 LLark。

什麼是檢索增強生成(RAG) ?

大型語言模型會受限於其所接收訓練過的資訊,因此,大型語言模型是不知小野無法對應在最近一次訓練過後所發生的事件或事態發展的。那麼,我們可以如何以一種將全新資料納入考量的方式來善用大型語言模型呢?一個可行選項是使用全新的數據資料來重新訓練或微調生成式模型。但是,這是一個相當耗時且耗資源的選項。另一個更好的選項便是檢索增強生成(RAG)。「檢索增強生成」讓大型語言模型在生成內容的時候,能夠動態擷取外部的最新即時資訊。有了檢索增強生成的幫助,即便所需的資訊並不在當初訓練資料中,生成式人工智慧系統仍可即時查詢資訊資料庫,從而產出更準確、更全面且與合乎現況的成果,。然而,為了讓檢索增強生成能夠有效地自大量資料中檢索相關、相似的資訊,我們會需要為資料在高維度空間中準備數位代表——向量嵌入。儲存並查詢這些內嵌資料的最佳方式即是採用向量資料庫。

照片出處:Alina Grubnyak 於 Unsplash 所發佈的

照片出處:Alina Grubnyak 於 Unsplash 所發佈的

檢索增強生成了能夠提高大型語言模型的能力,以幫助其在產出高品質內容時,能夠取得最新的資訊並保留自身多用途的能力。這篇文章中的一段話清楚總結了檢索增強生成的概念:

檢索增強生成填補了大型語言模型缺乏訓練的知識缺口,換言之,有了檢索增強生成,大型語言模型的任務即從答題簡化成了「開書測驗」,跟開放式或是沒有對錯限制類型的回覆任務相比,這可是簡單了許多。

生成式人工智能在 AI 人工智慧領域中的重要性

生成式人工智慧在創作新穎內容這方面所扮演的角色為各種 AI 人工智慧帶來了前所未有的可能。生成式人工智慧模型可以供各位應用在舉凡娛樂或是醫療保健等各大產業中。人工智慧的研究與技術創新正在推動著生成式人工智慧模型的能力與應用極限。再過不久,生成式人工智慧的功能將成為現代 AI 人工智慧工具組的要角。藉由 GPT 與穩定擴散等擴散模型的結合,讓我們能夠使用生成式人工智慧來進行圖片產出。因此,AI 藝術已然有了一個巨大的市場,藝術家們會使用生成式人工智慧來創作幾可亂真的圖片,常讓人難以辨別真假。

此外,行銷人員們也會使用生成式人工智慧來創建有關行銷活動的 180 字推文,而設計師們亦會使用生成式人工智慧來設計全新的產品。就連製藥公司也會使用生成式人工智慧來協助開發藥物。

放置於書架上的書籍圖片。

照片出處:CHUTTERSNAP 於 Unsplash 所發佈的

AI 人工智慧為生成式人工智慧所起到的作用

任何 AI 系統(包括生成式人工智慧系統)的有效性和多功能性都取決於訓練該模型時所使用的資料,這些資料的品質、數量和多樣性決定了 AI 系統的有效性和多功能性高低。讓我們看一下資料與生成式人工智慧模型之間的一些關鍵項目。

訓練資料

生成式人工智慧模型會是透過海量資料集來進行訓練的。著重文本相關目的的模型可能會採用數十億篇文章來進行訓練,而著重圖片設計目的的模型則可能會採用數百萬張圖片來進行訓練。大型語言模型會需要各位提供大量的機器學習訓練資料,才能生成呼應情境且合乎情理的內容。資料的多樣化和全面性程度越高,模型理解並產出各式內容的能力也會有所提升。一般來說,資料量越大,模型的產出內容品質也就越高。有了更大量的資料集作為訓練基底,生成式人工智慧模型即可辯別更微妙的模式,從而產出更準確且細緻的成果。但是,資料本身的品質也是極為重要。通常而言,以量小但品質高的資料集所訓練出來的模型通常會比量大但關聯性低的資料集所訓練出來的模型來的優異。 ### 原始資料和複雜資料

原始資料,尤其是複雜與尚非結構化的資料,在將這些資料用來訓練模型之前,可能會需要相關人員在資料管道的早期階段進行預先處理。這也是大家可以驗證資料品質的時刻,以確保這些資料合適且沒有存在偏差。此一驗證步驟能夠有效幫各位預先免除偏差或偏差產出。

標記資料與未標記的資料

標記資料可提供各位有關每筆資料的特定資訊(舉凡:圖片附帶的文字說明),而未標記的資料則不會有此類的註記。大多數而言,生成式模型可以搭配未標記資料,這是因為生成式模型仍可透過理解既有的結構和模式來學習該如何產出內容。

專有資料

有些資料是特定企業組織所特有的。舉凡公司的客戶訂單歷史記錄、員工績效指標與任務流程等。許多企業組織會收集這些資料,然後先將這些資料匿名以防止敏感的 PII 或 PHI 資料外洩給下游廠商,然後再進行傳統的資料分析。這些資料中會有大量的資訊,如果用在訓練生成式模型的話,可以更有效深入地發掘這些資料中的細節。產出的成果會根據該企業組織的特別需求來進行調整。

資料在檢索增強生成中所扮演的角色

如上所述,檢索增強生成能將大型語言模型的強大功能與即時資料檢索的機能相結合。有了檢索增強生成,您便不必再仰賴預先訓練時所使用的資料。現在,您可以自外部資料庫即時擷取相關資訊。這樣即可保障生成的內容乃是最新且準確的資料。

如何使用專有資料來強化生成式人工智慧模型?

在使用生成模型時,指令工程指的是透過精心設計特定輸入查詢語言或是指令來指導模型,以期能夠打造更優良的產出內容與回應的技術。有了檢索增強生成,我們可以透過專有資料來強化提示,使 AI 人工智慧模型能夠在將企業資料納入考量的情況下產出相關聯且準確的回覆。與重新使用這筆資料訓練或微調大型語言模型這種耗時耗資源的方法相比,這種方法可取了許多。

挑戰與注意事項

當然,使用生成式人工智慧也是有其挑戰的。如果您的企業組織希望能夠應用 GenAI 的潛力,建議您可以牢記以下幾個關鍵問題。

資料專業知識的需求和強大的電腦運算機能

生成模型會需要大量的資源。首先,您會需要訓練有素的資料科學家和工程師所能帶來的專業知識。除資料組織外,大多數企業都缺乏具有訓練或微調大型語言模型所需的專業技能團隊

在電腦運算資源方面,即使您使用的是強大的 GPU 或 TPU,透過全面資料訓練模型仍可能會需要數周或數月的時間。儘管微調大型語言模型可能不會需要用到像從頭開始訓練大型語言模型那樣多的電腦運算機能,但訓練過程仍會需要使用到大量的資源。耗費資源的大型語言模型訓練與微調任務讓檢索增強生成的功能變成了一種極具吸引力的替代技術,好結合當前(和專有)資料與預先訓練大型語言模型的既有資料。

道德考量

生成式人工智慧的興起也就相關開發和應用所帶來的倫理考量激起了熱烈討論。隨著生成式人工智慧應用程式逐漸變成主流並為公眾所接受,相關對話主要集中在以下幾個主題:

  • 如何確保模型公正且無偏差
  • 如何防止模型中毒或模型篡改等攻擊事件
  • 如何防止假消息的傳播
  • 如何防止生成式人工智慧的濫用行為(舉凡深度偽造或產出誤導性資訊)
  • 如何定奪保留歸屬
  • 如何提高終端使用者的資訊透明度,以便大家知道曉何時是在與生成式人工智慧聊天機器人聊天,而不是在與人類進行交流
與其他AI 人工智慧工具/系統的相比較

生成式人工智慧工具的熱潮和新穎性已然讓其他更多的 AI 人工智慧工具/系統領域相形見絀。許多人會錯誤地認為生成式人工智慧是能夠解決他們一切問題的人工智慧工具。其實不然,生成式人工智慧固然擅長創作全新的內容,但其他的 AI 人工智慧工具可能會比生成式人工智慧更適合肩負特定的任務。與堆棧中的工具一樣,探討生成式人工智慧的優勢時,應與其他工具的優勢進行權衡。

檢索增強生成特有的挑戰

利用檢索增強生成機能來強化大型語言模型的方法固然強大,但各位也會面臨一系列的挑戰。

  • 選擇向量資料庫與搜尋的技術:歸根究底,檢索增強生成的效率取決於其快速檢索相關資料的能力。這使得向量資料庫和搜尋技術的選擇成為影響檢索增強生成效能的關鍵決策。
  • 資料的一致性:由於檢索增強生成會即時擷取資料,因此,確保向量資料庫是最新且一致與否可說是至關重要。
  • 整合複雜性:將檢索增強生成與大型語言模型整合能為您的系統增添一層複雜度。實裝具備檢索增強生成機能的生成式人工智慧可能會需要相對應的專業知識。儘管我們會面臨這些挑戰,檢索增強生成仍為企業組織提供了一種簡單而強大的選項來有效利用其營運和應用程式資料來收集豐富的見解,並為關鍵的任務決策提供了相關資訊。
支援由 GenAI 所驅動之應用程式的 MongoDB Atlas

我們已經揭開了生成式人工智慧的變革潛力,並看到了檢索增強生成所帶來之即時資料的有效強化。將這些技術結合在一起需要一個靈活的資料平臺,該平臺要能提供一套為由 GenAI 驅動之應用程式特別訂定的功能。對於有涉及生成式人工智慧和檢索增強生成領域的企業組織,MongoDB Atlas 將成會是改變世界的領導者。

MongoDB Atlas 的核心功能包含:

  • 內建的向量搜尋功能:MongoDB Atlas 內建的原生向量儲存和搜尋功能,確保各位能夠快速且有效地搜尋檢索增強生成的資料,而無需額外的資料庫來處理向量資料。
  • 統一的 API 和靈活的文檔模型:MongoDB Atlas 的統一 API 讓開發人員能夠將向量搜尋與其他查詢功能(舉凡結構化搜尋或文字搜尋的功能)相結合。除了這個功能,再結合 MongoDB 的文檔資料模型,將能為您的安排帶來了超乎想像的靈活性。
  • 可擴展性、可靠性與安全性:MongoDB Atlas 可提供水平擴展性,好隨著您(和您資料)的增長而輕鬆擴展系統規模。憑藉容錯能力和簡單的水平和垂直擴展機能,無論您的工作負載需求高低,MongoDB Atlas 都能夠確保服務不間斷。當然,MongoDB 也展示了該如何透過啟用領先業界的可查詢資料加密技術來著重安全性的考量。
圖片:MongoDB Atlas 可執行多項任務以支援由生成式人工智慧所驅動之應用程式。

MongoDB Atlas 對於檢索增強生成強化大型語言模型系統的實裝任務簡化來說至關重要。藉由處理生成式人工智慧資料的服務,MongoDB 簡化了建立企業級、由 GenAI 驅動之應用程式的流程。無論您希望採用的資料是專有資料還是最新事件的資料,MongoDB 都有可以實裝檢索增強生成方法。在最近一次對 1,500 名受訪者所進行的人工智慧問卷調查中,受訪者們表示,在所有向量解決方案中,MongoDB Atlas Vector Search 獲得了最高的開發人員滿意度

結論

作為人工智慧的一個子類別,生成式人工智慧(Generative AI)使用的模型受過了大量既有內容訓練,並創建全新且獨特的內容,象徵著現代技術變革性的躍進。然而,為了讓生成式人工智慧實現模擬人類智慧和創意的承諾,生成式人工智慧必須要接受大量高品質資料的訓練。生成式人工智慧模型的有效性取決於其訓練資料的品質、數量和多樣性。

大型語言模型可用的資料受限於該大型語言模型最近一次的訓練資料更新。透過模型重新訓練或微調是無法整合到最新資料的,這是因為一旦訓練完成,資料即就過時了。而這個問題的解決方案就是檢索增強生成,檢索增強生成能從向量資料庫中查詢最新的資料,並將其作為提示工程任務的一部份。檢索增強生成藉由為大型語言模型提供存取即時相關資訊(可能包含企業組織的專有資訊)的能力來強化大型語言模型,而無需進行耗費資源的訓練或微調。

為了實現這一目標,企業組織都在積極追求 MongoDB Atlas。MongoDB Atlas 的原生向量搜尋功能、統一的 API 和靈活的文檔模型,讓 MongoDB Atlas 對於希望能夠使用檢索增強生成方案來擷取專有資料,並藉此強化大型語言模型之企業組織而言,可說是一個極具吸引力的選項。

開始使用 MongoDB Atlas

免費試用