GGV有話說:
當OpenAI在2022年11月30日釋出ChatGPT的時候,沒有人會意識到,新一代人工智能浪潮将在接下來的 6 個月給人類社會帶來一場眩暈式的變革。
自2010年代初深度學習問世以來,人工智能進入到第三次高潮。而2017年Transformer算法将深度學習推向了大模型時代。OpenAI基于Transformer的Decoder部分建立起來了GPT家族。
ChatGPT一經面世便風靡全球,人們驚訝于其能夠進行連貫、有深度對話的同時,也驚異地發現了它湧現了推理、思維鍊等展現智能的能力。伴随AI預訓練大模型持續發展、人工智能生成内容(AIGC)算法不斷創新以及多模态AI日益主流化,以ChatGPT為代表的AIGC技術加速成為AI領域的最新發展方向,推動AI迎來下一個大發展、大繁榮的時代,将對經濟社會發展産生重大的影響。
今天的GGView,就讓我們一起來看看生成式人工智能的産業機遇。
來源:騰訊研究院
作者:徐思彥 騰訊研究院進階研究員
AIGC 技術的定義及背景
AIGC(Artificial Inteligence Generated Content),指的是通過人工智能技術自動生成内容的生産方式。通過訓練模型來生成新的、與訓練資料相似的内容。與傳統類型的AI主要關注識别和預測現有資料的模式不同,AIGC着重于創造新的、有創意的資料,其關鍵原理在于學習和了解資料的分布,進而生成具有相似特征的新資料,在圖像、文本、音頻、視訊等多種領域都有廣泛的應用。AIGC目前最引人注目的應用當屬ChatGPT。ChatGPT是基于OpenAI公司的大型語言模型GPT-3.5訓練、調試、優化的聊天機器人應用,同一個AI模型可以處理各種各樣的文字和推理任務。ChatGPT釋出僅兩個月即獲得1億月活使用者,超越了曆史上所有網際網路消費者應用軟體的使用者增長速度。以大型語言模型、圖像生成模型為代表的AIGC技術,成為新一代人工智能的平台型技術,助力不同行業實作價值躍升。AIGC大爆發的背後,普遍認為三個領域的AI技術的發展為其提供了肥沃的土壤,分别是生成算法、預訓練模型和多模态技術。
第一,随着各種生成算法的不斷創新突破,AI現在已經可以生成文字、代碼、圖像、語音、視訊物體等各種類型的内容和資料。AIGC與過去最顯著的差別是從分析式AI(Analytical AI)發展為生成式AI(Generative AI)。分析式AI模型是根據已有資料進行分析、判斷、預測,最典型的應用之一是内容智能推薦;生成式AI模型則是學習已有資料後進行演繹、生成創造全新内容。
第二,預訓練模型,也就是我們常說的大模型,引發了AIGC技術能力的質變。在過去,研究人員需要針對每一個類型的任務單獨訓練AI模型,訓練好的模型隻能從事特定任務,不具有通用性。而預訓練的大模型技術顯著提升了AIGC模型的通用化能力和工業化水準,讓AIGC模型成為自動化内容生産的“工廠”和“流水線”。生成式AI模型,包括ChatGPT、GPT-4等大語言模型(Large Language Models,LLM)和Midjourney、Stable Diffusion等圖像生成模型,又被稱為基礎模型(Foundation Models),其作為基于種類豐富的海量資料預訓練的深度學習算法,展現出強大的、更加泛化的語言了解和内容生成能力。
以大型語言模型(LLM)為例,經過海量的網際網路内容資料的訓練,語言模型的參數可以達到萬億甚至百萬億級别。這大大增強了語言模型的生成能力,同一個語言模型可以高品質地完成各種各樣的文字和推理任務,例如作詩、寫文章、講故事、寫代碼、提供專業知識等等。是以,大模型已經成為了各大企業競相追逐的AI方向。
第三,多模态AI技術的發展。多模态技術讓AIGC模型可以跨模态地去生成各種類型的内容,比如把文字轉化為圖檔、視訊等等。進一步增強了AIGC模型的通用能力。[1]以下是AIGC領域的一些基本技術:
1)生成對抗網絡(GAN, Generative Adversarial Networks):GAN是由Ian Goodfellow等人于2014年提出的一種生成式模型。它由生成器(Generator)和判别器(Discriminator)兩部分組成。生成器負責生成新的資料,判别器負責判斷生成資料與真實資料的相似程度。通過不斷的訓練,生成器能夠生成越來越逼真的資料。
2)變分自編碼器(VAE, Variational Autoencoders):VAE是一種基于機率生成模型的生成式方法,它通過編碼器(Encoder)和解碼器(Decoder)兩部分來實作資料的生成。編碼器負責将輸入資料映射到潛在空間中的一個分布,解碼器負責從潛在空間中的分布采樣資料并生成新的資料。
3)循環神經網絡(RNN, Recurrent Neural Networks):RNN是一種用于處理序列資料的神經網絡結構。RNN具有記憶功能,能夠捕捉序列資料中的時序資訊。在生成式人工智能中,RNN可以用于生成文本、音樂等序列資料。
4)Transformer模型:Transformer是一種基于自注意力(Self-Attention)機制的神經網絡結構,它在自然語言處理領域取得了顯著的成果。Transformer模型可以用于生成式任務,如文本生成、機器翻譯等。
其他相關技術:除了上述技術外,還有一些其他的生成式模型和技術,如PixelRNN、PixelCNN、WaveNet等。這些技術在圖像和音頻生成等領域也取得了一定的成果。大語言模型等生成式AI技術帶來了新的AI發展範式,其應用前景十分廣闊。對于大衆而言,生成式AI意味着新的創造力工具,将在更大程度上解放個體的創造力和創意生産。除此之外,AIGC還将改變擷取資訊的主要方式。ChatGPT在尋找答案、解決問題的效率上已經部分地超越了如今的搜尋引擎,ChatGPT或許在未來會改變我們擷取資訊、輸出内容的方式,AIGC有望成為數字經濟時代驅動需求爆發的殺手級應用。
比爾·蓋茨将人工智能的發展和微處理器、個人電腦、網際網路以及智能手機相提并論,認為其将重塑所有的行業。微軟公司首席執行官Satya Nadella認為,ChatGPT是知識工作者的“工業革命”,斷言人工智能将徹底改變所有類型的軟體服務。目前,搜尋、辦公、線上會議等諸多軟體服務都已融入了生成式AI的能力。OpenAI公司首席執行官Sam Altman稱,多模态的AI大模型有望成為繼移動網際網路之後的新的技術平台。這意味着,開發人員基于預訓練的AI大模型,可以通過模型微調快速開發出垂直領域的模型應用并予以部署使用,人工智能的革命性正在于此。[2]
AIGC的應用領域及案例
1.文本生成領域
自然語言生成是一種AIGC技術,可以生成逼真的自然語言文本。生成式AI可以編寫文章、故事、詩歌等,為作家和内容創作者提供新的創作方式。同時,它還可以用于智能對話系統,提高使用者與AI的交流體驗。
ChatGPT (全名:Chat Generative Pre-trained Transformer對話生成式預訓練變換模型 )是由 OpenAI開發的一個人工智能聊天機器人程式,于2022年11月推出。該程式使用基于GPT-3.5架構的大型語言模型并通過強化學習進行訓練。ChatGPT目前仍以文字方式互動,可以解決包括自動文本生成、自動問答、自動摘要等在内的多種任務。
Jasper已經開始為谷歌、臉書等知名公司提供文案AIGC的商業服務。
2.圖像生成領域
圖像生成是AIGC 技術中最為普遍的應用之一。Stability AI釋出了穩定擴散(Stable Diffusion)模型,通過開源快速疊代大幅降低了AI繪畫的技術使用門檻,消費者可以通過訂閱旗下産品DreamStudio來輸入文本提示詞生成繪畫作品,産品已經吸引全球50多個國家超過100萬的使用者注冊。
3.音視訊創作與生成AIGC技術可以用于語音合成,即生成逼真的語音。例如,通過學習人類的語音特征,生成式模型可以生成逼真的語音,進而用于虛拟助手、語音翻譯等應用。AIGC技術可以用于生成音樂。生成式AI可以根據給定的風格和旋律創作新的音樂作品,為音樂家提供新的創作靈感。這種技術還可以幫助音樂家更有效地探索音樂風格和元素的組合。這些曲目可以用于音樂創作、廣告音樂等應用。4.電影與遊戲
生成式AI可以用于生成虛拟角色、場景和動畫,為電影和遊戲制作帶來更多的創意可能。此外,AI還可以根據使用者的喜好和行為生成個性化的故事情節和遊戲體驗。
2023年3月,騰訊AI Lab在GDC上提出了3D虛拟場景自動生成解決方案,能夠幫助遊戲開發者以更低成本創造風格多樣、貼近現實的虛拟城市,提升3D虛拟場景的生産效率。其中重點分享了城市布局生成、建築外觀生成和室内映射生成三大能力。整個路網生成和微調過程僅需要不到30分鐘,相比手動設計效率提升近100倍;而單個獨特建築的制作時間也降低至17.5分鐘,大大提升了場景制作的效率。
5.科研與創新
生成式AI可以在化學、生物學、實體學等領域探索新的理論和實驗方法,幫助科學家發現新的知識。此外,生成式AI還可以用于藥物設計、材料科學等領域,加速技術創新和發展。
6.代碼生成領域
經過自然語言和數十億行代碼的訓練。部分生成式AI模型精通十幾種語言,包括Python、JavaScript、Go、Perl、PHP、Ruby等等。能夠根據自然語言的指令生成相應的代碼。
GitHub Copilot是一個GitHub和OpenAI合作産生的AI代碼生成工具,可根據命名或者正在編輯的代碼上下文為開發者提供代碼建議。官方介紹其已經接受了來自GitHub上公開可用存儲庫的數十億行代碼的訓練,支援大多數程式設計語言。
騰訊雲新一代AI 代碼助手CODING Wise:将大模型AI能力賦能給開發者,增強開發體驗,提升開發效率。CODING Wise支援多種程式設計語言、主流開發架構和常用IDE。具備代碼補全、生成單元測試、代碼糾錯等能力,能輔助開發者加速開發過程,提升開發品質。CODING Wise能力覆寫溝通、編碼、評審等關鍵環節,包括:溝通環節:通過對話方式,進行上下文推理給出代碼回複,幫助開發者了解代碼邏輯;研發環節:根據目前代碼類型、代碼上下文等資訊進行代碼補全;能根據代碼反向生成注釋和單元測試代碼;排錯環節:進行代碼查錯、定位問題并輔助生成建議;随後給出建議代碼、替換錯誤的代碼塊;評審環節:輔助開發者生成代碼送出資訊,也可以輔助評審者生成評審建議;調試環節:可通過自然語言指令實作快速的代碼修改和調優。
7.内容了解與分析
騰訊會議·AI小助手:隻需通過簡單自然的會議指令,基于對會議内容的了解,就可以完成資訊提取、内容分析、會管會控等多種複雜任務。會後可以自動生成智能總結摘要,還能基于智能錄制的能力,幫助使用者高效回顧,提升使用者開會和資訊流轉效率。
彭博社于近期釋出了為金融界打造的大語言模型(LLM)——BloombergGPT。它使用了類似于ChatGPT的技術原理,即使用Transformer模型和大規模預訓練技術來實作自然語言處理,擁有500億參數。BloombergGPT的預訓練資料集主要來自彭博社的新聞和金融資料,建構了一個3630億個标簽的資料集,支援金融行業的各種任務。
BloombergGPT的目标是幫助使用者更好地了解和分析金融資料和新聞。它可以根據使用者的輸入,生成與金融相關的自然語言文本,例如新聞摘要、市場分析、投資建議等。它的應用場景主要包括金融分析、投資咨詢、資産管理等領域。例如,在資産管理領域,它可以根據曆史資料和市場情況,預測未來的股票價格和交易量,為投資經理提供投資建議和決策支援。在财經新聞領域,BloombergGPT可以根據市場資料和事件,自動生成新聞摘要和分析報告,為讀者提供及時、準确的金融資訊。
8.AI智能體(AI Agent)
AI智能體(AI Agent)被認為是OpenAI的下一個方向。從今年3月AutoGPT推出後,Generative Agent、GPT-Engineer、BabyAGI項目的爆發将LLM的叙事代入了新的階段,從“超級大腦”到真正有可能成為“全能助手”。
2023年4月,一個名叫AutoGPT的開源項目在Github上釋出了,截止至2023年4月16日,該項目已經獲得70K+星。AutoGPT是一個由GPT-4驅動的可以自主實作使用者設定的任何目标的開源應用程式。當使用者提出一個需求或任務時,AutoGPT會自主分析問題,給出具體的執行計劃并開始執行,直到完成使用者提出的要求。
AutoGPT的出現意味着AGI正逐漸向更加自主化和智能化的方向發展。首先,它可以使人工智能應用更加普及和便利。現AutoGPT能夠自主分析和執行任務,大大降低了應用的門檻和成本,讓更多的人能夠輕松地使用人工智能技術來解決問題。其次,AutoGPT能夠提高人工智能應用的效率和精度。傳統的人工智能模型需要從頭到尾地執行整個任務,這會浪費很多時間和計算資源,并且容易出現錯誤。AutoGPT可以自主分析任務,并且提出具體的執行計劃,這樣可以大大縮短執行時間,并且減少錯誤率。[3]盡管AutoGPT還在非常早期的實驗階段,但其開創了一種全新的AI互動方式,即由機器主動提出任務和計劃,人類隻需要給出任務目标。這種互動方式不僅提高了AI智能體的自主性和靈活性,同時也拓展了人與AI之間的互動方式,打破了人類對于人工智能的“控制”想象,使得人工智能技術能從“工具”走向人類的“夥伴”。
除了獨立的AI Agent之外,未來還可能出現由多個AI智能體組成的“虛拟智能社會”。GenerativeAgents—在由斯坦福大學和谷歌聯合發表的一篇名叫《GenerativeAgents:InterativeSimulacra of Human Behavior》論文中,研究者們成功地建構了一個“虛拟小鎮”,其中的25個智能體在小鎮上生存。借助AIGC,其中的NPC具備了可信人類行為,并對周圍環境變化做出适當的反應,使得可以用現實社會現象去填充賽博空間。
國外商業咨詢機構預測,到2030年AIGC和生成式AI市場規模将達到1100億美元。正如“網際網路+”一樣,“AIGC+”有望滲透到各行各業,在教育、醫療、金融、政務、制造、機器人、數字人、元宇宙、廣告營銷、電子商務、市場和戰略咨詢等衆多領域帶來新的應用形式,深度賦能千行百業,助力高品質發展。
AIGC的産業應用中的挑戰與問題
1.可解釋性與可靠性
生成式人工智能的可解釋性問題是指生成式人工智能(Generative Artificial Intelligence)所産生的結果難以解釋或了解。生成式人工智能是一種基于深度學習的人工智能技術,其通過學習大量資料來生成新的資料或圖像。但是,生成式人工智能所産生的結果通常很難了解和解釋,因為其内部的運作過程非常複雜,而且很難直覺地描述。
這種可解釋性問題對于許多應用場景都非常重要,比如醫療診斷、金融風控、自動駕駛等領域。在這些領域中,人們需要了解生成式人工智能的内部運作過程,以便更好地了解其産生的結果,并且能夠對其進行調整和優化。
解決生成式人工智能的可解釋性問題是目前人工智能研究的一個重要方向,研究人員正在探索各種方法來使生成式人工智能的結果更加可解釋和可了解。這些方法包括可視化技術、可解釋性模型、對抗性樣本等等。
2.AI大模型的價值對齊問題
所謂人工智能的價值對齊(AI Alignment),就是讓人工智能系統的行為符合人類的目标、偏好或倫理原則。價值對齊是AI安全研究的一個核心議題。在理論上,如果一個強大的AI系統所追求的目标和人類的真實目的意圖和價值不一緻,就有可能給人類帶來災難性後果。就目前而言,大語言模型的價值對齊問題主要表現為,如何在模型層面讓人工智能了解人類的價值和倫理原則,盡可能地防止模型的有害輸出,進而打造出更加有用同時更加符合人類價值觀的AI模型。在這方面,RLHF是一個有效的方法,通過小量的資料就可能實作比較好的效果。簡言之,RLHF要求人類專家對模型輸出内容的适當性進行評估,并基于人類提供的回報對模型進行優化。其目标是減少模型在未來生産有害内容的可能性。實際上,RLHF算法不僅是確定AI模型具有正确價值觀的關鍵所在,而且對于生成式AI領域的長期健康可持續發展也十分重要。[4]3.塑造負責任的AI創新生态
大語言模型等生成式AI的進展,在讓人們看到AGI曙光的同時,也帶來更加複雜難控的風險,包括對人類未來生存的潛在風險。生成式AI領域的創新主體則需要積極探索技術上和管理上的安全保障措施,為生成式AI的健康發展和安全可控應用構築起防護欄。
在科技向善理念之下,人工智能時代不應成為另一個“快速行動、打破陳規”的時代(即先快速把産品做出來,事後再通過修補、補救等方式解決其社會問題),而應成為一個負責任創新的時代,通過建立合理審慎的AI倫理和治理架構,塑造負責任的AI生态,打造人機和諧共生的未來。[5]
AIGC在産業應用中的未來趨勢
1.多模态帶來創新應用藍海
多模态AI是指能夠處理和了解多種類型資訊的人工智能,如文本、圖像、音頻、視訊等。這種AI不僅能夠處理單一資料類型的任務,而且可以在不同資料類型間建立聯系和融合,進而實作一個綜合、全面的了解多模态。AI能夠對各種不同類型的資料進行關聯分析,為解決複雜問題提供支援。
在多模态技術發展初期,不同模态的AI開始進行內建,比如圖像識别和自然語言處理技術的結合。除了ImageBind打通六種模态外,多數仍在探索文本與圖像的融合,但進展飛快。UniDiffuser:除了單向文生圖,還能實作圖生問、圖文聯合生産、無條件圖文生成等多種功能。
OpenAI開發了許多多模态AI案例如DALL-E、CLIP 等,可以識别圖像中的對象,同時生成與圖像相關的描述性文本,或由文本指導生成有關物品的新圖像。
随着多模态技術的進展,多模态AI在了解和處理不同類型資料時能夠實作更高程度的融合。算法和模型可以在不同資料類型之間建立聯系,提取跨模态的共享資訊。這使得AI能夠深度了解和解決複雜問題。未來在諸多創新領域,多模态技術的發展将帶來創新應用的藍海。[6]2.生成式AI帶來更貼近人的互動方式
從使用鍵盤-滑鼠等方式跟電腦互動,到使用手指滑動螢幕跟手機互動,再到人們用喚醒詞跟智能音箱等互動,人機互動從識别機器指令,到識别人的動作、語音,不斷朝着更貼近人的習慣的互動方式演進。生成式AI的發展,讓人類有史以來第一次有機會用自然語言的方式,來跟機器對話,而機器也借由大模型擁有了極強的了解人類語言的能力,有望帶來一場全新的互動變革。正如曆次互動變革帶來從終端、到連接配接,到各類應用的颠覆式變革,生成式AI也必将帶來産業鍊、價值鍊和生态的重塑。
生成式AI的技術突破,帶來了大模型了解能力的大幅提升。大模型可以更好地了解人類表達的含義,并生成更符合人類價值觀的回答。其技術成熟度已經可以在很多場景下達到可用,甚至好用的程度。在科技公司不斷投入對齊工作的進展中,大模型的“幻覺”被持續降低,進而讓人類第一次有可能完全以自然語言對話的方式來跟機器交流。這也是人去發掘機器智能最簡單直接,最有效的互動方式。
在這個背景下,所有APP都可以用生成式AI重做一遍,并可能産生原生AI APP。一方面,目前的所有軟體,在後端不變的情況下,前端的互動可以直接換成自然語言對話的方式,這樣讓更多的APP擁有了智能對話的能力,給使用者帶來全新的體驗。現在已經有很多應用軟體和硬體,開始往這個方向更新。另一方面,未來更具市場想象力的,是原生的AI APP,例如未來很可能出現一個萬能的個人助理,他可以回答人的各種問題,幫人出主意,甚至做會議預定、文章撰寫、藝術創作等更多的工作。“機器生成+人腦篩選”在可預見的将來,會成為人機協作的重要方式。[7]
結論
綜上所述,生成式人工智能在發展演進過程中取得了顯著的成果,為人類社會的進步和發展提供了強大的技術支援。從深度學習、自然語言處理等技術的發展,再到生成式人工智能在各個産業中的應用,都展示了其強大的潛力和價值。然而,伴随着技術的不斷創新和突破,生成式人工智能在應用過程中也暴露出了一些問題,如資料安全、隐私保護、倫理等方面的挑戰。是以,未來的研究應關注如何在保障技術創新的同時,解決這些潛在問題,以實作生成式人工智能的可持續發展。此外,各國政府、企業、研究機構等應加強合作,共同推動生成式人工智能的研究與應用,以實作人類社會的共同繁榮與進步。*本文首發于《人工智能》2023年第四期參考資料:
[1]騰訊研究院.AIGC發展趨勢報告2023[R].2023
[2]陳楚儀、曹建峰. AIGC技術的發展趨勢、影響和展望[J].2023.中國銀行業
[3]宋嘉吉等. Auto-GPT評測——更聰明的AGI[R].2023
[4]曹建峰.邁向可信AI:ChatGPT類生成式人工智能的治理挑戰及應對[J].2023.上政學報
[5][6][7]騰訊研究院.大模型時代的AI十大趨勢2023[R].2023
溫馨提示:雖然我們每天都有推送,但最近有讀者表示因平台推送規則調整,有時候看不到我們的文章~
*文章觀點僅供參考,不代表本機構立場。