天天看點

重磅:盤點7大方向,誰将誕生ChatGPT領域的尤裡卡時刻

作者:人人都是産品經理
在ChatGPT領域,哪個方向是它的未來趨勢,能更快地“接近真相”呢?本文作者從商業的角度,對7個方向進行了總結分析,希望能給你帶來一些啟發。
重磅:盤點7大方向,誰将誕生ChatGPT領域的尤裡卡時刻

小科普:尤裡卡,希臘詞彙,是發現真相時的感歎詞,在遊戲文明6中,當你觸發尤裡卡,你的科技會縮短40%的研究時間(中國文明縮短50%)

再小科普:AI繪畫的尤裡卡時刻有兩個,Stable Diffusion讓成本下降到可用,ControlNet讓繪畫可控性大大提升,踏入更廣闊的應用領域。

在前面的系列文章中,我們講了LLM的技術原理、商業應用、社會影響等方面。但這些都是聚焦當下或較近的未來,那麼更遙遠的趨勢呢?

就像Diffusion的ControlNet模型一樣,如果你更早發現他的趨勢,你就不會花費精力在語義了解、穩定控制等方面,而是直奔可控性(我與很多朋友聊天,發現他們的團隊或多或少都有可控性方面的嘗試,但因為趨勢錯判,而沒有全力All IN)。

或者哪怕你不是做技術的,你提前預判到,你也能在産品角度、商業角度做前置的思考和布局。

不過接下來我的分析不會那麼偏技術(因為不懂),而是從更商業的角度來看這些方向。畢竟商業利益催生應用,應用催生技術湧現,有時候跳出技術思維(剛好我沒有),或許更能看到一些盲生的華點。

希望對大家有所啟發,也歡迎拍磚讨論。

以下是全部内容:

  1. 降低門檻 ⭐️⭐️
  2. 萬物終端 ⭐️⭐️⭐️
  3. 思維鍊CoT ⭐️⭐️
  4. 反作弊 ⭐️
  5. 文本外應用 ⭐️
  6. 私有化 ⭐️⭐️
  7. GPT4來了?⭐️⭐️⭐️

下面每個方向的介紹都比較簡潔,不會窮舉所有案例,也不會長篇大論講解原理。

方向一:降低門檻 ⭐️⭐️

我說過技術湧現是需要“人數基礎”的,參與的玩家越多,這個領域的發展才會越快。同時我們本身也需要關注門檻的降低速度,以預判更多玩家湧入對商業生态的影響。基于這兩個因素,重要性2星。

第一個例子以FlexGen為例,目前GitHub 5K Stars,實作了大模型推理中的顯示卡平替(推理就是回答問題)。

簡單介紹:

1)用更大的吞吐量掩蓋低延遲(你可以慢,但做多一點);

2)工程上優化了效率,不僅可以用16GB T4 的顯示卡去替代又貴又稀缺的80G A100。并且實作了這種方式相較以往架構的100倍效率提升。——說白了,推理的時候你不一定要用A100了!喜大普奔!

如果需要比較通俗的科普,看這個:https://zhuanlan.zhihu.com/p/608279479如果需要看GitHub原連結,看這個:https://github.com/FMInference/FlexGen

第二個例子是ColossalAI(看名字就知道,專門對付大模型),Github上17.5K Stars,他在解決訓練成本、推理成本的問題。他的實作方案太複雜了,大概是更高效的并發政策、更好的工程結構等我還沒深入研究的東西哈哈。大家感興趣follow下面連結做深入學習。科普性報道(可能有PR成分)如下:https://zhuanlan.zhihu.com/p/606397774GitHub連結如下:https://github.com/hpcaitech/ColossalAI#GPT-3

第三個例子是各類開源組織,例如EleutherAI(Stable Diffusion,GPT-3的開源組織),LAION(資料開源組織)等,他們對模型或者對資料的開源,推動了更多參與者加入這個方向的研究。

整體來看,有非常多關于降低門檻方面的努力,包括模型開源、模型優化、工程優化、算力降低、顯示卡平替等,說不定有一些我沒發現但正在進行中的(例如定制晶片、稀疏化模型等等)。

方向二:萬物終端 ⭐️⭐️⭐️

我們現在使用ChatGPT可以讓幫我們生成視訊腳本,甚至按API字段要求生成一個可執行的入參指令。但是這種生成永遠停留在文字程度,我們要做最終的生産,隻能自己打開其他的應用(如PS、如其他APP的API接口)才能将生成結果轉變為最終産物。

如果ChatGPT能夠使用工具呢?當我讓他幫我收集海外SaaS公司2022年财報,他将結果整理為清單,同時辨別引用的财報PDF,并将PDF下載下傳到我的桌面(且建立檔案夾并自動重命名)。你覺得如何?想要嗎?

甚至更複雜一點(短期不太現實哈哈),你跟他說幫我畫一張“醉後不知天在水,滿船星夢壓清河”的水墨畫(用AI繪畫),并在右上角用草書寫上這兩句古詩(用PS)。你想要嗎?

這将是颠覆式的開始,就像當初IOS誕生一樣,圍繞一個終端,全世界的應用都會按照他的标準接入,并湧現出無窮的智慧。GPT不再是一種工具,而是新時代人人都離不開的終端——替代手機/電腦,更強大的虛拟終端。

在這種刺激下,巨頭對LLM的争奪會進入一個更劇烈的,更白熱化的階段:新時代的諾亞方舟,不上船者必死。

這一切的開始,來自Meta AI釋出的Toolformer,他讓LLM連接配接工具成為可能。

簡單介紹:

1. 讓AI明确有些問題,可以調用工具(例如知識,計算,查詢日程);

2. 讓AI合理地轉化自然語言指令為API指令(即調用工具的入參);

3. 讓AI在組織回答時,正常回答,但部分需擷取的答案,去調用API獲得結果後再嵌入回答中。

下面是一個論文中的例子(括号内即API指令+調用後的結果):

Q:拜登在哪裡出生

A:拜登在(調用搜尋引擎查詢“拜登在哪裡出生”,獲得答案斯克蘭頓)斯克蘭頓出生。當然論文中的例子還較為簡單,離我的狂想還有一段距離。但這種思路揭示了一種未來:我們可以訓練LLM模型對工具使用的了解,包括何時應該使用工具,自然語言如何轉化為使用工具的API指令。

等他進一步完善之後,所有的應用都必須按照LLM定義的标準提供接口,并跪着求LLM收錄他們作為可調用工具(例如都是查詢月曆行程,我是查Google月曆,還是查滴答清單呢?)

科幻未來就在眼前,三星好評!

簡單科普看這個:https://www.zhihu.com/question/583924233/answer/2900129018論文看這個:https://arxiv.org/pdf/2302.04761.pdf

方向三:思維鍊CoT ⭐️⭐️

第一個例子有點搞笑,但我發誓是真的:

第一步,讓AI回答最終答案之前先拆解問題:“Think step by step”第二步,然後再讓AI基于這個推理結果給出最終答案:“so the answer is ?”拆成兩步後,準确率從17.1%飙升到78.7%

無圖無證據,論文《LargeLanguage Models are Zero-ShotReasoners》原圖

重磅:盤點7大方向,誰将誕生ChatGPT領域的尤裡卡時刻

第二個例子來自小冰的X-CoTA。

直接上圖,大家仔細看看:

重磅:盤點7大方向,誰将誕生ChatGPT領域的尤裡卡時刻

在圖中,小冰面對問題“北京到蘇州相當于跑了多少個馬拉松”,他拆解成了“北京和蘇州的距離”,“一個馬拉松有多長”兩個問題進行推理。并最終基于兩個小問題的答案給出最後答案。

一方面,複雜問題拆解為多個子問題提升了最終回答的正确率,另一方面,更加關鍵的是——這讓AI的推理過程可視化。而可視化,就意味着人類可以進行過程糾錯,接下來請看第三個例子。

第三個例子:LangChain 的memory功能。

下圖中右側,模型弄錯了Similar to的意思,被使用者教育校正。這個校正會存入Memory中,當AI下次在遇到累死問題,他就會來尋找曾經的memory并避免犯錯。

重磅:盤點7大方向,誰将誕生ChatGPT領域的尤裡卡時刻

這個功能本身是和CoT思維鍊毫無關系的。

但是如果你把LangChain的這個功能,與第二個例子結合起來。

你就會發現,所謂的使用者回報(即大名鼎鼎的RLHF)不僅僅能夠出現在訓練/微調環節,更能直接在使用者使用過程中發揮作用,快速積攢大量的優質人類回報,進而進一步提升模型效果。

這個方向一方面本身就可以提升模型效果,另一方面為強化版的使用者回報機制提供了可能,是以給2星。

方向四:反作弊 ⭐️

大家可能看到過最近的這個新聞:《科幻世界禁止使用ChatGPT投稿》,或者更早之前的大學禁止ChatGPT的一些新聞。還有針對GPT監測的工具,例如GPT-Zero,OpenAI自己開發的AI-Text-Classifier等。

我的看法是:政治噱頭。

第一,AI生成的本質是什麼?就是洗稿,例如我寫作中會閱讀大量的報道、文章、論文,然後總結歸納後轉寫出來——是的,技術側的知識我毫無産出,一行代碼也沒敲過,我隻是在學習總結而已。

但這種洗稿問題,在内容時代從來沒被解決過,不要說我這種進階洗稿,就算是低級洗稿也是毫無辦法。

第二,目前的檢測方式是基于模型有監督學習的文本分類模型,在現在LLM模型起步初期,行文還有點生硬時,準确率都不高,何況更進步更拟人的未來?

第三,還有一些從源頭控制的方法,例如添加密碼水印(例如h字元的出現率比平均值高11%~13%),例如應用側主動辨別“來自LLM”的證明。但這些手段仍然可以通過多段拼湊,黑市LLM,離線二次處理等方法繞開。

這個領域是政治、商業上推行下去必須解決的問題,但他的解決方式很可能是表面解決——LLM公司出存在性手段(AI-Text-Classifier),應用側公司做保證性聲明,政府拟定生成類内容法規,但一切對現實毫無影響。

方向五:文本外應用 ⭐️

經過很長一段時間的狂歡後,大部分人(或許隻有我哈哈),可能都忘記了LLM的一個颠覆性變革——AGI通用人工智能的雛形。

這個雛形怎麼往下推進呢?他勢必要将目前集中在文本領域的能力向更大範圍輻射。

典型的例子如ProGen,用大規模語言模型來定向預測蛋白質結構

簡單介紹:

1.複習一下預訓練語言模型,把N多語料喂給他,讓它自己學習世界知識、文法知識、代碼知識。2. 好,模仿這個過程,現在我把蛋白質的結構喂給ProGen,讓它自己學習,讓它明白原來要具備殺菌性,結構是這樣的,具備耐寒性,結構得是這樣的;

3. 現在我可以要求他定向預測蛋白質結構了——例如我要殺菌性好的蛋白質。

這個模型現在的參數規模是12 億,使用包含2.8 億個蛋白質序列的公開資料集——如果他像GPT一樣不停地往上堆資料呢?是不是也會像GPT模型一樣實作能力的湧現?

科普性文章看這篇:https://zhuanlan.zhihu.com/p/603784945

那麼其他領域呢?圖像、視訊、3D?很抱歉,我覺得很難看到突破。

我的判斷和技術一點關系都沒有(我不懂),純粹從商業角度、利益角度看這個事情。

第一,Diffusion在多模态領域狂飙突進,他的爆發遠不到停止的時候,在這個階段,由于他的前景明确、介入成本低,集中了大量的研究人員在推進技術發展。

第二,GPT為代表的LLM,他現在也不太關心文本外應用,他有更着急的事情要去做(例如我前面說的那幾個方向)。——并且,由于他的介入門檻高,在這個領域能夠實操的研究人員還遠遠比Diffusion少。

這就像特斯拉的交流電遇到愛迪生的直流電一樣,當你有一個還不錯,甚至很不錯的競争對手時,你不能隻是優秀一點,你必須優秀非常多!

在産品領域有一個公式描述這種現象:産品價值=(新體驗-舊體驗)-遷移成本。

綜上,對于廣闊的圖像、視訊等領域,我不是特别看好LLM短期内在這個方向的發展。

方向六:私有化 ⭐️⭐️

我之前有一個判斷,LLM的誕生不會摧毀小模型公司,這裡的小模型公司指以前靠賣模型服務吃飯的企業,因為他們的模型比起1750億參數實在太小了,就叫小模型公司哈哈。

這方面的考慮來自幾個方面:實時性(車載/直播等),安全性(金融),成本敏感(客服),答案穩定(金融),道德風險(心理咨詢)。

但是,新聞來了!OpenAI将考慮允許企業私有化部署模型,最低26W美元/年

重磅:盤點7大方向,誰将誕生ChatGPT領域的尤裡卡時刻

如果這個消息不是FakeNews(建國兄搖頭.JPG),那麼至少安全性問題解決了,成本、實時等問題可能也會緩解,小模型公司将迎來前所未有的沖擊。

但是私有化也有好處:

首先,私有化大機率是部署小參數規模的LLM居多(比1750億參數少一個量級),那麼這将導緻後續LLM的優化方向不僅僅隻是參數規模的追逐(例如傳說中的萬億參數GPT4),也會回頭關注小參數級别LLM的表現。

其次,更多的應用催生更多的技術更新,并且小參數級别的LLM也降低了進入門檻,會讓這個領域更加百發齊放(其實又和門檻降低方向有點關系了)。

是以,基于對現有商業環境的擾動+技術的有益促進,這個方向的重要程度是2星——哪怕他一點技術含量也沒有(或許還是有一些的)。

方向七:GPT4來了?⭐️⭐️

各種傳言說GPT4已經在路上了,23年就要出來了,但都沒啥證據。而Twitter這位小哥不僅爆料了私有化資訊,還提供了GPT4可能到來的一種猜測。

首先,我們看這張圖,text-davinci-003就是目前OpenAI開放的最先進的模型,可以看到圖中隻支援4Ktokens。(告訴大家一個冷知識,ChatGPT是不開放商用API的,隻有GPT-3開放)

重磅:盤點7大方向,誰将誕生ChatGPT領域的尤裡卡時刻

而Twitter小哥爆料的圖中,大家看這張圖中,DV就是davinci——目前OpenAI真正開放商用的GPT3系列名詞。

重磅:盤點7大方向,誰将誕生ChatGPT領域的尤裡卡時刻

在圖中,DV最高支援32K的上下文長度,是目前的支援的4K的8倍。

這個莫名其妙的DK(32K max context)是不是傳說中的GPT-4呢?或者哪怕不是,至少也是個GPT-3.6、3.7吧?畢竟翻了8倍的上下文了解能力,實在有點離譜——他從19年到22年也就翻了2倍。

不過,畢竟隻是猜測,是以隻給2星,安慰一下自己的小心髒。

本文由@馬丁的面包屑 原創釋出于人人都是産品經理,未經許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協定

該文觀點僅代表作者本人,人人都是産品經理平台僅提供資訊存儲空間服務。