在ChatGPT領域，哪個方向是它的未來趨勢，能更快地“接近真相”呢？本文作者從商業的角度，對7個方向進行了總結分析，希望能給你帶來一些啟發。

小科普：尤裡卡，希臘詞彙，是發現真相時的感歎詞，在遊戲文明6中，當你觸發尤裡卡，你的科技會縮短40%的研究時間（中國文明縮短50%）

再小科普：AI繪畫的尤裡卡時刻有兩個，Stable Diffusion讓成本下降到可用，ControlNet讓繪畫可控性大大提升，踏入更廣闊的應用領域。

在前面的系列文章中，我們講了LLM的技術原理、商業應用、社會影響等方面。但這些都是聚焦當下或較近的未來，那麼更遙遠的趨勢呢？

就像Diffusion的ControlNet模型一樣，如果你更早發現他的趨勢，你就不會花費精力在語義了解、穩定控制等方面，而是直奔可控性（我與很多朋友聊天，發現他們的團隊或多或少都有可控性方面的嘗試，但因為趨勢錯判，而沒有全力All IN）。

或者哪怕你不是做技術的，你提前預判到，你也能在産品角度、商業角度做前置的思考和布局。

不過接下來我的分析不會那麼偏技術（因為不懂），而是從更商業的角度來看這些方向。畢竟商業利益催生應用，應用催生技術湧現，有時候跳出技術思維（剛好我沒有），或許更能看到一些盲生的華點。

希望對大家有所啟發，也歡迎拍磚讨論。

以下是全部内容：

降低門檻 ⭐️⭐️
萬物終端 ⭐️⭐️⭐️
思維鍊CoT ⭐️⭐️
反作弊 ⭐️
文本外應用 ⭐️
私有化 ⭐️⭐️
GPT4來了？⭐️⭐️⭐️

下面每個方向的介紹都比較簡潔，不會窮舉所有案例，也不會長篇大論講解原理。

方向一：降低門檻 ⭐️⭐️

我說過技術湧現是需要“人數基礎”的，參與的玩家越多，這個領域的發展才會越快。同時我們本身也需要關注門檻的降低速度，以預判更多玩家湧入對商業生态的影響。基于這兩個因素，重要性2星。

第一個例子以FlexGen為例，目前GitHub 5K Stars，實作了大模型推理中的顯示卡平替（推理就是回答問題）。

簡單介紹：

1）用更大的吞吐量掩蓋低延遲（你可以慢，但做多一點）；

2）工程上優化了效率，不僅可以用16GB T4 的顯示卡去替代又貴又稀缺的80G A100。并且實作了這種方式相較以往架構的100倍效率提升。——說白了，推理的時候你不一定要用A100了！喜大普奔！

如果需要比較通俗的科普，看這個：https://zhuanlan.zhihu.com/p/608279479如果需要看GitHub原連結，看這個：https://github.com/FMInference/FlexGen

第二個例子是ColossalAI（看名字就知道，專門對付大模型），Github上17.5K Stars，他在解決訓練成本、推理成本的問題。他的實作方案太複雜了，大概是更高效的并發政策、更好的工程結構等我還沒深入研究的東西哈哈。大家感興趣follow下面連結做深入學習。科普性報道（可能有PR成分）如下：https://zhuanlan.zhihu.com/p/606397774GitHub連結如下：https://github.com/hpcaitech/ColossalAI#GPT-3

第三個例子是各類開源組織，例如EleutherAI（Stable Diffusion，GPT-3的開源組織），LAION（資料開源組織）等，他們對模型或者對資料的開源，推動了更多參與者加入這個方向的研究。

整體來看，有非常多關于降低門檻方面的努力，包括模型開源、模型優化、工程優化、算力降低、顯示卡平替等，說不定有一些我沒發現但正在進行中的（例如定制晶片、稀疏化模型等等）。

方向二：萬物終端 ⭐️⭐️⭐️

我們現在使用ChatGPT可以讓幫我們生成視訊腳本，甚至按API字段要求生成一個可執行的入參指令。但是這種生成永遠停留在文字程度，我們要做最終的生産，隻能自己打開其他的應用（如PS、如其他APP的API接口）才能将生成結果轉變為最終産物。

如果ChatGPT能夠使用工具呢？當我讓他幫我收集海外SaaS公司2022年财報，他将結果整理為清單，同時辨別引用的财報PDF，并将PDF下載下傳到我的桌面（且建立檔案夾并自動重命名）。你覺得如何？想要嗎？

甚至更複雜一點（短期不太現實哈哈），你跟他說幫我畫一張“醉後不知天在水，滿船星夢壓清河”的水墨畫（用AI繪畫），并在右上角用草書寫上這兩句古詩（用PS）。你想要嗎？

這将是颠覆式的開始，就像當初IOS誕生一樣，圍繞一個終端，全世界的應用都會按照他的标準接入，并湧現出無窮的智慧。GPT不再是一種工具，而是新時代人人都離不開的終端——替代手機/電腦，更強大的虛拟終端。

在這種刺激下，巨頭對LLM的争奪會進入一個更劇烈的，更白熱化的階段：新時代的諾亞方舟，不上船者必死。

這一切的開始，來自Meta AI釋出的Toolformer，他讓LLM連接配接工具成為可能。

簡單介紹：

1. 讓AI明确有些問題，可以調用工具（例如知識，計算，查詢日程）；

2. 讓AI合理地轉化自然語言指令為API指令（即調用工具的入參）；

3. 讓AI在組織回答時，正常回答，但部分需擷取的答案，去調用API獲得結果後再嵌入回答中。

下面是一個論文中的例子（括号内即API指令+調用後的結果）：

Q：拜登在哪裡出生

A：拜登在（調用搜尋引擎查詢“拜登在哪裡出生”，獲得答案斯克蘭頓）斯克蘭頓出生。當然論文中的例子還較為簡單，離我的狂想還有一段距離。但這種思路揭示了一種未來：我們可以訓練LLM模型對工具使用的了解，包括何時應該使用工具，自然語言如何轉化為使用工具的API指令。

等他進一步完善之後，所有的應用都必須按照LLM定義的标準提供接口，并跪着求LLM收錄他們作為可調用工具（例如都是查詢月曆行程，我是查Google月曆，還是查滴答清單呢？）

科幻未來就在眼前，三星好評！

簡單科普看這個：https://www.zhihu.com/question/583924233/answer/2900129018論文看這個：https://arxiv.org/pdf/2302.04761.pdf

方向三：思維鍊CoT ⭐️⭐️

第一個例子有點搞笑，但我發誓是真的：

第一步，讓AI回答最終答案之前先拆解問題：“Think step by step”第二步，然後再讓AI基于這個推理結果給出最終答案：“so the answer is ?”拆成兩步後，準确率從17.1%飙升到78.7%

無圖無證據，論文《LargeLanguage Models are Zero-ShotReasoners》原圖

第二個例子來自小冰的X-CoTA。

直接上圖，大家仔細看看：

在圖中，小冰面對問題“北京到蘇州相當于跑了多少個馬拉松”，他拆解成了“北京和蘇州的距離”，“一個馬拉松有多長”兩個問題進行推理。并最終基于兩個小問題的答案給出最後答案。

一方面，複雜問題拆解為多個子問題提升了最終回答的正确率，另一方面，更加關鍵的是——這讓AI的推理過程可視化。而可視化，就意味着人類可以進行過程糾錯，接下來請看第三個例子。

第三個例子：LangChain 的memory功能。

下圖中右側，模型弄錯了Similar to的意思，被使用者教育校正。這個校正會存入Memory中，當AI下次在遇到累死問題，他就會來尋找曾經的memory并避免犯錯。

這個功能本身是和CoT思維鍊毫無關系的。

但是如果你把LangChain的這個功能，與第二個例子結合起來。

你就會發現，所謂的使用者回報（即大名鼎鼎的RLHF）不僅僅能夠出現在訓練/微調環節，更能直接在使用者使用過程中發揮作用，快速積攢大量的優質人類回報，進而進一步提升模型效果。

這個方向一方面本身就可以提升模型效果，另一方面為強化版的使用者回報機制提供了可能，是以給2星。

方向四：反作弊 ⭐️

大家可能看到過最近的這個新聞：《科幻世界禁止使用ChatGPT投稿》，或者更早之前的大學禁止ChatGPT的一些新聞。還有針對GPT監測的工具，例如GPT-Zero，OpenAI自己開發的AI-Text-Classifier等。

我的看法是：政治噱頭。

第一，AI生成的本質是什麼？就是洗稿，例如我寫作中會閱讀大量的報道、文章、論文，然後總結歸納後轉寫出來——是的，技術側的知識我毫無産出，一行代碼也沒敲過，我隻是在學習總結而已。

但這種洗稿問題，在内容時代從來沒被解決過，不要說我這種進階洗稿，就算是低級洗稿也是毫無辦法。

第二，目前的檢測方式是基于模型有監督學習的文本分類模型，在現在LLM模型起步初期，行文還有點生硬時，準确率都不高，何況更進步更拟人的未來？

第三，還有一些從源頭控制的方法，例如添加密碼水印（例如h字元的出現率比平均值高11%~13%），例如應用側主動辨別“來自LLM”的證明。但這些手段仍然可以通過多段拼湊，黑市LLM，離線二次處理等方法繞開。

這個領域是政治、商業上推行下去必須解決的問題，但他的解決方式很可能是表面解決——LLM公司出存在性手段（AI-Text-Classifier），應用側公司做保證性聲明，政府拟定生成類内容法規，但一切對現實毫無影響。

方向五：文本外應用 ⭐️

經過很長一段時間的狂歡後，大部分人（或許隻有我哈哈），可能都忘記了LLM的一個颠覆性變革——AGI通用人工智能的雛形。

這個雛形怎麼往下推進呢？他勢必要将目前集中在文本領域的能力向更大範圍輻射。

典型的例子如ProGen，用大規模語言模型來定向預測蛋白質結構

簡單介紹：

1.複習一下預訓練語言模型，把N多語料喂給他，讓它自己學習世界知識、文法知識、代碼知識。2. 好，模仿這個過程，現在我把蛋白質的結構喂給ProGen，讓它自己學習，讓它明白原來要具備殺菌性，結構是這樣的，具備耐寒性，結構得是這樣的；

3. 現在我可以要求他定向預測蛋白質結構了——例如我要殺菌性好的蛋白質。

這個模型現在的參數規模是12 億，使用包含2.8 億個蛋白質序列的公開資料集——如果他像GPT一樣不停地往上堆資料呢？是不是也會像GPT模型一樣實作能力的湧現？

科普性文章看這篇：https://zhuanlan.zhihu.com/p/603784945

那麼其他領域呢？圖像、視訊、3D？很抱歉，我覺得很難看到突破。

我的判斷和技術一點關系都沒有（我不懂），純粹從商業角度、利益角度看這個事情。

第一，Diffusion在多模态領域狂飙突進，他的爆發遠不到停止的時候，在這個階段，由于他的前景明确、介入成本低，集中了大量的研究人員在推進技術發展。

第二，GPT為代表的LLM，他現在也不太關心文本外應用，他有更着急的事情要去做（例如我前面說的那幾個方向）。——并且，由于他的介入門檻高，在這個領域能夠實操的研究人員還遠遠比Diffusion少。

這就像特斯拉的交流電遇到愛迪生的直流電一樣，當你有一個還不錯，甚至很不錯的競争對手時，你不能隻是優秀一點，你必須優秀非常多！

在産品領域有一個公式描述這種現象：産品價值=（新體驗-舊體驗）-遷移成本。

綜上，對于廣闊的圖像、視訊等領域，我不是特别看好LLM短期内在這個方向的發展。

方向六：私有化 ⭐️⭐️

我之前有一個判斷，LLM的誕生不會摧毀小模型公司，這裡的小模型公司指以前靠賣模型服務吃飯的企業，因為他們的模型比起1750億參數實在太小了，就叫小模型公司哈哈。

這方面的考慮來自幾個方面：實時性（車載/直播等），安全性（金融），成本敏感（客服），答案穩定（金融），道德風險（心理咨詢）。

但是，新聞來了！OpenAI将考慮允許企業私有化部署模型，最低26W美元/年

如果這個消息不是FakeNews（建國兄搖頭.JPG），那麼至少安全性問題解決了，成本、實時等問題可能也會緩解，小模型公司将迎來前所未有的沖擊。

但是私有化也有好處：

首先，私有化大機率是部署小參數規模的LLM居多（比1750億參數少一個量級），那麼這将導緻後續LLM的優化方向不僅僅隻是參數規模的追逐（例如傳說中的萬億參數GPT4），也會回頭關注小參數級别LLM的表現。

其次，更多的應用催生更多的技術更新，并且小參數級别的LLM也降低了進入門檻，會讓這個領域更加百發齊放（其實又和門檻降低方向有點關系了）。

是以，基于對現有商業環境的擾動+技術的有益促進，這個方向的重要程度是2星——哪怕他一點技術含量也沒有（或許還是有一些的）。

方向七：GPT4來了？⭐️⭐️

各種傳言說GPT4已經在路上了，23年就要出來了，但都沒啥證據。而Twitter這位小哥不僅爆料了私有化資訊，還提供了GPT4可能到來的一種猜測。

首先，我們看這張圖，text-davinci-003就是目前OpenAI開放的最先進的模型，可以看到圖中隻支援4Ktokens。（告訴大家一個冷知識，ChatGPT是不開放商用API的，隻有GPT-3開放）

而Twitter小哥爆料的圖中，大家看這張圖中，DV就是davinci——目前OpenAI真正開放商用的GPT3系列名詞。

在圖中，DV最高支援32K的上下文長度，是目前的支援的4K的8倍。

這個莫名其妙的DK（32K max context）是不是傳說中的GPT-4呢？或者哪怕不是，至少也是個GPT-3.6、3.7吧？畢竟翻了8倍的上下文了解能力，實在有點離譜——他從19年到22年也就翻了2倍。

不過，畢竟隻是猜測，是以隻給2星，安慰一下自己的小心髒。

本文由@馬丁的面包屑原創釋出于人人都是産品經理，未經許可，禁止轉載。

題圖來自 Unsplash，基于 CC0 協定

該文觀點僅代表作者本人，人人都是産品經理平台僅提供資訊存儲空間服務。

重磅：盤點7大方向，誰将誕生ChatGPT領域的尤裡卡時刻

方向一：降低門檻 ⭐️⭐️

方向二：萬物終端 ⭐️⭐️⭐️

方向三：思維鍊CoT ⭐️⭐️

方向四：反作弊 ⭐️

方向五：文本外應用 ⭐️

方向六：私有化 ⭐️⭐️

方向七：GPT4來了？⭐️⭐️