在人工智能技術的飛速發展下,AI圖像生成工具正成為創意産業的新寵。Midjourney,一個基于Stable Diffusion技術的AI圖像生成平台,以其獨特的使用者界面和高品質的圖像生成效果,迅速在廣告和藝術領域嶄露頭角。本文将深入分析Midjourney的商業模式、營運政策、客戶群體以及它如何在競争激烈的市場中實作“以小搏大”的成功。
Midjourney 是一個 AI 圖像生成工具,使用的底層技術是 Stable Diffusion,使用者可以在無需進階技術技能的情況下建立獨特且高品質的圖像,生成圖檔藝術效果非常出色,目前已被廣告商和藝術家應用。
Midjourney 不是軟體,也不需要安裝,它是一個依托于 Discord(一款國外聊天社群)之下的工具,隻可在 Discord 中進入,通過添加 Midjourney 工具機器人,輸入文字對話即可,目前已經疊代至 V6 版本(2023年12月釋出的 V6)。
一、公司基本資訊
Midjourney 公司是在2021年8月成立的,由位于美國舊金山的獨立研究室 Midtrivey 開發,在2022年7月開啟公測,公司在推出僅六個月後就實作了盈利。
這家公司成名之時,團隊僅有11名全職人員,并且其中8名都是還沒畢業的大學生,沒有投資者、沒有真正的經濟動機,沒有銷售什麼産品或成為上市公司的壓力,他們隻是想做一些酷的事情,卻在短短一年内實作1億美元營收。
2023年底相關資訊,團隊成員已經擴大至40名。
其官網位址:https://docs.midjourney.com/ 。
其官網上的自我介紹:Midjourney 是一個獨立的研究實驗室,探索新的思維媒介,拓展人類的想象力。我們是一個自籌資金的小團隊,專注于設計、人類基礎設施和人工智能。
可以看出這家公司的經營理念:不融資,不追求團隊規模,更關注公司盈利能力,保持小規模營運,保持強獨立性。Midjourney 其實是一個實驗室,不需要向任何人解釋業務是什麼,就可以有足夠的錢來做研究。是以它沒有選擇風投創業,而是選擇針對一個問題,找到調研的目标和方法,在一群人身上測試,最終并對提供的東西收費。
二、創始人相關資訊
Midjourney 的創始人兼 CEO 是 David Holz,其高中時期,曾從事設計業務,大學時,讀了實體和數學專業,在 NASA 和 Max Planck 工作期間攻讀了流體力學博士學位,2011年,創辦VR領域的軟硬體公司 Leap Motion,2021年自籌資金創辦了獨立研究室 Midjourney。
David Holz 在其相關訪談中談到的一些個人觀念[1]:
Holz 認為,技術的最大限制不是規模、成本或速度,而是我們如何與之互動。不管我們有多聰明,技術有多好,我們如何合作從根本上決定了我們能做什麼。這也是當初 Leap Motion 的使命。
Holz 不喜歡用 AI 生成假照片的想法,因為感覺這個世界上并不缺這樣的東西,但更願意讓其作為商業插圖。《經濟學人》在去年六月份的雜志封面就用了 Midjourney 生成的圖檔。
Holz 認為,AI 工具可以讓藝術家在他們所做的事情上做得更好,而不是讓每個人都成為專業藝術家。Midjourney 其實并不是僅是為專業藝術家制作的,重要的是要強調這與藝術無關。這是關于想象力。想象力有時用于藝術,但通常不僅用于藝術。
Holz 認為 Midjourney 最大的挑戰是,雖然他們願意制作多種産品,但挑戰在于産品不僅僅是一組功能,而且還是一個社群、一個品牌和一個願景。因為很難花一大筆錢從中購買六個未來願景和六種不同類型的社群和産品。
但 Holz 也坦誠還沒有想出一種方法來擴充它 —— 但他知道,每個産品公司基本上都不會嘗試一次生産 10 種産品,比如 Apple 的産品線就極其精簡。
當計算機比 99% 的人類更善于視覺想象時,這意味着什麼?
這并不意味着我們将停止想象。
汽車比人類快,但這并不意味着我們停止步行。當我們遠距離運輸大量物品時,我們需要發動機,無論是飛機、輪船還是汽車。我們将這項技術視為想象力的引擎。是以這是一個非常積極和人性化的事情。
關于 Midjourney 的願景,他希望能以某種方式創造一個更有想象力的世界。因為今天世界最大的問題是信仰崩潰,包括對自己的,對未來的信念。而造成這種問題的主要原因那就是缺乏想象力,缺乏自己可以成為什麼人的想象力,缺乏對未來的想象力。是以想象力才是我們在世界上所需要的東西的重要支柱。是以我想通過 Midjourney 來将其變成一種可以「擴充人類想象力的力量」将使用者置于充滿想象力的環境中,可以改變他們對自己和他們能做什麼的信念。
我從 Leap 中吸取了很多經驗教訓,那就是不要試圖一上來就設計一個完整的體驗,假設你可以看到未來的10步,隻做一堆東西,看看什麼很酷,什麼人們喜歡。然後就找到最酷的三件事,把他們放在一起,這樣就能發揮更大的協同效應。
我們 logo 是一艘小帆船,我們是在乘船旅行中。Midjourney 的體驗是一個聊天機器人在一個有多人的環境中,而不是試圖成為一個人。
水是危險的,但它也是文明的驅動力,作為知道如何與水一起生活和共事的人,我們相處得更好。這是一個機會。它沒有意志,沒有惡意,是的,你可能淹死在裡面,但這并不意味着我們應該禁止水。當你發現一個新的水源時,這真的是一件好事。
三、Midjourney 的商業模式
1. 營運模式
Midjourney 的組織結構與很多創業企業模式有顯著差異。以最少的管理層和小型獨立團隊為特征,這種結構促進了靈活性和創新。簡化的方法使決策更快速,更能夠對市場變化和使用者回報做出響應。這種組織模式還反映了對保持緊密協作環境的承諾,團隊成員的每一項貢獻都直接關聯到公司的整體成功。這是一種支援自主權并鼓勵創造性解決問題的結構,在 AI 和技術快節奏的世界中至關重要。
外部顧問在 Midjourney 中的角色是其組織戰略的另一個關鍵方面。公司不依賴于傳統的董事會,而是依靠一群經驗豐富的顧問網絡。這包括提供戰略指導的人工智能投資者和行業資深人士,沒有傳統公司董事會的形式和限制。這種咨詢模式使 Midjourney 能夠從多元化的觀點和專業知識中受益,同時保持其獨立性和靈活性。
2. 其與 Discord 的合作關系
最初創始團隊使用 Discord 是因為用其遠端協作辦公,當時建構引入一個機器人幫助調試系統,在調試過程中大家做了 AI 生成圖檔,覺得很有趣,然後就開放給使用者,每個人都很喜歡,也看到人們實時交流想法,創造了富有想象力的環境。于是他們選擇直接搭載在 Discord 社群中,這使 Midjourney 具有了社交屬性。
Midjourney 已經成為了有史以來最大的聊天機器人程式。Holz 說,許多聊天機器人都有一個誤區,就是想成為人。我們設計 bot 的時候想的是,這是一輛車,所有人都應該坐在這輛車上,這樣的大家就能看到所有的風景了 —— 沒有人和機器的對話,隻有人和人的對話。是以從這個視角來看,Midjourney 的機器人隻是某種協作的指令行、搜尋或者空間而已。
這種設計思路,始終能讓房間内有一個主題,而不會演變成某種肆意閑聊,大家的注意力都會隔一陣被生成的圖檔所吸引。同時也能讓新來的人更好地了解産品。因為他不需要問「我該怎麼做」,他隻需要像所有人類具有的學習能力一樣,坐下來靜靜觀察一下,然後動手嘗試,就能慢慢地掌握相關的技巧。這就像單純讓一個人生成一張「狗」的圖檔,并不興奮,但是讓一群人待在一起,不斷生成「太空狗」「雷射狗」等等,就能互相激發創造力,這樣也就建構了一個富有想象力的環境,也能增強人們的想象力。
Midjourney 的 Discord 伺服器中,45 歲的人和 18 歲的人一樣多,年長的人由于有更多的經驗和詞彙,更傾向于文字描述,而年輕人更喜歡用圖生成圖。是以最重要的是有想法,然後去測試想法, 但不帶有強烈的觀點,否則你将看不到事情的本質。事實上,建構産品最重要的部分,就是對想要發現的事物本質,保持開放的态度。
3. 收費模式
其收費模式很簡單,就是采用訂閱使用的模式,分四種,價格10-120美元/月。以下為官網價格截圖。
4. 成本分析
盡管 Midjourney 是一家使用雲服務的軟體公司,但由于需要大量投資于基礎設施以支援數百萬人使用的積極訓練的AI服務,它仍然依賴資産密集型模式。
除了支援其小團隊外,Midjourney 最大的開支可能主要分為三類:資料收集、資料清洗和訓練,以及伺服器成本[2]。
1. 資料收集(網絡爬取):建構和運作高效的網絡爬蟲可能很昂貴,有些服務每小時收費約3.33美元。假設 Midjourney 隻爬取了一周的網際網路照片,大約20億張照片,每張照片隻需要10毫秒來爬取。這将導緻約55,000小時的爬取,以每小時3.33美元計算,僅為收集一周的照片可能需要花費大約185,000美元。這還不包括支付代理以防止 IP 阻止,因為許多網站會自動阻止大規模網絡爬取,也不包括專門用于運作資料收集過程的伺服器成本。
2. 資料清洗與訓練神經網絡:一旦資料收集完畢,仍需進行清洗。還需考慮使用大型資料集訓練擴散模型的伺服器成本。例如,在 Google Cloud 上訓練小規模的生成對抗網絡(General Adversarial Network)或舊方法生成式人工智能圖像,每月成本可在2.5K至3.1K之間。Stable Diffusion 本身是通過在 Amazon Web Services 上使用256塊 Nvidia A100 GPU 進行訓練,總計150K GPU 小時,成本為60萬美元。
3. 伺服器成本:2022年8月接受 Verge 采訪時,Holz 描述了生成此類圖像所需的計算能力。“每張圖檔都需要進行 petaops 運算。是以,成千上萬的操作。我不确定具體是五個、十個還是五十個。但生成一張圖檔需要成千上萬次的操作。這可能是最昂貴的…你可以稱其為一種服務或産品 – 毫無疑問,以前從未有過這樣的服務,普通人使用這麼多的計算量。”
四、客戶群體
目前 Midjourney 有超過2000萬使用者,MJ 的主要客戶群體包括:藝術家、創意從業者、設計師、廣告公司等需要進行圖像創作和編輯的企業和群體,以及一些體驗圖形生成的普通使用者。根據相關創始人 David Holz的訪談,大約有 30%-50% 是專業人士,用來增強他們的創意和溝通過程。大多數人是普通使用者,體驗和綻放自己的想象力。
雖然該 Midjourney 公司沒有公布最新客戶群資訊,但根據相關資料,Midjourney 的客戶可能分為兩類:廣告商和藝術家。[2]
廣告商:廣告商可以求助于 Midjourney 來生成定制的圖檔,無需支付圖檔庫許可證或攝影師的費用,就能輕松修改圖檔。Midjourney 的長寬比混搭選項可能對那些希望通過修改或編輯在不同社交平台和裝置上重複使用内容的團隊特别有幫助。
藝術家:雖然有些人認為人工智能藝術是與藝術家競争的産物,但 Holz 說,藝術家使用 Midjourney 時 “一開始會更具探索性,在很短的時間内就能想出很多點子”。遊戲設計師和概念藝術家也可以使用 Midjourney 作品作為基礎,然後再進行模組化和裝配。
除了幫助藝術家在花費數小時繪圖、模組化或拍照之前确定一個想法之外,其他人也将 Midjourney 用作他們工作的輸入。平面設計師可以生成背景紋理,而攝影師則可以生成新的天空。
Midjourney 這樣的生成式人工智能工具出現之前,藝術家們主要依靠 Pinterest、Dribble 或圖檔庫等網站來擷取靈感。雖然這些方法可以為藝術家提供所有的素材,但隻有生成式人工智能才有可能幫助藝術家在靈感階段将素材組合起來。藝術家對人工智能藝術的接受程度因創作者而異。
五、Midjourney 成功“以小搏大”的原因:
訓練成本低:垂類 AI 繪畫模型的搭建和訓練門檻相對較低,算法參考開源的Diffusion 和 CLIP 模型,同類模型 Stable Diffusion 的訓練成本不到60 萬美元,訓練資料集來自網上爬取的億級資料。
Discord 平台優勢:Midjourney 搭建在 Discord 平台上,Discord 成熟的使用設施、龐大的使用者基數及社群生态賦能 Midjourney。通過先發優勢和社群互動積累了海量使用者标注的“文字-圖檔”一緻性效果資料,再通過監督學習機制不斷優化AI 模型的生成效果,約一年時間快速疊代更新了五個版本。
獨特的藝術風格圖像生成效果優勢:Midjourney 形成獨特的藝術風格、差異化競争,使用者可以在提示詞中選擇 Midjourney 預設藝術風格的應用強度。Version5 已率先完善手指生成畸形的難點,大幅提升圖像的寫實細節、自然語言提示的了解能力等[3]。
六、競争對手
1. DALL- E 2
OpenAI 的圖像生成模型 DALL-E 2 本身就是一款功能強大的人工智能圖像生成器,或許也是 Midjourney 最大的競争對手。與 Midjourney 相比,DALL-E 2 完整的網絡應用程式使用者界面對于尚未使用 Discord 的消費者來說可能更容易接受。
雖然與 Midjourney 的 v5 相比,DALL-E 2 的提示品質不太可靠,但與 Midjourney 不同的是,DALL-E 2 可以通過 API 通路。OpenAI 的大量資金、其他人工智能模型的關注度以及非平台使用使其成為一個強大的競争對手。
2. Runway
Runway 成立于 2018 年,提供協作式視訊和圖像編輯軟體。除了實時編輯,Runway Research 的人工智能工具還提供強大的提示、編輯和圖像到視訊軟體。
截至 2023 年 10 月,Runway 已融資 2.365 億美元。Runway 提供功能有限的免費試用版,其最便宜的訂閱計劃起價為每個使用者每月 15 美元。
盡管 Midjourney 使用者可以通過 Discord 進行協作,但 Runway 的實時協作可以貫穿整個設計過程。Runway 主要面向專業和企業使用者,而 Midjourney 則更多面向個人使用者。
盡管 Runway 提供了自己的人工智能圖像生成功能,但一些使用者仍然使用 Midjourney 生成圖像,例如将這兩個工具結合起來制作電影預告片。
3. Stable Diffusion
于2022年8月公開釋出;據報道,其開發資金來自2019年成立的初創公司 Stability AI。截至 2023 年 10 月,Stability AI 已累計融資 1.238 億美元,其最新一輪融資 2500 萬美元是在 2023 年 6 月通過可轉換票據籌集的。
盡管自2015年以來就存在基于擴散的圖像模型,但 Stable Diffusion 仍然是 DALL-E 2 和 Midjourney 的受歡迎替代方案。
Stable Diffusion 是一個開源模型,這意味着任何人都可以免費下載下傳和使用它。它還比 Midjourney 更具可定制性,具有更廣泛的功能和設定。
不過,Midjourney被設計為更易于普通人使用。
4. Adobe
1982年成立的 Adobe 開發了60多個軟體應用程式,包括其創意和 Acrobat 套件,以支援藝術家和企業客戶的日常工作流程。截至2023年10月,Adobe 的市值達到2373億美元。
雖然自2019年以來AI已經為 Adobe 工具如内容感覺填充提供動力,但 Adobe 在2023年3月釋出 Firefly 後正式加入了AI競賽。
Firefly 是一款生成式 AI工具,被加入到創意雲套件中,使使用者能夠生成圖像、矢量、視訊甚至3D。Adobe 的 Firefly 旨在将人工智能融入已習慣使用 Adobe 産品套件的使用者的工作流程中。這意味着 Adobe 使用者可以借助熟悉的工具,如 Photoshop 中的“畫筆”工具,使用 Firefly,進而使使用者可以定義 AI 驅動編輯的特定區域。
與 Firefly 跨越各種 Adobe 應用程式進行內建不同,Midjourney 的主要目的是生成新圖像,而不是精确編輯或修改現有圖像。
5. Shutterstock
成立于2003年的 Shutterstock 是一個庫存媒體網站,提供照片、視訊、音頻、平面設計模闆和3D素材,還有一些圖檔編輯和媒體規劃工具。2023年5月,Shutterstock 釋出了自己的AI圖像生成器,并公布了一個智能設計助手的候補名單。
與 Midjourney 相比,Shutterstock 提供了更多類型的媒體,Midjourney 隻提供圖像。
盡管 Midjourney在使用者控制和靈活性方面對庫存圖像具有一般優勢,但Shutterstock 的新生成式 AI 工具和 AI 設計助手可能會滿足現有的 Shutterstock 使用者;它甚至可能利用其廣泛的 SEO 覆寫率來實作分銷優勢。通過快速的谷歌搜尋很容易找到 Shutterstock 圖像,而相比之下,Midjourney 缺乏平台外通路的能力也可能使其在與 Shutterstock 的基于 Web 的生成器相比處于劣勢[2]。
六、商業畫布
參考資料:
[1]https://www.aixinzhijie.com/article/6815438
[2]https://research.contrary.com/company/midjourney
[3]https://stock.hexun.com/2023-04-07/209428047.html
編輯:Agcl 校對:Jie
本文由人人都是産品經理作者【圈圈】,微信公衆号:【lovepm】,原創/授權 釋出于人人都是産品經理,未經許可,禁止轉載。
題圖來自Midjourney官網截圖