這裡所有文章均來自
微信公衆号“火星AIGC”
想要看到更多更新的AI前沿資訊、AI資訊和AI工具實操,請關注微信公衆号“火星AIGC”。
昨晚Meta開源釋出了多個模型、工具和資料集,包括 Chameleon 多模态大模型、文生音頻模型 AudioCraft 、音頻加水印工具 AudioSeal等。
Chameleon 大模型
之前 Meta已經釋出過該大語言模型的,我之前的文章也有介紹。
視訊加載中...
Chameleon 這款多模态大模型的主要特點就是可以文本和圖像同時輸入和混合輸出。這次正式開源的 Chameleon 7B 和 34B兩款模型,并不是之前釋出介紹完整版,釋出的這兩款模型隻支援文本圖像混合模式輸入和純文字輸出,且僅能研究性使用。Meta宣稱不會釋出 Chameleon 圖像生成模型。
論文位址:
arxiv.org/abs/2405.09818
模型擷取位址:
ai.meta.com/resources/models-and-libraries/chameleon-downloads/?gk_enable=chameleon_web_flow_is_live
Multi-token Prediction 多詞預測
這是新的關于大語言模型的訓練方法。目前大語言模型訓練都有一個簡單的訓練目标:預測下一個單詞。雖然這種方法簡單且可擴充,但效率也很低。它需要的文本比兒童學習相同程度的語言流利程度所需的文本多幾個數量級。
Meta提出多詞預測來建構更好、更快的 LLM 。使用這種方法,可以訓練語言模型來同時預測多個未來單詞,而不是以前每次預測一個單詞的方法。這提高了模型能力和訓練效率,同時提高了速度。Meta根據非商業/研究專用許可證釋出預訓練模型以供代碼完成。
論文位址:
arxiv.org/abs/2404.19737
模型位址:
huggingface.co/facebook/multi-token-prediction
AudioCraft 文本生成音頻
AudioCraft 是一個系列工具,也是一個用于音頻生成深度學習研究的 PyTorch 庫,包含四個模型和兩個編解碼器:MusicGen、AudioGen、MAGNeT、AudioSeal以及EnCodec和Multi Band Diffusion。AudioSeal以商用許可開源,其餘模型和代碼,Meta根據 CC-BY-NC (署名和非商用)協定開源。
MusicGen 是一種最先進的可控文本生成音樂模型。
AudioGen 是最先進的文本生成聲音模型。
MAGNeT 是一種用于文本到音樂和文本到聲音的最先進的非自回歸模型。
AudioSeal 是最先進的給音頻添加水印的模型。
EnCodec是用于訓練音頻的最先進的高保真神經音頻編解碼器。
Multi Band Diffusion是使用diffusion架構的 EnCodec 相容解碼器。
Meta這次開源了一整套文本生成音頻的模型,确實如其所說是最先進的文本生成音頻模型,隻是應該在其加開源兩字。這個系列後面有機會再詳細介紹。
論文位址:
arxiv.org/pdf/2406.10970
項目位址:
github.com/facebookresearch/audiocraft
PRISM 資料集
關于人工回報在大型語言模型 (LLM) 的校準中起着核心作用,人工回報收集的方法 (如何)、領域 (在哪裡)、人員 (誰) 和目标 (目的) 仍然存在懸而未決的問題。Meta釋出的PRISM資料集就是為了解答這些問題,該資料集映射了來自 75 個國家/地區的 1,500 名多元化參與者的社會人口統計資料和偏好。
論文位址:
arxiv.org/abs/2404.16019
項目位址:
huggingface.co/datasets/HannahRoseKirk/prism-alignment
DIG In 地理差異名額
DIG In 是用來評估文本轉圖像模型中的潛在地理差異的自動名額。用來評估當提示生成來自世界各地的對象時,文本到圖像生成系統的真實性、多樣性和提示生成一緻性。友善改進文本轉圖像模型,以反映出世界的地理和文化多樣性。
論文位址:
arxiv.org/pdf/2308.06198
項目位址:
github.com/facebookresearch/DIG-In
雖然Meta 在AI領域一直超不過美國的另外兩家,但它一直持續的在做開源AI生态建設,這是非常值得肯定和贊賞的,特别這次開源的AudioCraft 文本到音頻的一系列模型,應該是在該領域的頂流,有必要後面另開一篇詳細的介紹。