天天看點

小米、面壁智能、火山引擎、快手等專家,聯合解讀多模态最新技術

作者:InfoQ

随着大模型的廣泛應用,多模态技術被認為是未來發展的方向。然而,盡管前景廣闊,但其面臨着諸多挑戰和困難,如資料融合、模型融合、跨模态資訊融合等方面的技術難題。在 AICon 全球人工智能開發與應用大會 暨 大模型應用生态展上,我們特别策劃了多模态技術與應用專題,由小米 AI 實驗室機器學習團隊技術主管孟二利擔任專題出品人,精心評選了以下四位專家來分享他們的見解:

聲音基礎模型如何推動聲音了解和生成

首先,我們非常榮幸地邀請到王育軍,他是小米的語音技術負責人,也是技術委員會 AI 實驗室聲學語音方向的負責人。在學術界和工業界從事聲學語音方向已有 20 年之久,擁有豐富的經驗。他的研究興趣包括聲音的感覺、了解、生成與展現。他上司的聲學語音團隊于 2017 年成立,涵蓋了語音了解、生成與測量三個領域,團隊下設 17 個子方向,包括語音識别、聲音分析還原、語音合成等。他們為小米的手機 AIoT 平台提供語音服務,日均提供服務 12.6 億次,并先後獲得 7 項國内外聲學語音挑戰賽冠軍。

王育軍将在演講中重點介紹小米聲音基礎模型的演進,以及聲音基礎模型如何從編解碼兩側精準助力聲音的了解與生成。通過他的分享,聽衆将了解到聲音基礎模型在推動聲音了解和生成方面的重要作用,以及目前面臨的挑戰和未來的展望。

邁向實用化多模态大模型

其次,我們也榮幸地邀請到姚遠,他是面壁智能的研究員,也是清華大學計算機系的博士後。他在多模态大模型、資訊抽取和知識圖譜等領域有着豐富的研究經驗。他将分享關于邁向實用化多模态大模型的演講,重點介紹了團隊在這一領域的最新工作和成果。

在演講中,他首先将分析了多模态大模型在實用化過程中所面臨的挑戰,包括參數規模、計算成本、圖像感覺分辨率、語言能力等方面的限制。随後,他會分享了團隊近期的前沿探索,涵蓋了端側基座大模型建構、高清圖多模态大模型、多模态能力跨語言泛化以及多模态人類回報強化學習等方面。

其中,他會重點介紹了團隊建構的高效端側多模态大模型系 MiniCPM-V 2.0。這一系列模型總參數量為 2.8B,具備多項突出特點:性能領先,在常用評測基準上綜合得分優于主流模型;OCR 能力突出,支援高清圖像編碼,并在雙語支援和可信行為方面取得顯著成績。MiniCPM-V 2.0 在國際開源平台 HuggingFace 上表現優異,獲得了廣泛的關注和認可。

通過他的分享,聽衆将能夠深入了解目前多模态大模型在實用化過程中所面臨的挑戰,并掌握針對這些挑戰的優化政策和技術方法,進而更好地應用于實際場景中。

多模态大模型在金融行業的實踐和展望

我們也榮幸邀請了周思霁,她是火山引擎的金融解決方案總監兼金融大模型負責人。她緻力于推動人工智能在金融行業的落地應用,在自然語言處理、機器學習和計算機視覺等領域有着深入的研究和行業經驗。她将分享關于多模态大模型在金融行業的實踐和展望 的演講,深入探讨了這一領域的關鍵問題和前景。

在演講中,周老師将指出大模型從單模态向多模态的轉變将為各行各業帶來新的生産力工具,可能引發商業模式的革命性變革。特别是在金融行業,利用多模态方法綜合處理文本、數字、表格和視覺資料,可以全面了解金融專業檔案,進而提升技術在金融領域的應用效果。

此外,她還将深入分析了多模态大模型技術在金融領域的發展趨勢和應用場景。她也将探讨海内外多模态大模型發展的趨勢,深度解析了技術的機遇與挑戰,并展望了金融多模态大模型在實踐中的落地展望。

快手「可圖」文生圖大模型應用實踐

我們邀請到了李岩,他是快手「可圖」大模型團隊的負責人,也是中科院計算所的博士。他擁有超過 10 年的算法研發、業務落地及管理經驗,在多模态内容了解與生成技術領域有着豐富的經驗。他将分享關于快手「可圖」文生圖大模型應用實踐 的演講,向聽衆介紹快手首次公開釋出的自研文生圖大模型,以及在快手 APP 中的應用實踐和效果收益,以此啟發行業的發展。

在演講中,李岩老師将回顧文生圖大模型的行業發展曆程,以及快手文生圖大模型的研發之路,深入探讨了這一技術的技術路徑和實作方式。他還将分享快手文生圖大模型的周邊插件能力,以及在快手 APP 中的落地應用與價值剖析,為聽衆提供了關于如何從零研發中文文生圖基座大模型、如何準确客觀評估一個文生圖大模型的效果、如何選擇 ROI 最高的文生圖大模型落地場景、以及如何規避文生圖大模型的應用風險等方面的建議和啟發。

通過他的分享,聽衆将能夠了解到文生圖大模型在快手中的應用實踐,以及如何在自己的工作中應用這一技術,實作更高效、更具價值的業務目标。

活動推薦:

距離會議開幕僅剩1天,門票即将售罄......

會議即将開幕,購票或咨詢其他問題請聯系票務同學:13269078023,或掃描上方二維碼添加大會福利官,可領取福利資料包。

原文連結:https://sourl.co/ytYqVL

繼續閱讀