天天看點

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

RT-AK新進展

RT-AK開源在K210平台的适配插件

原文:https://mp.weixin.qq.com/s/UMED8uHOiURJEhyJ_cLtBA

應廣大開發者要求,本周RT-AK推出了支援的第二個插件:RT-AK 之 k210 插件。

支援基于 K210 晶片的一些開發闆,目前RT-AK已經能夠在嘉楠堪智的 KD233 和亞博 YB-DKA01 上正常工作。

其他基于K210晶片的開發闆(可能需要定制BSP),批量需求可聯系我們定制,請郵件至:[email protected]

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

AI熱點

Jeff Dean領銜AI助力晶片設計效率革命!6小時内完成布局設計,新一代TPU已用上

原文:https://www.jiqizhixin.com/articles/2021-06-10-2

論文:https://www.nature.com/articles/s41586-021-03544-w

一直以來,微晶片設計的成敗在很大程度上取決于布局規劃和布局步驟,這些布局步驟決定了記憶體和邏輯元件在晶片上的位置。反過來,位置又會強烈影響晶片設計是否能夠滿足包括處理速度和電源效率在内的操作要求。

現在,随着 AI 技術深入到晶片設計領域,一場效率革命可能要再次席卷而來。來自由 Jeff Dean 領銜的谷歌大腦團隊以及斯坦福大學計算機科學系的科學家們,在一項聯合研究中證明,一種基于深度強化學習的晶片布局規劃方法,能夠生成可行的晶片設計方案。

在不到 6 小時的時間内,由該方法自動生成的晶片平面圖在所有關鍵名額上(包括功耗、性能和晶片面積等參數)都優于或與人類專家生成的設計圖效果相當,而人類工程師往往需要數月的緊張努力才能達到如此效果。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

最強Transformer釋出!谷歌大腦提出ViT-G:縮放視覺Transformer,高達90.45%準确率

原文:https://mp.weixin.qq.com/s/tdQSGnApkYGmmz7ZWyssZw

論文:https://arxiv.org/abs/2106.04560

本文作者谷歌大腦 (蘇黎世) 改進了ViT的架構和訓練,減少了記憶體消耗并提高了模型的準确性!最終成功訓練了一個具有20億參數的ViT模型:ViT-G,在ImageNet上達到了90.45%的Top-1準确率。

視覺Transformer(ViT)等基于注意力的神經網絡最近在許多計算機視覺基準測試中取得了最先進的結果。比例是獲得出色結果的主要因素,是以,了解模型的scaling屬性是有效設計的關鍵。雖然已經研究了擴充Transformer語言模型的規律,但尚不清楚Vision Transformers如何擴充。為了解決這個問題,作者向上和向下擴充ViT模型和資料,并描述錯誤率、資料和計算之間的關系。在此過程中,作者改進了ViT的架構和訓練,減少了記憶體消耗并提高了結果模型的準确性。結果,作者成功地訓練了一個具有20億個參數的ViT模型,該模型在ImageNet上達到了90.45%的Top-1準确率。該模型在小樣本學習上也表現良好,例如,在ImageNet上每類隻有10個examples的情況下可以達到84.86%的Top-1準确率。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

AI高仿你的筆迹隻需1個詞,Deepfake文字版來了,網友:以假亂真太可怕

原文:https://mp.weixin.qq.com/s/rmJSazmGu94R6o6BYgBNyw

很多人國小時的夢想被AI實作了!隻需要拍下自己的筆記,AI就能幫你謄抄英語作業,畫風“完全一緻”的那種:

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

幫别人抄作業也毫無問題……直接秒殺某寶上隻能仿手寫、價格還動辄成百上千的“作業神器”.

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

微信圖檔_20210618140743

在實際使用過程中,TextStyleBrush真的就是個格式刷,哪裡需要刷哪裡。它真正厲害的就是模拟手寫字型。隻需輸入一段文本内容,加上你的筆迹,1個單詞即可,它就能生成“手寫版”。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

但是作業還是得好好做啊!這可不是給你用來抄作業的。

NAACL21 最佳論文!羅切斯特大學&騰訊:視訊輔助的無監督句法分析

原文:https://mp.weixin.qq.com/s/bzh7lbcEzfwzRsDmOA1GsQ

論文:https://arxiv.org/pdf/2104.04369.pdf

代碼:https://github.com/Sy-Zhang/MMC-PCFG

世界自然語言處理方向三大頂會之一NAACL 2021(另外兩個是ACL和EMNLP) 已經于2021年6月6日至11日以線上會議的形式成功舉辦。來自羅切斯特大學&騰訊 AI Lab合作的《Video-aided Unsupervised Grammar Induction》一文獲得了最佳長論文,并于2021年6月9日在NAACL 2021上宣講。

文章提出了Multi-Modal Compound PCFGs (MMC-PCFG)用于視訊輔助的無監督句法分析 ,架構如下。與VC-PCFG [3]不同的是,文章中提出的模型以視訊作為輸入,并融合了視訊多種模态的資訊,是VC-PCFG [3] 在視訊上的泛化。對于每個視訊作者首先在時間上等間隔抽取包括物體,動作,場景,聲音,字元,人臉,語音在内的共M種特征。文章還借鑒了多模态transformer [4]來計算視訊和文本片段之間的相似度。

文章在三個資料集(DiDeMo, YouCook2, MSRVTT)上做了實驗。因為這些資料集沒有文法标注,作者用一個監督學習的方法 [5]預測出來的結果當作reference tree。對于物體和動作特征,作者還用不同模型提取了多種不同的特征,包括物體(ResNeXt-101,SENet-154)和動作(I3D,R2P1D,S3DG)。每組實驗都跑10個epoch并用不同的種子跑了4次。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

通過表1中的實驗結果,可以得出文章提出的MMC-PCFG在所有三個資料集中性能都達到了最好的結果,說明模型可以有效利用所有特征的資訊,以及驗證了不同特征對不同的句法結構貢獻不同。

跳舞手腳不協調?沒關系,微視用AI打造你我的舞林大會,一張照片就可以

原文:https://mp.weixin.qq.com/s/Xw83qSLH89UkwOy1XKHEIQ

論文:https://arxiv.org/pdf/2012.01158.pdf

近日,騰訊微視 APP 上線的「照片會跳舞」新特效玩法實作了人體姿态遷移技術的真正落地,讓不會跳舞的你也能在手機上舞動起來。

玩法非常簡單,使用者隻需下載下傳微視 APP,上傳單人 / 多人全身正面照,系統即自動對照片進行 3D 模組化,生成以假亂真的虛拟形象;接着選擇舞種,通過技術能力使虛拟形象按照標明的舞蹈模闆「舞動」起來,模拟效果十分逼真,動作也流暢自然。

QQ 影像中心技術團隊經過對人體 3D 重建技術、GAN 網絡的不斷挖掘與優化,最後實作了使用單張使用者圖,就能達到業界需要複雜技術方可實作的人體姿态遷移效果。同時還支援更高分辨率的輸出,解決了動作僵硬等問題,既保證了舞蹈素材的動作準确性,也使動作更加連貫自然。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

AI工具

Keras正式從TensorFlow分離:結束API混亂與耗時編譯

2019年6月,TensorFlow與Keras合并,但看似雙赢的決定,很多開發者卻不買賬。API 的混亂與割裂不僅令開發者不知所措,也加大了開發者尋找教程的難度。近日,Keras 之父 Francois Chollet 在其推特宣布一項重要決定:他們已經将 Keras 的代碼從 TensorFlow 代碼庫中分離出來,移回到了自己的 repo。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

對于 Keras 從 TensorFlow 分離後有哪些好處?Francois 表示:「這将提升開源貢獻者的開發體驗。對于使用者而言,這将使他們可以在本地運作測試,不再需要編譯 TF 來測試 Keras 了,并且還将改善 CI 時間。」

變更之後,目前 TensorFlow 代碼庫中的 Keras 部分将很快被删除。這意味着:

  1. Keras 開源代碼庫的通路位址将發生變更;
  • 原位址:https://github.com/tensorflow/tensorflow
  • 新位址:https://github.com/keras-team/keras
  1. 經過許可之後,原代碼庫中 Keras 部分的相關 PR 将被手動合并到新代碼庫中。Keras 團隊成員将在内部進行同步和合并,相關作者無需進行任何操作。但如果 PR 已經打開很長時間且沒有作者的活動,Keras 團隊可能會關閉它;
  2. 任何在先前代碼庫中未解決的 Keras 相關活躍問題将在現有的 ticket 線程中處理,并将通過送出到新代碼庫進行修複;
  3. 與原代碼庫相關的陳舊問題将被關閉。如果你認為仍然是有價值的問題,請随時在新代碼庫中重新打開該問題;
  4. 新 Keras 代碼庫在此次變更前未完成的任何 PR/issue 都被認為是陳舊的,将被關閉。

AI開源項目

上交大找到「換臉」新方式:無懼死亡打光、直男視角

原文:https://mp.weixin.qq.com/s/g2ihCfs4-g8LENVG8wE9aw

論文:https://arxiv.org/abs/2106.06340    

代碼:https://github.com/neuralchen/SimSwap

DeepFakes等一衆換臉神器對此紛紛表示:就這?但要是從網上的電影場景中,随意抓一把人物圖像丢進去呢?如果要換的這張臉正好在死亡角度,還做了個特别誇張的表情(或者幹脆就是個表情包)呢?

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

水就有點深了哈。

這時,由上交大和騰訊一起搞出來的換臉架構SimSwap表示:讓我來,我把握得住!

任意人臉都能換:

SimSwap提出了一種ID注入子產品(IIM),在特征層面将源臉的身份資訊遷移到目标臉,消除了原圖特征資訊與解碼器的權重之間的相關性。這樣,就将特定人臉互換算法的結構擴充到了任意人臉互換架構。也就像我們在開頭展示的那樣,不用精挑細選“正臉”或“中性表情,直接從網上抓一把人物圖檔,也能夠完美換臉。

死亡角度、誇張表情也不怕:

除了泛化到任意人臉變換之外,SimSwap也能更好地儲存原圖的臉部表情和角度。不管是表情嘴巴嘟嘟,還是目标圖和原圖一側一正兩個角度,都能完美換臉。就算是自下而上的死亡打光圖,SimSwap也表現得更好。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

60.6 AP!打破COCO記錄!微軟提出DyHead:将注意力與目标檢測Heads統一

原文:https://mp.weixin.qq.com/s/uYPUqVXwNau71VAYW3bYIA

論文:https://arxiv.org/abs/2106.08322

代碼:https://github.com/microsoft/DynamicHead

目标檢測中定位與分類合并的複雜性衍生出了各式各樣的算法,然而這些方法從不同的角度出發進行目标檢測性能的提升,難以從一個統一的角度進行分析度量。本文提出一種新穎的動态頭架構,它采用注意力機制将不同的目标檢測頭進行統一。通過特征層次之間的注意力機制用于尺度感覺,空間位置之間的注意力機制用于空間感覺,輸出通道内的注意力機制用于任務感覺,該方法可以在不增加計算量的情況顯著提升模型目标檢測頭的表達能力。

COCO資料集上實驗驗證了所提方案的有效性與高效性。以ResNeXt-101-DCN為骨幹,我們将目标檢測的性能提升到了54.0AP,取得了一個新的高度;更進一步,采用最新的Transformer骨幹與額外資料,我們可以将COCO的名額推到一個新記錄:60.6AP。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

基于強化學習的自動化剪枝模型

原文:https://mp.weixin.qq.com/s/IOlz6R9cKbhgEjfKURmjZA

代碼:https://github.com/freefuiiismyname/cv-automatic-pruning-transformer

目前的強化學習工作很多集中在利用外部環境的回報訓練agent,忽略了模型本身就是一種能夠獲得回報的環境。本項目的核心思想是:将模型視為環境,建構附生于模型的 agent ,以輔助模型進一步拟合真實樣本。

大多數領域的模型都可以采用這種方式來優化,如cv/多模态等。它至少能夠以三種方式工作:

1.過濾噪音資訊,如删減語音或圖像特征;

2.進一步豐富表征資訊,如高效引用外部資訊;

3.實作記憶、聯想、推理等複雜工作,如建構重要資訊的記憶池。

這裡推出一款早期完成的裁剪機制transformer版本(後面稱為APT),實作了一種更高效的訓練模式,能夠優化模型名額;此外,可以使用動态圖丢棄大量的不必要單元,在名額基本不變的情況下,大幅降低計算量。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

文末福利

這個repo,絕對是伸手黨的福音,共享300+開源模型!

連結: https://github.com/PaddlePaddle/PaddleHub

進入github中,首屏發現 5 大亮點:

1、中英文雙國文檔:絕對國内開發者福音。

2、教程文檔豐富:快速開始、教程文檔、模型搜尋、示範 Demo,絕對開源項目頂配。

3、專業 icon:專業性一目了然。

4、300 + 開源模型:涵蓋 CV、NLP、Audio、Video、工業應用主流五大品類的 300+ 預訓練模型,沒有看錯,全部開源離線可運作。基本上是每個月都保持 10-20 個更新。

5、易用性做到極緻:一鍵預測、一鍵服務化、十行代碼遷移,技術門檻足夠降低。

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

AB32VG1 RISC-V評估闆正式現貨發售,RT-Thread聯合中科藍訊回饋小夥伴的支援,售價大折扣49元包郵,數量有限售完即止。

????????????

點選閱讀原文購買開發闆

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

你可以添加微信17775982065為好友,注明:公司+姓名,拉進 RT-Thread 官方微信交流群!

【AI簡報20210618期】AI高仿你的筆迹隻需1個詞、與你共享300 + 開源模型

???????????? 點選閱讀原文購買開發闆

繼續閱讀