7 Papers & Radios | 中文大規模跨模态新基準Zero；AI與冷凍電鏡揭示原子級NPC結構

機器之心 & ArXiv Weekly Radiostation

參與：杜偉、楚航、羅若天

本周主要論文包括奇虎360人工智能研究院和清華大學聯合釋出的大規模中文跨模态基準資料集 Zero，以及 Science 封面特刊的五篇 AI 幫助揭示核孔複合體結構的論文。

AI-based structure prediction empowers integrative structural analysis of human nuclear pores
Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold
Quantum computational advantage with a programmable photonic processor
Rethinking Graph Neural Networks for Anomaly Detection
Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework
Siamese Image Modeling for Self-Supervised Vision Representation Learning
FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects
ArXiv Weekly Radiostation：NLP、CV、ML 更多精選論文（附音頻）

論文 1：AI-based structure prediction empowers integrative structural analysis of human nuclear pores

作者：Shyamal Mosalaganti 等
論文位址：https://www.science.org/doi/10.1126/science.abm9506

摘要：雖然核孔複合體（NPC）介導核質轉運，它們錯綜複雜的 120 兆道爾頓架構仍未完全得到了解。馬克斯・普朗克生物實體研究所等機構的研究者報告了具有顯式膜和多構象狀态的人類 NPC 支架的 70 兆道爾頓模型。他們将基于 AI 的結構預測與原位和細胞冷凍電子斷層掃描、綜合模組化相結合。結果表明，接頭核孔蛋白在亞複合體内和亞複合體之間組織支架，以建立高階結構。微秒長的分子動力學模拟表明，支架不需要穩定内外核膜融合，而是擴大中心孔。他們舉例闡釋了如何将基于 AI 的模組化與原位結構生物學相結合，以了解跨空間組織級别的亞細胞結構。

7 Papers & Radios | 中文大規模跨模态新基準Zero；AI與冷凍電鏡揭示原子級NPC結構

人類 NPC 支架架構的 70 兆道爾頓模型。

推薦：新研究将基于 AI 的結構預測與原位和細胞冷凍電子斷層掃描、綜合模組化相結合。

論文 2：Structure of cytoplasmic ring of nuclear pore complex by integrative cryo-EM and AlphaFold

作者：Pietro Fontana 等人
論文位址：https://www.science.org/doi/10.1126/science.abm9326

摘要：哈佛醫學院等機構的研究者使用單粒子冷凍電子顯微鏡和 AlphaFold 預測，從非洲爪蟾卵母細胞中确定了近乎完整的 NPC 細胞質環結構。具體地，他們使用 AlphaFold 預測核孔蛋白的結構，并使用突出的二級結構密度作為指導來适應中等分辨率的地圖。某些分子互相作用通過使用 AlphaFold 的複雜預測進一步得到建立或确認。

研究者确定了五份 Nup358 的結合模式，它是最大的 NPC 亞基，具有用于轉運的 Phe-Gly 重複序列。他們預測 Nup358 包含一個卷曲螺旋結構域，可以提供活性以幫助它在一定條件下作為 NPC 形成的成核中心。

非洲爪蟾 NPC 細胞質環的 Cryo-EM 結構。

推薦：研究者使用 DeepMind 的 AlphaFold 來預測核孔蛋白的結構。

論文 3：Quantum computational advantage with a programmable photonic processor

作者：Lars S. Madsen 等人
論文位址：https://www.nature.com/articles/s41586-022-04725-x.pdf

摘要：在一項新研究《可程式設計光子處理器的量子計算優越性》中，多倫多量子計算初創公司 Xanadu 推出了全新的裝置 Borealis，它可能是第一台完全可程式設計的光子量子計算機。這項研究 6 月 1 日正式發表在 Nature 雜志。

在 Borealis 中，量子比特由所謂的「壓縮态」構成，由光脈沖中的多個光子的疊加組成。由于量子實體學的超現實性質，傳統量子比特能夠以一種稱為疊加的狀态存在，它們可以表示資料的 0 或 1，而壓縮态能夠以 0、1、2、3 或更多的狀态存在。它能夠生成多達 216 個壓縮光脈沖序列。「重要的是要認識到 Borealis 并不等同于 216 量子比特的傳統裝置。由于它使用壓縮态的量子比特，它處理的量子任務與基于超導電路量子比特或離子阱的裝置不同。」Lavoie 說。

來自完全可程式設計光子處理器的高維 GBS。

GBS 裝置的實驗驗證。

相對于真值的基準。

推薦：首台完全可程式設計光量子計算機面世：超過最強超算富嶽 7.8 萬億倍。

論文 4：Rethinking Graph Neural Networks for Anomaly Detection

作者：Jianheng Tang 等人
論文位址：https://arxiv.org/pdf/2205.15508.pdf

摘要：圖神經網絡（GNN）被廣泛應用于結構化資料的異常檢測，例如社交網絡惡意賬号檢測、金融交易欺詐檢測等。香港科技大學和斯坦福大學首次從譜域的角度（即圖拉普拉斯矩陣的譜分解）分析了異常資料可能造成的影響。

他們的核心發現是：異常資料将導緻頻譜能量出現 “右移” 現象，即頻譜能量分布從低頻向高頻移動。基于這一發現，他們又提出了 Beta 小波圖神經網絡（BWGNN）。它擁有多個具有局部性的帶通濾波器，能夠更好捕獲 “右移” 産生的高頻異常資訊。在四個大規模圖異常檢測資料集上，BWGNN 的性能均優于現有的模型。

傳統異常檢測與面向圖的異常檢測任務對比。

頻譜能量 “右移” 現象的可視化。

熱核小波與 Beta 核小波在譜域（左）和空域（右）上的對比，Beta 函數具有更好的帶通與局部性質。

推薦：基于結構化資料的異常檢測再思考：我們究竟需要怎樣的圖神經網絡？入選 ICML 2022

論文 5：Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework

作者：Chunyu Xie 等人
論文位址：https://arxiv.org/pdf/2205.03860.pdf

摘要：最近，奇虎 360 人工智能研究院和清華大學的研究者在其最新論文中重點關注了大規模視覺語言資料集和跨模态表征學習模型。研究者提出了一個大規模中文跨模态基準資料集 Zero，它包含了兩個被稱為 Zero-Corpus 的預訓練資料集和五個下遊任務資料集，一定程度上填補了中文圖文跨模态領域資料集的空白。

進一步，研究者們還提出了一個視覺語言預訓練架構 R2D2，用于大規模跨模态學習，基于所提出的 Zero-Corpus 資料集進行預訓練，并在多個下遊任務上進行測試，R2D2 取得多項超越 SOTA 的結果。上述資料集和模型，均已開源。

研究者還嘗試用更大的 2.5 億内部資料集訓練 R2D2 模型，相對 2300 萬資料，模型效果依然有顯著提升。特别是在零樣本任務上，相對此前的 SOTA，在 Flickr30k-CN 資料集上，R@M 提升到 85.6%（提升了 4.7%），在 COCO-CN 資料集上，R@M 提升到 80.5%（提升了 5.4%），在 MUGE 資料集上，R@M 提升到 69.5%（提升了 6.3%）。

提出架構的示意圖。

Zero-Corpus 圖文對示例。

ITM 任務上的性能。

推薦：從 50 億圖文中提取中文跨模态新基準 Zero，奇虎 360 全新預訓練架構超越多項 SOTA。

論文 6：Siamese Image Modeling for Self-Supervised Vision Representation Learning

作者：Chenxin Tao 等人
論文位址：https://arxiv.org/abs/2206.01204

摘要：研究者提出了 Siamese Image Modeling（SIM），該方法通過一張遮蓋的增強視圖來預測相同圖像的另一張增強視圖的密集特征表示。為了達到這個目标，SIM 采用了孿生網絡結構，該結構包含 online 和 target 兩個分支。Online 分支首先将第一張遮蓋視圖映射到特征空間，然後基于第一張圖的特征和第一、二張圖的相對位置坐标來預測第二張圖的特征；Target 分支則負責将第二張圖映射到特征空間來獲得目标特征。

通過這種方式，SIM 能夠分别線上性分類任務上和 ID 方法持平，以及在檢測任務上和 MIM 方法持平，研究者進一步發現即便沒有全局的損失函數，SIM 也能給出很好的線性分類表現。

ID、 MIM 和 SIM 架構的比較。

Siamese Image Modeling 概覽。

ViT-B/16 上 SIM 與其他方法的結果比較。

推薦：自監督學習如何兼顧語義對齊與空間分辨能力？清華、商湯提出「SIM」方法。

論文 7：FlowBot3D: Learning 3D Articulation Flow to Manipulate Articulated Objects

作者：Ben Eisner 等人
論文位址：https://arxiv.org/pdf/2205.04382.pdf

摘要：最近，CMU 機器人學院 David Held 教授 R-PAD 實驗室的兩名學生 Ben Eisner 和 Harry Zhang 在操縱複雜的關節物體方面取得了突破，并推出了基于 3D 神經網絡的 FlowBot 3D，一種有效表達和預測關節物體部分運動軌迹的算法，如日常家具。該算法包含兩個部分。

第一個部分是感覺部分，這個部分使用 3D 深度神經網絡從被操縱家具物體的點雲資料中預測三維瞬時運動軌迹。算法的第二個部分是政策部分，它使用預測得到的 3D Articulated Flow 來選擇機器人的下一個動作。

兩者都在模拟器中完全學習，可以直接在現實世界中實作，無需重新訓練或調整。在 FlowBot 3D 算法的幫助下，機器人可以像人類一樣随意操縱日常家具等關節物體。

FlowBot 3D 的兩個子產品。

‍打開冰箱門。

打開馬桶蓋。

推薦：CMU 發表新型靈巧機器人算法，準确學習日常家具的操縱方法。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation，在 7 Papers 的基礎上，精選本周更多重要論文，包括NLP、CV、ML領域各10篇精選，并提供音頻形式的論文摘要簡介，詳情如下：

本周 10 篇 NLP 精選論文是：

1. Unsupervised Key Event Detection from Massive Text Corpora. (from Jiawei Han)

2. Beyond Opinion Mining: Summarizing Opinions of Customer Reviews. (from Bing Liu)

3. Words are all you need? Capturing human sensory similarity with textual descriptors. (from Thomas L. Griffiths)

4. Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos. (from Alexander Waibel)

5. Plumber: A Modular Framework to Create Information Extraction Pipelines. (from Sören Auer)

6. LegoNN: Building Modular Encoder-Decoder Models. (from Abdelrahman Mohamed)

7. Latent Topology Induction for Understanding Contextualized Representations. (from Mirella Lapata)

8. Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future. (from Bonnie Webber)

9. Topic-Aware Evaluation and Transformer Methods for Topic-Controllable Summarization. (from Grigorios Tsoumakas)

10. Factuality Enhanced Language Models for Open-Ended Text Generation. (from Bryan Catanzaro)

本周 10 篇 CV 精選論文是：

1. PETRv2: A Unified Framework for 3D Perception from Multi-Camera Images. (from Xiangyu Zhang, Jian Sun)

2. Revisiting the "Video" in Video-Language Understanding. (from Li Fei-Fei)

3. PrivHAR: Recognizing Human Actions From Privacy-preserving Lens. (from Li Fei-Fei)

4. Compositional Visual Generation with Composable Diffusion Models. (from Antonio Torralba, Joshua B. Tenenbaum)

5. Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with Learned Morph Maps. (from Antonio Torralba)

6. Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval. (from Shih-Fu Chang)

7. Beyond RGB: Scene-Property Synthesis with Neural Radiance Fields. (from Martial Hebert)

8. Generating Long Videos of Dynamic Scenes. (from Alexei A. Efros)

9. STIP: A SpatioTemporal Information-Preserving and Perception-Augmented Model for High-Resolution Video Prediction. (from Wen Gao)

10. Hierarchical Similarity Learning for Aliasing Suppression Image Super-Resolution. (from Wen Gao)

本周 10 篇 ML 精選論文是：

1. Schema-Guided Event Graph Completion. (from Jiawei Han)

2. BaCaDI: Bayesian Causal Discovery with Unknown Interventions. (from Bernhard Schölkopf, Andreas Krause)

3. Causal Discovery in Heterogeneous Environments Under the Sparse Mechanism Shift Hypothesis. (from Bernhard Schölkopf)

4. Rethinking and Scaling Up Graph Contrastive Learning: An Extremely Efficient Approach with Group Discrimination. (from Philip S. Yu)

5. DORA: Exploring outlier representations in Deep Neural Networks. (from Klaus-Robert Müller)

6. Imitating Past Successes can be Very Suboptimal. (from Sergey Levine, Ruslan Salakhutdinov)

7. Towards Understanding Why Mask-Reconstruction Pretraining Helps in Downstream Tasks. (from Shuicheng Yan)

8. From "Where" to "What": Towards Human-Understandable Explanations through Concept Relevance Propagation. (from Thomas Wiegand)

9. Expressiveness and Learnability: A Unifying View for Evaluating Self-Supervised Learning. (from Aaron Courville)

10. Beyond Tabula Rasa: Reincarnating Reinforcement Learning. (from Aaron Courville, Marc G. Bellemare)

轉載請聯系本公衆号獲得授權

投稿或尋求報道：[email protected]

7 Papers &amp; Radios | 中文大規模跨模态新基準Zero；AI與冷凍電鏡揭示原子級NPC結構

7 Papers & Radios | 中文大規模跨模态新基準Zero；AI與冷凍電鏡揭示原子級NPC結構