天天看點

科學家釋出大規模科學文檔基準資料集,助力解決科學語料稀缺問題

近期,上海人工智能實驗室聯合上海交通大學、浙江大學、複旦大學團隊,釋出了首個大規模多模态結構化科學文獻基準資料集 DocGenome。

該資料集旨在訓練和測試多模态大語言模型,并充分挖掘科學文獻對于 AI 系統的價值。

與此同時,結構化的科學文獻記錄了研究成果和人類知識,構成了高品質資料的龐大語料庫,為自動化多模态科學文檔了解與 AI 科學問題發現等研究和應用提供了重要的支撐。

科學家釋出大規模科學文檔基準資料集,助力解決科學語料稀缺問題

圖丨DocGenome 特點介紹(來源:arXiv)

該資料集通過自動标注預印本網站 arXiv 開放擷取社群的 50 萬篇科學文檔,使用自定義的自動标注管道,具有完整性、邏輯性、多樣性和正确性的四個關鍵特征。

日前,相關論文以《DocGenome:一個用于訓練和測試多模态大語言模型的大規模科學文檔基準資料集》(DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models)為題發表在 arXiv 上 [1]。

科學家釋出大規模科學文檔基準資料集,助力解決科學語料稀缺問題

圖丨相關論文(來源:arXiv)

2016 年,美國斯坦福大學李飛飛教授團隊提出了一種名為 Visual Genome 的大規模圖檔語義了解資料集,首次将視覺資訊的标注從一進制關系進階到二進制關系。

以此為啟發,在該研究中,研究人員将資料集命名為 DocGenome。除了針對每個科學文獻給出了一進制區域級别的标注外,該資料集還标注了區域和區域之間的二進制關系。

該論文通訊作者、上海人工智能實驗室研究員張鉑舉例說道:“例如,不同段落之間的閱讀順序,不同區域的引用關系等,這對于緩解大模型幻覺、提升大模型寫作邏輯很有幫助。”

科學家釋出大規模科學文檔基準資料集,助力解決科學語料稀缺問題

圖丨張鉑(來源:張鉑)

在以往的研究中,由于語料不足和對科學文檔的邏輯推理能力不夠,大語言模型對論文的了解通常隻停留在直覺的寫作邏輯,而不是更為關鍵的實驗邏輯。

為解決在科學文檔了解中資料稀缺以及标注成本過高等問題,該課題組開發了一種自動化科學文檔結構化标注工具 DocParser。

由于每篇論文的編譯庫、環境包都不盡相同,結構化标注的難點在于,需要針對不同作者撰寫的、不同風格的論文,進行統一化、自動化處理。

研究人員對 DocParser 進行了四個關鍵子產品設計,包括:語境和資料預處理、單元分割、屬性配置設定和關系檢索以及單元渲染,進而實作了從 arXiv 開源社群的原始資料中自動提取科學文獻資料并進行結構化标注。

張鉑表示,DocParser 作為資料集标注過程中的核心工具,自動标注了 50 萬篇 arXiv 科學文獻(帶有一進制關系和二進制關系的标注結果),能夠節省約 400 萬-500 萬元的人工标注成本。

科學家釋出大規模科學文檔基準資料集,助力解決科學語料稀缺問題

圖丨DocParser 自動标注工具架構圖(來源:arXiv)

從一進制關系來看,使用 DocGenome 資料集,可以實作不同複雜模态之間的切換,如視覺表格、公式轉文本表格、公式的任務,為進一步豐富文檔類型轉換的應用場景提供了可能。

此外,DocGenome 還包含了多種複雜模态類别,如圖表、方程式、表格、算法、代碼和腳注等。

從二進制關系來看,DocGenome 資料集建構了不同區域之間的 6 種二進制邏輯關系。

包括:

  • 等價關系(如跨頁問題:一個文本段落出現在不同頁面)。
  • 标題鄰接關系(如兩個相鄰的章節标題或子章節标題)。
  • 次級關系(如介紹章節标題和介紹章節的内容)。
  • 非标題鄰接關系(如兩個相鄰的自然段)。
  • 顯示引用關系(如正文某句話對圖、表、公式的引用,類似\ref{})。
  • 隐式引用關系(如 Table 和 Table caption)。

DocGenome 實作了對 153 個二級學科的标注,包括計算機、量子力學、實體學、化學、經濟學等。

并且,DocGenome 資料集中所包含的是從 2007 年到 2022 年期間的文獻,不僅資料量比較大,而且是近期的、具有時效性的資料。

如果按照頁數來算,該資料集标注了 680 萬圖檔資料,與此前同類科學文獻資料集相比屬于質的提升。

科學家釋出大規模科學文檔基準資料集,助力解決科學語料稀缺問題

表丨使用 DocGenome 序列擴充資料的實驗,結果模型在方程和表轉換任務進行評估(來源:arXiv)

如上表所示,研究人員在表格 Image-to-LaTeX 轉換任務以及公式 Image-to-LaTeX 轉換任務上,基于 Pix2Struct 模型進行微調。

“與付費閉源工具 Mathpix 的性能相比,我們的資料集有明顯的提升,這也證明了該資料的實用性。”張鉑表示。

此外,他們利用 DocGenome 訓練集中多樣的标簽資料,在單元布局檢測任務進行訓練,性能也超越了 Mathpix 等閉源付費工具。

現在,每天新增的論文數量呈指數級上升,将海量的、重複性的查閱文獻工作由視覺語言模型進行代替,有望将科研人員從繁重的閱讀文獻任務中解脫出來,并幫助他們找到價值比最高的研究點。

現在,該課題組正在将 DocGenome 接到大語言模型作為資料集合工具,以幫助更多科研人員利用該資料集,進行某個特定領域科學論文的總結和發展脈絡梳理等。

張鉑認為,針對某一個科學問題,大模型很有可能能夠給出一些有意思的建議,進而讓科研人員從中進行選擇,提高創作效率。

另一方面,他們希望通過增強 DocParser 的泛化性,将資料集擴充到 Scihub 領域,以持續提升 DocGenome 資料集的資料量。

參考資料:

1.https://arxiv.org/abs/2406.11633

2.https://unimodal4reasoning.github.io/DocGenome_page/

排版:劉雅坤

繼續閱讀