天天看點

KDD 2019 投稿要求出爐:結果出爐前不得發表 arXiv ,鼓勵公開研究代碼和資料

雷鋒網(公衆号:雷鋒網) AI 科技評論按:作為世界資料挖掘領域最進階别的國際會議,ACM SIGKDD 在近期釋出了 2019 年度的征稿通知。通知表明會議今年采取雙盲審制,結果出爐前投稿者不得擅自将論文釋出于 arXiv 等平台上。此外,隻有那些在文章中公開研究代碼和資料的論文才有資格競選「最佳論文」一獎。

KDD 2019 投稿要求出爐:結果出爐前不得發表 arXiv ,鼓勵公開研究代碼和資料

按官網最新釋出的科研類(Research)征稿通知表明,今年的大會将采取雙盲稽核制,所有送出論文必須嚴格按照相關規定進行撰寫,不得包含作者姓名和附屬機構資訊。通知中特别強調,在投稿截止以前或在投稿稽核過程中以技術報告等形式對外公開(尤其是 arXiv)發表的文章,将會被大會拒稿。

KDD 2019 投稿要求出爐:結果出爐前不得發表 arXiv ,鼓勵公開研究代碼和資料

内容截自官網

至于偏重實際問題解決的應用資料科學類(Applied Data Science Track)征稿則不作此要求。

KDD 2019 投稿要求出爐:結果出爐前不得發表 arXiv ,鼓勵公開研究代碼和資料

今年官網将「可重制性」作為重點列為「重要政策」的首條,鼓勵作者們在文中公開研究代碼和資料、彙報方法在公開資料集上的實驗結果,并盡可能完整描述所使用的算法和資源。為了培養共享風氣,KDD 2019 規定隻有在文章最後額外送出兩頁展現「可重制性」内容的論文,才有資格競選「最佳論文」一獎。

無獨有偶,另一頂級人工智能會議 ICML 今年同樣做了類似規定。

KDD 2019 投稿要求出爐:結果出爐前不得發表 arXiv ,鼓勵公開研究代碼和資料

至于選題(科研類)方面,KDD 今年的推薦選題範圍包括:

大資料:用于文本和圖形分析、機器學習、優化、并行和分布式資料挖掘(雲+map-reduce)系統、作用于大資料的新穎算法和統計技術等。

資料科學:分析科學和商業資料、社交網絡、時間序列算法;挖掘序列、流、文本、網絡、圖形、規則、模式、日志資料、時空資料、生物資料;推薦系統、廣告計算、多媒體、金融和生物資訊學等。

基礎研究:模型和算法、漸近分析;模型選擇、降維、關系/結構化學習、矩陣和張量方法、機率和統計方法;深度學習;流形學習、分類、聚類、回歸、半監督和無監督學習;個性化、安全和隐私和可視化等。

那些在新興主題上富有灼見的論文以及在推動技術研究上具有重大貢獻的應用型論文,也同樣受到科研類征稿委員會的歡迎。

有投稿 & 參會需求的同學劃重點了,今年的 KDD 大會将于 2019 年 8 月 4 日——8 日在美國阿拉斯加州安克雷奇市舉行,具體投稿時間安排如下:

投稿截止日期:2019 年 2 月 3 日

投稿接收通知:2019 年 4 月 28 日

論文定稿送出:2019 年 5 月 17 日

更多詳盡的 KDD 2019 征稿要求,可自行參閱:

征稿要求

https://www.kdd.org/kdd2019/calls/view/kdd-2019-call-for-research-papers

論文送出網址

https://easychair.org/conferences/?conf=kdd19

最後,為了讓大家能夠更直覺地了解 KDD 大會在科研類論文接收上的喜好,進而提高投稿命中率,雷鋒網 AI 科技評論在此為大家整理了一份包含 KDD 大會曆年(2016——2018)科研類論文錄用情況、論文主題分布以及最佳論文的資訊清單。此外,我們還轉載了一篇伊利諾伊香槟大學在讀博士生 Bihan Wen 關于頂會投稿寫作技巧的知乎回答,希望能對大家有所幫助。

附錄1:KDD 曆年接收論文情況

【2016年】

科研類論文錄用情況:

稽核總數為 784 篇,收錄 142 篇。

接收論文主題分布:

内容整體更偏重實際應用中所産生的大規模資料和非結構化資料,偏重解決實際問題。

Research Track 最佳論文:

FRAUDAR: Bounding Graph Fraud in the Face of Camouflage

作者:Bryan Hooi, Hyun Ah Song, Alex Beutel, Neil Shah, Kijung Shin, Christos Faloutsos(全來自 Carnegie Mellon University)

論文連結:http://www.cs.cmu.edu/~christos/PUBLICATIONS/kdd16-fraudar.pdf

摘要 :根據使用者和他們評論的産品,或跟随者與被跟随者的偶圖資訊,我們應當如何識别虛假評論或跟風評論?現存的欺詐檢測方法(譜檢測等)試圖識别結點的密集子圖表,這些結點與保留下來的圖表保持較少的聯系。這些欺詐者能夠使用「僞裝」手段,即通過用真誠的目标增添評論或跟随評論,并使得這些評論看起來「常态化」來規避這些檢測方法。更為糟糕的是,有些欺詐者利用誠實使用者的「黑客賬戶」,這種僞裝手段确實是有組織的。我們研究的聚焦點在于發現以僞裝手段或黑客賬戶存在的欺詐者。我們提出 FRAUDAR,一種用于 (a) 抵制僞裝手段,(b) 提供欺詐者有效性的上限,(c) 能夠有效應用于真實資料的算法。各種各樣攻擊條件下獲得的實驗結果表明,FRAUDAR 在檢測僞裝性欺詐和非僞裝性欺詐的精度方面都優于其最大競争算法。此外,在運用推特跟随者-被跟随者 14.7 億邊緣圖表的真實實驗中,FRAUDAR 成功地檢測出一個包括 4000 多被檢測賬戶的子圖表,其中大多數擁有推特賬戶的人表示他們用的是跟随者購買的服務。

【2017年】

稽核總數為 748 篇,收錄 130 篇,包括 64 篇 oral,66 篇 poster,錄用率分别占 8.6% 及 8.8%。

論文中最受歡迎的話題是:時間與時序資料(temporal and time-series data),圖算法(graph algorithms)。

Accelerating Innovation Through Analogy Mining

作者:Tom Hope (Hebrew University of Jerusalem);Joel Chan (Carnegie Mellon University);Aniket Kittur (Carnegie Mellon University);Dafna Shahaf (Hebrew University of Jerusalem)

論文連結:https://arxiv.org/pdf/1706.05585.pdf

摘要:大型概念資源庫(如美國專利資料庫)可以向人們提供類似問題的解決方案的靈感,進而加速創新和發現。然而在這些龐大而淩亂的資源庫中發現有用的資訊,對于人類或自動化技術來說仍是一個挑戰。傳統的解決方法有,具有高度關系結構(如謂詞演算表征)但非常稀疏,且成本很高的人工建立的資料庫。更為簡單的機器學習/資訊檢索相似性度量可以擴充到大型的自然語言資料集,但很難解釋結構相似性,而這又是類比的核心。這篇論文探讨了學習更簡單的結構表征的可行性和價值,特别是「問題模式」,它規定了産品的目的,以及實作該目的的機制。論文中的方法結合衆包和 CNN,提取産品描述中的目的和機制向量表示。論文表明,這些學習到的向量能比傳統的資訊檢索方法,以更高精度和更快速度找到類比。在一個思想實驗中,模型檢索的類比能力提升了産生創意的可能性。研究結果表明,學習和利用較弱的結構表征,是大規模計算類比的有效方法。

【2018年】

論文錄用情況:

稽核總數為 983 篇,收錄 178 篇,包括 104 篇 oral,74 篇 poster,錄用率分别占 10.9% 及 7.5%。

深度學習仍占主流,不過監督及無監督學習和遷移學習等領域呈現新高。

KDD 2019 投稿要求出爐:結果出爐前不得發表 arXiv ,鼓勵公開研究代碼和資料

Adversarial Attacks on Neural Networks for Graph Data

作者:Daniel Zügner (Technical University of Munich); Amir Akbarnejad (Technical University of Munich); Stephan Günnemann (Technical University of Munich)

論文連結:https://arxiv.org/pdf/1805.07984.pdf

摘要:應用到圖的深度學習模型已經在節點分類任務上實作了強大的性能。盡管此類模型數量激增,但目前仍未有研究涉及它們在對抗攻擊下的魯棒性。而在它們可能被應用的領域(例如網頁),對抗攻擊是很常見的。圖深度學習模型會輕易地被欺騙嗎?在這篇論文中,我們介紹了首個在屬性圖上的對抗攻擊研究,具體而言,我們聚焦于圖卷積模型。除了測試時的攻擊以外,我們還解決了更具挑戰性的投毒/誘發型(poisoning/causative)攻擊,其中我們聚焦于機器學習模型的訓練階段。

附錄 2 :《如何寫好一篇高品質的IEEE/ACM Transaction級别的計算機科學論文?》

@ Bihan Wen(知乎 ID)

其他作者都說得很好,我認為他們說的都是很正确地寫作之「道」。

我這裡再補充幾點我的體會,可以說是一些寫作之「術」。

雖然說隻是一些技巧,但親測是對最後文章中與不中密切相關。在首先掌握了正确的「道」以後,其實成敗往往就在「術」上面。

首先聲明,我的研究領域是圖像/視訊/視覺/機器學習這一類,是以我的經驗有些可能僅僅适用于這個圈子。

這些内容,我是同時從當作者和當審稿人兩邊的經驗總結而來的。

兵法講,打仗需要知己知彼。投稿中與不中,其實是取決于與審稿人的博弈。諸君切記....

"If you know the enemy and know yourself, you need not fear the result of a hundred battles.

If you know yourself but not the enemy, for every victory gained you will also suffer a defeat.

If you know neither the enemy nor yourself, you will succumb in every battle.」

-- Sun Tzu, The Art of War, 500bc

第一個術,是寫作思路的正确認識和調整。

我認為計算機頂會,和 IEEE TRANS 的投稿思路,其實略微有所不同:

投計算機領域頂會的思路,之是以會不同于 IEEE TRANS,這裡面的差別主要是因為審稿制度不太一樣:頂會的審稿人一般會要求在很短時間内,送出很多份稿件的審稿意見。這就意味着,他們可能很難非常仔細地去讀你文章的内容,甚至更可能出現審稿人的專業并不是十分比對文章領域這種現象。而 IEEE TRANS 一般會給審稿人相對寬松一點的審稿時間,我有時候在 deadline 前沒審完,還可以找 AE 要求延期。而且 IEEE TRANS 的審稿人,在看完文章的 abstract 之後如果發現研究興趣不想關,是可以拒絕審稿的。是以我感覺這樣找到比對的審稿人的機率更大,一般出來的 comment 也就更可能說中你文章的要害。

基于此,我認為投頂會更需要注意,把你想要表達的 message,要簡潔、直接、突出,在最顯眼的地方總結并告訴審稿人,甚至要做到 spoon feeding。之後你整篇文章的正文都是要為了這幾個主要 message(你的 novelty, contribution, highlight 等等)而服務,做說明,或者是提供證據支援。把文章做得直接了當,因為頂會在投稿之後,就一輪 rebuttal 你可以和審稿人交流,而且很大機率審稿人不太會修改之前的意見。是以第一輪審稿人是不是能很快抓到你的文章主旨,對他們的印象分非常重要。你友善審稿人,審稿人也就友善你。

投 IEEE TRANS 這類就有點不太一樣,因為大多數時候,你初投稿隻要品質過關有幹貨,都不太會被直接 rej,拿到 major rev 還是有機會通過修改最後被接受。是以你的側重點是要盡量讓内容充實,這也可以增加你文章的分量以及影響力。本來期刊的意義,就是需要把你的工作做完整做透,然後再總結出一套系統化的結論,是以刊物論文允許你自由發揮的空間就更多,你可以表達更加複雜更全面的 message。而會議論文,你需要做取舍,多餘的東西不行就扔 supp,不要什麼都往正文放,正文需要突出重點。

第二個術,是對自己這個工作的定位,以決定要去投哪一個級别的刊物。

我一般會從三個緯度來衡量一個工作的品質:(1)創新性,(2)理論證明度,(3)實驗效果。

如果是一般 IEEE TRANS 這個檔次,比如 TIP, TSP 這類的接受論文,我認為這三點要占兩點才有中的希望。如果三點都有都很強,那麼恭喜你,你可以很充容悠然地寫一篇 paper,然後期待 review 期間和審稿人談笑風生了。如果這三點隻有兩點很強,那麼你就需要注意一下寫作技巧了:要不你就要把你的這兩個主要賣點給做強,比如你的實驗結果是 state-of-the-art,你就要搞到 superior result;要不你的創新性開天辟地,但是效果不足,那你就要說明這個 idea 在未來的工作中有很強的潛力;要不你的理論性很強,那麼你就要說明,很多應用類的工作都需要你這個理論的支援,用以奠定基礎。

基本上,如果你在創新性,理論證明度和實驗效果中,能有兩點很強,你都可以博一把 IEEE TRANS 這個級别的。如果你隻有一點站得住腳,那麼我覺得你還是應該理智地放棄,target 一個低級别的刊物比較好,因為面對無盡的 review,一方面會占用你大量時間,一方面你的工作遲遲不能發表也會打擊你的士氣。

如果你的 target 是一些比較難中的 IEEE TRANS,比如 TPAMI,IJCV 這一類;或者你是打算投 CVPR,NIPS,ICML,KDD 這一類很難中的會,那麼我認為一個合格應該需要占據我提到的全部三點。或者就算其中某一點可能比較弱,那麼其他兩點就需要很強,再外加一點運氣。

第三個術,是關于實驗部分:

我所在的領域,是很重視實驗的可重複性。是以一般我審稿都會更 trust 那些在論文中,承諾會把代碼公開的工作。

如果你的工作,對應的是一個在領域内的标準應用,比如圖像分類,圖像超分辨,等等,你一定要確定

你的對比算法 cover 了這個領域内最新,最流行,和效果最好的那幾個。

你所用的資料庫和實驗設定,一定要是領域内大家所認定标準的。

你衡量結果的 metric 一定要是這個領域廣泛接受的。

你的算法一定要在 fair 的情況下和其他算法對比。

因為這四點任何一個沒做對,都會有機會被 reviewer 質疑,然後要求修改實驗。我認為修改實驗可能是文章修改裡面最痛苦的一部分。。。是以千萬要一開始就防患于未然。

個人認為這些都是很适用的技巧,希望對你有幫助。

先寫這些,如果大家感興趣,我再來補充。

GL 勇士們!

連結:https://www.zhihu.com/question/22790506/answer/316005175

來源:知乎

附錄 3 :ACM SIGKDD 簡介

ACM SIGKDD(國際資料挖掘與知識發現大會,Conference on Knowledge Discovery and Data Mining,,簡稱 KDD)是世界資料挖掘領域的最進階别的國際會議,由 ACM(Association of Computing Machinery,計算機學會)的資料挖掘及知識發現專委會(SIGKDD)負責協調籌辦,被中國計算機協會薦為 A 類會議。自 1995 年以來,KDD 已經以大會的形式連續舉辦了二十餘屆全球峰會,作為資料挖掘領域最頂級的學術會議,KDD 大會以論文接收嚴格聞名,每年的接收率不超過 20%,是以頗受行業關注。

雷鋒網 AI 科技評論