AI視野·今日CS.CV 計算機視覺論文速覽
Mon, 28 Oct 2019
Totally 47 papers
👉上期速覽✈更多精彩請移步首頁
Interesting:
📚聯合顯著性檢測,提出了一種從單張圖像中檢測出具有相似語義屬性的物體顯著性的的方法。比如從球場上檢測出同一個隊伍的人員,或者從分出不同毛色的相同動物 (from 武漢大學)
📚基于立體聲的移動交通工具檢測方法, 隻需要利用立體聲音資料和相機中繼資料即可在參考幀視訊中定位運動目标的位置,而無需視訊輸入。(from mit)
📚, (from )
📚****Deep Image Blending一種優秀的圖像融合方法, (from 賓夕法尼亞大學)
code:https://arxiv.org/pdf/1910.11495.pdf
📚多人體光流學習, (from 馬普研究所 德國)
基于blender進行資料合成的方法值得學習:
code:https://arxiv.org/pdf/1910.11667.pdf
📚ALET一個自然環境中工具檢測資料和基線模型, (from 土耳其中東技術大學)
![在這裡插入圖檔描述](https://img-blog.csdnimg.cn/20191029221806590.png =600xx)
Daily Computer Vision Papers
LPRNet: Lightweight Deep Network by Low-rank Pointwise Residual Convolution Authors Bin Sun, Jun Li, Ming Shao, Yun Fu 近年來,由于強大的計算裝置(例如GPU),深度學習已變得流行。但是,将這些深度模型部署到資源有限的最終使用者裝置,智能電話或嵌入式系統是具有挑戰性的。為了減少計算和記憶體成本,我們通過低秩逐點殘差LPR卷積提出了一種新穎的輕量級深度學習子產品,稱為LPRNet。本質上,LPR的目标是在點向卷積中使用低秩逼近來進一步減小子產品大小,同時将深度卷積作為殘差子產品來校正LPR子產品。當低等級破壞卷積過程時,這一點至關重要。我們通過替換MobileNet和ShuffleNetv2中具有相同輸入輸出尺寸的子產品來展現我們的設計。根據流行的基準進行的視覺識别任務(包括圖像分類和面部對齊)的實驗表明,與專注于模型壓縮的最新深層模型相比,我們的LPRNet具有競争優勢,但Flops和記憶體成本顯着降低。 |
Learning to Track Any Object Authors Achal Dave, Pavel Tokmakov, Cordelia Schmid, Deva Ramanan 對象跟蹤可以表示為在視訊中找到合适的對象。我們觀察到,用于類不可知跟蹤的最新方法傾向于将重點放在發現部分上,但在很大程度上忽略了任務的對象部分,本質上是在滑動視窗中的架構上進行模闆比對。相反,特定類别的跟蹤器嚴重依賴于特定類别對象檢測器形式的對象先驗。在這項工作中,我們将特定于類别的外觀模型用于通用的對象。我們的方法可以将類别特定的對象檢測器實時轉換為類别不可知的特定對象檢測器,即有效的跟蹤器。此外,在測試時,可以将同一網絡應用于檢測和跟蹤,進而為這兩個任務提供統一的方法。我們使用外部資料,在兩個最近的大規模跟蹤基準OxUvA和GOT上獲得了最先進的結果。通過簡單地添加遮罩預測分支,我們的方法能夠為被跟蹤對象生成執行個體分割遮罩。盡管僅在第一幀上使用了盒級資訊,但我們的方法仍輸出高品質的蒙版,這是根據DAVIS 17視訊對象分段基準進行評估的。 |
An End-to-End Network for Co-Saliency Detection in One Single Image Authors Yuanhao Yue, Qin Zou, Hongkai Yu, Qian Wang, Song Wang 作為常見的視覺問題,單個圖像内的共顯着性檢測沒有引起足夠的重視,但尚未得到很好的解決。現有方法通常遵循自下而上的政策來推斷圖像中的共顯着性,其中首先使用諸如顔色和形狀的視覺圖元檢測顯着區域,然後将其分組并合并為同顯性圖。但是,在人類視覺中,自下而上和自上而下的政策結合在一起,以一種複雜的方式固有地感覺了共顯性。針對這一問題,本文提出了一種新型的端到端可訓練網絡,它包括一個骨幹網和兩個分支網。骨幹網使用地面真相掩碼作為顯着性預測的自上而下的指導,而兩個分支網為特征組織和聚類建構三元組提議,這促使網絡以自下而上的方式對共同區域敏感。為了評估所提出的方法,我們構造了一個新的資料集,其中包含每張圖像中的共同凸顯的2,019張自然圖像。實驗結果表明,所提出的方法以28fps的運作速度達到了最先進的精度。 |
Real-time Memory Efficient Large-pose Face Alignment via Deep Evolutionary Network Authors Bin Sun, Ming Shao, Siyu Xia, Yun Fu 由于近來的面部識别應用的激增,迫切需要以存儲有效和實時的方式應用面部對準。但是,諸如姿勢變化大和計算效率低等影響因素仍然阻礙了其廣泛實施。為此,我們提出了一種與3D擴散堆貼圖DHM內建的高效計算的深度演化模型。首先,我們引入一個稀疏的3D DHM來輔助極端姿勢條件下的初始模組化過程。然後,提取簡單有效的CNN特征,并将其輸入到遞歸神經網絡RNN中進行進化學習。為了加速該模型,我們提出了一種有效的網絡結構,以通過分解政策來加速進化學習過程。在三個流行的對齊資料庫上進行的大量實驗證明了所提出的模型優于現有技術的優勢,尤其是在大擺姿勢條件下。值得注意的是,我們模型的計算速度比CPU上的最新技術快10倍,而在GPU上則是14倍。我們還将讨論和分析我們的模型和未來研究工作的局限性。 |
JRDB: A Dataset and Benchmark for Visual Perception for Navigation in Human Environments Authors Roberto Mart n Mart n, Hamid Rezatofighi, Abhijeet Shenoi, Mihir Patel, JunYoung Gwak, Nathan Dass, Alan Federman, Patrick Goebel, Silvio Savarese 我們展示了JRDB,這是一個從我們的社交移動操縱器JackRabbot收集的新穎資料集。資料集包括64分鐘的多模式傳感器資料,包括15 fps的立體聲圓柱體360 circ RGB視訊,兩個Velodyne 16 Lidars的3D點雲,兩個Sick Lidars的線3D點雲,音頻信号,30 fps的RGBD視訊,360 circ球形魚眼鏡頭的圖像和機器人車輪的編碼器值。我們的資料集包括來自傳統上代表性不足的場景(例如室内環境和行人區域)的資料,這些資料來自固定和導航機器人平台。該資料集已标注了超過230萬個邊界框,這些邊界框分布在場景中的所有人周圍的5個單獨的攝像頭中,以及180萬個相關的3D長方體,總計超過3500個時間一緻性軌迹。連同我們的資料集和注釋,我們為2D和3D人員檢測和跟蹤啟動了基準和名額。借助我們計劃在将來進行進一步注釋的資料集,我們希望為機器人自主導航以及人類環境中圍繞社交機器人的所有感覺任務領域的研究提供新的資料源和測試平台。 |
Self-supervised Learning of Detailed 3D Face Reconstruction Authors Yajing Chen, Fanzi Wu, Zeyu Wang, Yibing Song, Yonggen Ling, Linchao Bao 在本文中,我們提出了一個端到端學習架構,用于從單個圖像進行詳細的3D人臉重建。我們的方法使用基于3DMM的粗略模型和UV空間中的位移圖來表示3D面。與以前解決該問題的工作不同,我們的學習架構不需要監督使用傳統方法計算的替代地面真實3D模型。相反,我們在學習過程中将輸入圖像本身用作監督。在第一階段,我們将輸入面部和渲染面部之間的光度損失和面部感覺損失結合起來,以回歸基于3DMM的粗略模型。在第二階段,将輸入圖像和粗糙模型的回歸紋理都展開到UV空間中,然後通過圖像到圖像轉換網絡發送以預測UV空間中的位移圖。位移圖和粗略模型用于渲染最終的詳細人臉,該人又可以與原始輸入圖像進行比較,以作為第二階段的光度損失。在UV空間中學習位移貼圖的優點是,可以在展開過程中明确完成面部對齊,是以更容易從大量資料中學習面部細節。大量的實驗證明了所提出的方法優于以前的工作。 |
ClsGAN: Selective Attribute Editing Based On Classification Adversarial Network Authors Liu Ying, Heng Fan, Fuchuan Ni, Jinhai Xiang 歸因編輯通過結合編碼器,解碼器結構和生成對抗網絡,顯示出令人矚目的進步。但是,在生成圖像的品質和屬性轉換方面仍然存在一些挑戰。編碼器解碼器結構導緻圖像模糊,并且編碼器解碼器結構的跳躍連接配接削弱了屬性傳遞能力。為了解決這些限制,我們提出了一個分類對抗模型Cls GAN,它可以在屬性傳遞和生成的照片逼真的圖像之間取得平衡。考慮到傳輸圖像受使用跳過連接配接的原始屬性的影響,我們引入了上卷積殘差網絡Tr resnet來從源圖像和目标标簽中選擇性地提取資訊。特别地,我們将其應用于屬性分類對抗網絡,以了解屬性傳遞圖像的缺陷,以指導生成器。最後,為了滿足多模式的需求并提高重構效果,我們建構了包括内容和樣式網絡在内的兩個編碼器,并選擇了源标簽和樣式網絡輸出之間的屬性标簽近似值。在CelebA資料集上進行的實驗表明,圖像在圖像品質和傳輸準确性方面優于現有的現有模型。 Wikiart和季節性資料集上的實驗表明,ClsGAN可以有效地實作樣式轉移。 |
Gated Multi-layer Convolutional Feature Extraction Network for Robust Pedestrian Detection Authors Tianrui Liu, Jun Jie Huang, Tianhong Dai, Guangyu Ren, Tania Stathaki 随着深度卷積神經網絡的發展,行人檢測方法得到了顯着改善。然而,如何可靠地檢測大小和遮擋較大的行人仍然是一個具有挑戰性的問題。在本文中,我們提出了一種門控多層卷積特征提取方法,該方法可以自适應地生成候選行人區域的判别特征。提出的門控特征提取架構由擠壓單元,門控單元和級聯層組成,分别執行多個CNN層的特征尺寸壓縮,特征元素操縱和卷積特征組合。我們提出了兩種不同的門模型,可以分别以通道明智的選擇方式和空間明智的選擇方式來操縱區域特征圖。在具有挑戰性的CityPersons資料集上進行的實驗證明了該方法的有效性,尤其是在檢測那些較小的人行道和被遮擋的行人時。 |
Self-supervised Moving Vehicle Tracking with Stereo Sound Authors Chuang Gan, Hang Zhao, Peihao Chen, David Cox, Antonio Torralba 人類能夠使用視覺和聽覺線索來定位環境中的對象,并将來自多種模态的資訊整合到一個共同的參考架構中。我們介紹了一種系統,該系統可以利用未标記的視聽資料來學習在視覺參考系中定位移動車輛的對象,而在推理時僅使用立體聲即可。由于手動注釋音頻和對象邊界框之間的對應關系需要大量勞動,是以我們通過使用未标記視訊中視訊和音頻流的共同出現作為一種自我監督的方式來實作此目标,而無需借助地面真理注釋的收集。特别是,我們提出了一個由視覺老師網絡和立體聲學生網絡組成的架構。在訓練過程中,使用未标記的視訊作為橋梁,将建立在完善的可視車輛檢測模型中的知識轉移到音頻域。在測試時,立體聲學生網絡可以獨立工作,僅使用立體聲音頻和錄影機中繼資料進行對象定位,而無需任何視覺輸入。在新收集的Au Ditory Vehicle Tracking資料集上的實驗結果證明,我們提出的方法優于幾種基準方法。我們還證明,我們的交叉模式聽覺定位方法可以在光線不足的情況下幫助移動車輛的視覺定位。 |
ALET (Automated Labeling of Equipment and Tools): A Dataset, a Baseline and a Usecase for Tool Detection in the Wild Authors Fatih Can Kurnaz, Burak Hocao lu, Mert Kaan Y lmaz, dil S lo, Sinan Kalkan KOVAN Research Lab, Dept. of Computer Engineering, Middle East Technical University, Ankara, Turkey 在現實環境中與人類協作的機器人将需要能夠檢測可以使用和操縱的工具。但是,沒有可用的資料集或研究可以解決實際環境中的這一挑戰。在本文中,我們通過提供廣泛的METU ALET資料集填補了這一空白,該資料集可用于檢測農業,園藝,辦公室,石工,車輛,木工和工廠中的房間工具。這些場景對應于使用或不使用人工工具的複雜環境。我們考慮的場景為對象檢測帶來了一些挑戰,包括工具的小規模,它們的鉸接性質,遮擋,類間不變性等。此外,我們訓練并比較了幾種最先進的深度對象檢測器,包括Faster R CNN,資料集上的YOLO和RetinaNet。我們觀察到檢測器很難檢測到特别是小型工具或在視覺上與其他工具的零件相似的工具。反過來,這也支援了我們的資料集和論文的重要性。借助資料集,代碼和訓練有素的模型,我們的工作為進一步研究工具及其在機器人應用中的使用奠定了基礎。 |
Hierarchical Prototype Learning for Zero-Shot Recognition Authors Xingxing Zhang, Shupeng Gui, Zhenfeng Zhu, Yao Zhao, Ji Liu 零射擊學習ZSL近年來受到了廣泛的關注和成功,特别是在細顆粒物體識别,檢索和圖像字幕領域。 ZSL的關鍵是通過輔助語義原型(例如單詞或屬性向量)将知識從可見的類轉移到看不見的類。但是,由于語義原型中包含非視覺元件,是以先前作品中廣為學習的投影函數無法很好地概括。此外,ZSL最先進的方法很少考慮提供的原型和捕獲的圖像的不完整性。在本文中,我們提出了一種分層的原型學習公式,以提供一個名為HPL的系統解決方案來實作零擊識别。具體來說,HPL能夠通過分别在轉導設定下學習視覺原型來在可見和不可見的類域上獲得可分辨性。為了縮小兩個領域的差距,我們進一步在視覺和語義空間中學習了可解釋的超級原型。同時,通過最大化其結構一緻性來進一步橋接兩個空間。這不僅促進了視覺原型的代表性,而且減輕了語義原型資訊的丢失。然後精心設計和展示了一組廣泛的實驗,表明與各種設定下的目前可用替代方案相比,HPL的效率和有效性顯着提高。 |
Learning Multi-Human Optical Flow Authors Anurag Ranjan, David T. Hoffmann, Dimitrios Tzionas, Siyu Tang, Javier Romero, Michael J. Black 衆所周知,人的光流可用于分析人的行為。最近的光流方法專注于訓練深度網絡以解決該問題。但是,他們使用的訓練資料并不涵蓋人體運動的領域。是以,我們開發了一個多人光流資料集,并在此資料集上訓練了光流網絡。我們使用人體和運動捕捉資料的3D模型在單人和多人圖像中合成逼真的流場。然後,我們訓練光流網絡,以從成對的圖像中估計人流場。我們證明,經過訓練的網絡比對測試資料進行保留的頂級方法要準确得多,并且可以很好地推廣到真實的圖像序列。代碼,訓練有素的模型和資料集可供研究。 |
Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation Authors Shizhou Zhang, Yifei Yang, Peng Wang, Xiuwei Zhang, Yanning Zhang 跨模态人員重新識别的問題由于其實際意義最近已引起越來越多的關注。受人類在比較兩個相似對象時通常會注意差異的事實的啟發,我們提出了一種雙路徑交叉模态特征學習架構,該架構保留了固有的空間狹窄并處理了輸入的交叉模态圖像對的差異。我們的架構由兩個主要組成部分組成:保留公共空間網絡DSCSN的雙路徑空間結構和對比相關網絡CCN。前者将交叉模态圖像嵌入到通用的3D張量空間中,而不會丢失空間結構,而後者通過動态比較輸入圖像對來提取對比特征。注意,為輸入的RGB和紅外圖像生成的表示形式互相依賴。我們對兩個公共可用的RGB IR ReID資料集SYSU MM01和RegDB進行了廣泛的實驗,我們提出的方法在完整和簡化的評估模式下都大大優于最新算法。 |
Reducing Domain Gap via Style-Agnostic Networks Authors Hyeonseob Nam, HyunJae Lee, Jongchan Park, Wonjun Yoon, Donggeun Yoo 深度學習模型通常無法在新的測試域上維持其性能。該問題已被視為深度學習在實際應用中的關鍵限制。導緻域更改易受攻擊的主要原因之一是該模型傾向于偏向圖像樣式(即紋理)。為了解決這個問題,我們建議使用樣式不可知網絡SagNets來鼓勵模型将更多注意力放在圖像内容上,即跨域共享的形狀但忽略圖像樣式。 SagNets由三種新技術組成:樣式對抗學習,樣式融合和樣式一緻性學習,每種技術都阻止模型基于樣式資訊做出決策。結合一些其他教育訓練技術和幾種模型變體的內建,提出的方法在Visual Domain Adaptation 2019 VisDA 2019 Challenge的半監督域自适應任務中獲得第一名。 |
Learning to Localize Temporal Events in Large-scale Video Data Authors Mikel Bober Irizar, Miha Skalic, David Austin 我們在Youtube 8M Segments資料集中解決大規模視訊資料中事件的時間定位。視訊識别中的這一新興領域可以使應用程式識别視訊中特定事件發生的準确時間,這對視訊搜尋具有廣泛的意義。為了解決這個問題,我們提出了兩種單獨的方法:1是在精巧的資料集上建構梯度增強決策樹模型,2是基于幀級資料,視訊級資料和本地化模型的深度學習模型的組合。這兩種方法的組合在第三屆Youtube 8M視訊識别挑戰賽中排名第五。 |
Seeing What a GAN Cannot Generate Authors David Bau, Jun Yan Zhu, Jonas Wulff, William Peebles, Hendrik Strobelt, Bolei Zhou, Antonio Torralba 盡管生成式對抗網絡GAN取得了成功,但模式崩潰仍然是GAN訓練期間的一個嚴重問題。迄今為止,很少有工作集中在了解和量化模型丢棄的模式上。在這項工作中,我們在分發級别和執行個體級别都可視化了模式崩潰。首先,我們部署一個語義分割網絡,以比較生成圖像中分割對象的分布與訓練集中的目标分布。統計上的差異揭示了GAN忽略的對象類。其次,給定已識别的遺漏對象類,我們直接可視化GAN的遺漏。特别是,我們通過GAN比較了各個照片及其近似反演之間的特定差異。為此,我們放寬了反演問題,并解決了将GAN層而非整個發生器反演的棘手問題。最後,我們使用此架構來分析在多個資料集上受訓的幾個最近的GAN,并确定它們的典型故障案例。 |
Hardware-aware One-Shot Neural Architecture Search in Coordinate Ascent Framework Authors Li Lyna Zhang, Yuqing Yang, Yuhang Jiang, Wenwu Zhu, Yunxin Liu 為大量的硬體設計準确而有效的卷積神經體系結構具有挑戰性,因為硬體設計是複雜而多樣的。本文解決了神經架構搜尋NAS中的硬體多樣性挑戰。與先前的将搜尋算法應用在人為設計的小型搜尋空間而不考慮硬體多樣性的先前方法不同,我們提出了HURRICANE,該方法在更大的搜尋空間上探索自動硬體感覺的搜尋,并在協調上升架構中采用多步搜尋方案,以生成定制模型用于不同類型的硬體。在ImageNet上進行的大量實驗表明,與三種類型的硬體上最先進的NAS方法相比,我們的算法始終可以達到更低的推理延遲,并且具有相似或更高的準确性。值得注意的是,HURRICANE在ImageNet上實作了76.63最高的1精度,而DSP的推理延遲僅為16.5 ms,與FBNet iPhoneX相比,其精确度提高了3.4倍,推理速度提高了6.35倍。對于VPU,與無代理移動裝置相比,飓風實作的前1位準确性高出0.53倍,加速比提高了1.49倍。即使對于經過充分研究的移動CPU,與類似的推理延遲相比,飓風也比FBNet iPhoneX的top 1精度高1.63。與SinglePath Oneshot相比,飓風還平均減少了54.7的教育訓練時間。 |
CrevNet: Conditionally Reversible Video Prediction Authors Wei Yu, Yichao Lu, Steve Easterbrook, Sanja Fidler 應用分辨率保留塊是在視訊預測中最大化資訊保留的一種常見做法,但是它們的高記憶體消耗極大地限制了其應用場景。我們提出CrevNet,這是一個條件可逆網絡,它使用可逆架構來建構雙射雙向雙向自動編碼器及其互補的遞歸預測器。我們的模型具有在理論上保證的特性,即在特征提取過程中不會丢失任何資訊,并且記憶體消耗和計算效率都大大降低。 |
Metric Classification Network in Actual Face Recognition Scene Authors Jian Li, Yan Wang, Xiubao Zhang, Weihong Deng, Haifeng Shen 為了使面部特征更具區分性,最近提出了一些新模型。但是,幾乎所有這些模型都使用傳統的人臉驗證方法,其中使用瓶頸層輸出的特征執行餘弦運算。但是,每個模型每次在不同的測試集上運作時都需要更改門檻值。這對于實際場景中的應用非常不合适。在本文中,我們訓練了一個驗證分類器來對決策門檻值進行歸一化,這意味着可以直接獲得結果而無需替換門檻值。我們将模型稱為驗證分類器,該模型在由一個卷積層和六個完全連接配接的層組成的結構上獲得最佳結果。為了測試我們的方法,我們對Wild LFW和Youtube Faces YTF中的Labeled Face進行了廣泛的實驗,相對誤差減少量分别比傳統方法減少了25.37和26.60。這些實驗證明了驗證分類器在人臉識别任務上的有效性。 |
Progressive Unsupervised Person Re-identification by Tracklet Association with Spatio-Temporal Regularization Authors Qiaokang Xie, Wengang Zhou, Guo Jun Qi, Qi Tian, Houqiang Li 用于人員識别的現有方法Re ID主要基于監督學習,該學習需要在所有錄影機視圖中進行大量手動标記的樣本進行訓練。由于在現實世界的Re ID應用中,很難在多個不相交的相機視圖上詳盡地标記豐富的身份,是以這種範例遭受了可伸縮性問題的困擾。為此,我們提出了一種由Tracklet關聯時空時空正則化TASTR在野外對無監督人員Re ID進行漸進式深度學習的方法。在我們的方法中,我們首先通過自動人員檢測和跟蹤來收集每個錄影機中的小軌迹資料。然後,基于錄影機三元組構造來訓練初始Re ID模型以進行人像學習。之後,基于人的視覺特征和時空限制,我們将跨錄影機軌迹小波關聯以生成跨錄影機三重奏并更新Re ID模型。最後,通過改進的Re ID模型,可以更好地提取人的視覺特征,進而進一步促進跨相機軌迹的關聯。重複執行最後兩個步驟,以逐漸更新Re ID模型。 |
An End-to-End Foreground-Aware Network for Person Re-Identification Authors Yiheng Liu, Wengang Zhou, Jianzhuang Liu, Guojun Qi, Qi Tian, Houqiang Li 重新識别人員是跨多個監視錄影機視圖識别感興趣的行人的關鍵任務。在人員識别中,通常用從矩形圖像區域提取的特征來代表行人,該矩形圖像區域不可避免地包含場景背景,這會導緻歧義以區分不同的行人并降低準确性。為此,我們提出了一種端到端的前景感覺網絡,通過學習用于人員重新識别的軟掩碼來将前景與背景區分開。在我們的方法中,除了将行人ID用作對前景的監視之外,我們還将每個行人圖像的錄影機ID引入背景模組化。前景分支和背景分支是協同優化的。通過呈現目标注意力損失,從前景分支提取的行人特征對背景變得更加不敏感,這極大地減少了改變背景對在不同錄影機視圖之間比對相同圖像帶來的負面影響。值得注意的是,與現有方法相比,我們的方法不需要任何其他資料集來訓練人類地标檢測器或用于定位背景區域的分割模型。在三個具有挑戰性的資料集上進行的實驗結果,即Market 1501,DukeMTMC reID和MSMT17,證明了我們方法的有效性。 |
TRB: A Novel Triplet Representation for Understanding 2D Human Body Authors Haodong Duan, KwanYee Lin, Sheng Jin, Wentao Liu, Chen Qian, Wanli Ouyang 人體姿勢和形狀是2D人體的兩個重要組成部分。但是,如何有效地在圖像中表示這兩者仍然是一個懸而未決的問題。在本文中,我們提出了人體TRB的三重态表示形式,它是一種緊湊的2D人體表示形式,其骨架關鍵點捕獲了人體姿勢資訊,輪廓關鍵點包含了人體形狀資訊。 TRB不僅保留了骨架關鍵點表示的靈活性,而且還包含豐富的姿勢和人體形狀資訊。是以,它有望提供更廣闊的應用領域,例如人體形狀編輯和條件圖像生成。我們進一步介紹了TRB估算的挑戰性問題,需要共同學習人體的姿勢和形狀。我們基于流行的2D姿态資料集LSP,MPII,COCO建構了幾個大型TRB估計資料集。為了有效地解決TRB估計問題,我們提出了一種具有三項新穎技術的兩分支網絡TRB網絡,即X結構Xs,方向卷積DC和成對映射PM,以強制進行多級消息傳遞以進行聯合特征學習。我們在拟議的TRB資料集上評估了拟議的TRB網絡和幾種領先方法,并通過廣泛的評估證明了我們方法的優越性。 |
Team PFDet's Methods for Open Images Challenge 2019 Authors Yusuke Niitani, Toru Ogawa, Shuji Suzuki, Takuya Akiba, Tommi Kerola, Kohei Ozaki, Shotaro Sano 我們介紹了PFDet團隊在Open Images Challenge 2019中使用的執行個體分割和對象檢測方法。我們解決了龐大的資料集大小,巨大的類不平衡和聯合注釋。使用此方法,團隊PFDet在執行個體分割和對象檢測軌迹上分别獲得了第三和第四名。 |
RhythmNet: End-to-end Heart Rate Estimation from Face via Spatial-temporal Representation Authors Xuesong Niu, Hu Han, Shiguang Shan, Xilin Chen 心率HR是重要的生理信号,可反映人的身體和情緒狀态。傳統的HR測量通常依賴于接觸螢幕,這可能會帶來不便和不适。近來,已經提出了一些用于從面部視訊進行遠端HR估計的方法,但是,大多數方法集中在控制良好的場景上,它們在諸如頭部移動和照明不良的情況下被推廣到受限制較小的場景中的能力尚不清楚。同時,缺乏大規模的人力資源資料庫限制了深度模型用于遠端人力資源估計的使用。在本文中,我們提出了端到端的RhythmNet,用于從面部進行遠端HR估計。在RyhthmNet中,我們使用對來自多個ROI體積的HR信号進行編碼的空間時态表示作為其輸入。然後,将空間時間表示饋送到卷積網絡中以進行HR估計。我們還考慮了通過門控循環單元GRU從視訊序列中相鄰HR測量的關系,并實作了有效的HR測量。此外,我們還建立了一個名為VIPL HR的大規模多模式HR資料庫,可從以下網站獲得 |
A comparable study: Intrinsic difficulties of practical plant diagnosis from wide-angle images Authors Katsumasa Suwa, Quan Huu Cap, Ryunosuke Kotani, Hiroyuki Uga, Satoshi Kagiwada, Hitoshi Iyatomi 适用于廣角圖像的實用的自動植物病害檢測和診斷,即在野外圖像中包含來自固定位置相機的多片葉子,這對于大規模農場管理非常重要,可確定全球食品安全。然而,開發自動疾病診斷系統通常很困難,因為從實際領域标記可靠的疾病廣角資料集非常費力。此外,訓練資料和測試資料之間的潛在相似性會導緻嚴重的模型過度拟合問題。在本文中,我們調查了将疾病診斷系統應用于實際農場捕獲的廣角黃瓜測試資料的不同場景時的性能變化,并提出了一種較好的診斷政策。我們證明,領先的對象識别技術(例如SSD和Faster R CNN)僅在與訓練資料集81.5 84.1 F1分數相同的人群中收集的被診斷疾病病例的測試資料集上實作了出色的端到端疾病診斷性能,但是它F1分數完全不同的測試資料4.4 6.2嚴重惡化。相反,具有獨立葉子檢測和葉子診斷模型的兩階段系統獲得了有希望的疾病診斷性能,其比看不見的目标資料集上的F1得分的端到端系統33.4 38.9高出6倍以上。我們還從視覺評估中确認了其效率,認為兩個階段的模型是合适的,是實際應用的合理選擇。 |
Toward an Automatic System for Computer-Aided Assessment in Facial Palsy Authors Diego L. Guarin, Yana Yunusova, Babak Taati, Joseph R Dusseldorp, Suresh Mohan, Joana Tavares, Martinus M. van Veen, Emily Fortier, Tessa A. Hadlock, Nate Jowett 重要性機器學習ML進行人臉界标定位的方法具有巨大的臨床潛力,可以對人臉功能進行定量評估,因為它們可以對照片中的相關人臉度量進行高通量自動量化。但是,從研究環境到臨床應用的轉換需要重要的改進。目的開發一種用于在面神經麻痹患者的照片中準确定位面部标志的ML算法,并将其用作自動計算機輔助診斷系統的一部分。設計,設定和參與者将面部标志手動定位在從200名面癱患者和10名對照中獲得的八種表情的肖像照片中。使用該疾病特異性資料庫訓練了用于自動面部界标定位的新穎的ML模型。将模型輸出與手動注釋進行比較,并使用僅包含健康受試者的較大資料庫對模型的輸出進行訓練。通過算法預測和手動注釋之間的歸一化均方根誤差NRMSE評估模型的準确性。結果與健康對照NRMSE相比,當應用于患者時,公開可用的算法提供的結果較差,NRMSE為8.56 2.16 vs. 7.09 2.34,p 0.01。與使用數千張健康面部圖像訓練的模型相比,使用相對較少數量的患者照片1440訓練的模型,我們發現臨床人群的面部界标定位精度有了顯着提高,NRMSE,6.03 2.43 vs. 8.56 2.16,p 0.01 。結論用少量臨床圖像訓練地标檢測模型可以顯着改善臨床人群正面照片中的地标檢測性能。這些結果代表了針對面癱的計算機輔助評估自動系統的第一步。 |
Deep Image Blending Authors Lingzhi Zhang, Tarmily Wen, Jianbo Shi 圖像合成是建立視覺内容的重要操作。在圖像合成任務中,圖像融合旨在通過輕輕地進行蒙版調整将對象從源圖像無縫融合到目标圖像。泊松圖像融合是一種流行的方法,它可以在合成圖像中增強梯度域的平滑度。然而,該方法僅考慮目标圖像的邊界像素,是以不能适應目标圖像的紋理。此外,目标圖像的顔色通常會滲入原始源對象太多,進而導緻源對象内容的重大損失。我們提出一種泊松混合損失,該損失可以實作泊松圖像混合的相同目的。另外,我們共同優化了拟議的泊松混合損失以及從深度網絡計算出的樣式和内容損失,并通過使用L BFGS求解器疊代更新像素來重建混合區域。在融合圖像中,我們不僅平滑了融合邊界的梯度域,還向融合區域添加了一緻的紋理。使用者研究表明,将對象放置在繪畫和真實世界圖像上時,我們的方法優于強大的基準以及最新的方法。 |
Multimodal Image Outpainting With Regularized Normalized Diversification Authors Lingzhi Zhang, Jiancong Wang, Jianbo Shi 在本文中,我們研究僅給出很小的前景區域時就産生一組現實而多樣的背景的問題。我們将此任務稱為圖像外包。這項任務的技術挑戰是不僅要合成合理的圖像輸出,還要合成各種圖像輸出。傳統的生成對抗網絡會遭受模式崩潰的影響。盡管最近的方法建議相對于其潛在距離最大化或保留生成的樣本之間的成對距離,但它們并未明确阻止崩潰的不同條件輸入的不同樣本。是以,我們提出了一種新的正則化方法,以鼓勵條件合成中的多種采樣。此外,我們提出了一種特征金字塔判别器,以提高圖像品質。我們的實驗結果表明,與CelebA人臉資料集和Cityscape場景資料集中的最新技術相比,我們的模型可以在不犧牲視覺品質的情況下生成更多種多樣的圖像。 |
Heterogeneous Graph Learning for Visual Commonsense Reasoning Authors Weijiang Yu, Jingwen Zhou, Weihao Yu, Xiaodan Liang, Nong Xiao 視覺常識推理任務旨在通過預測正确答案的能力引領研究領域解決認知水準的推理,同時提供令人信服的推理路徑,進而産生三個子任務,即Q A,QA R和Q AR。在視覺和語言領域以及知識推理之間産生恰當的語義一緻性以産生有說服力的推理路徑方面,這帶來了巨大的挑戰。現有作品要麼訴諸功能強大的端到端網絡,即無法産生可解釋的推理路徑,要麼僅探索視覺對象同質圖的内部關系,而忽略了視覺概念和語言單詞之間的跨域語義對齊。在本文中,我們提出了一種新的異構圖學習HGL架構,該架構可無縫內建圖内圖和圖間推理,以橋接視覺和語言領域。我們的HGL包括回答異質圖VAHG子產品的原始視野和回答異質圖QAHG子產品以互動地完善語義協定推理路徑的雙重問題。此外,我們的HGL內建了上下文投票子產品,可利用遠端視覺上下文進行更好的全局推理。在大規模的視覺常識推理基準上進行的實驗表明,我們提出的子產品在三個任務上的出色性能提高了Q A的5精度,QA R的3.5精度,Q AR的5.8 |
Animal Detection in Man-made Environments Authors Abhineet Singh, Marcin Pietrasik, Gabriell Natha, Nehla Ghouaiel, Ken Brizel, Nilanjan Ray 自動檢測已誤入人類居住區的動物具有重要的安全和道路安全應用。本文嘗試使用來自各種計算機視覺領域的深度學習技術(包括對象檢測,跟蹤,分割和邊緣檢測)解決此問題。在調整在基準資料集上訓練的模型以用于實際部署時,可以在遷移學習中獲得一些有趣的見解。提供了經驗證據來證明檢測器無法将其在自然栖息地中的動物訓練圖像推廣到人造環境的部署場景。還提出了一種使用半自動合成資料生成進行領域特定訓練的解決方案。提供了實驗中使用的代碼和資料,以促進該領域的進一步工作。 |
Learning an Uncertainty-Aware Object Detector for Autonomous Driving Authors Gregory P. Meyer, Niranjan Thakurdesai 檢測物體的能力是自動駕駛的核心部分。由于傳感器噪聲和資料不完整,無法完美檢測和定位每個對象。是以,對于檢測器而言,在每個預測中提供不确定量非常重要。為自主系統提供可靠的不确定性,可使車輛根據不确定性程度做出不同的反應。先前的工作通過預測對象邊界框上的機率分布來估計檢測中的不确定性。在這項工作中,我們提出了一種方法,通過考慮地面真實标記資料中的潛在噪聲來提高學習機率分布的能力。我們提出的方法不僅提高了學習分布的準确性,而且還提高了對象檢測性能。 |
Learning eating environments through scene clustering Authors Sri Kalyan Yarlagadda, Sriram Baireddy, David G era. Carol J. Boushey, Deborah A. Kerr, Fengqing Zhu 衆所周知,飲食習慣對健康有重大影響。盡管已經進行了許多研究來了解這種關系,但對飲食環境和健康之間的關系知之甚少。然而,世界各地的研究人員和衛生機構已經認識到飲食環境是改善飲食和健康的有希望的環境。在本文中,我們提出了一種圖像聚類方法,該方法可從社群居住飲食研究期間捕獲的進餐場合圖像中自動提取進餐環境。具體來說,我們有興趣了解一個人在哪種不同的環境中食用食物。我們的方法通過使用深度神經網絡提取全局和局部尺度的特征來對圖像進行聚類。由不同個體捕獲的簇和圖像的數量的變化使得這成為非常具有挑戰性的問題。實驗結果表明,與幾種現有的聚類方法相比,我們的方法性能明顯更好。 |
***Handheld Mobile Photography in Very Low Light Authors Orly Liba, Kiran Murthy, Yun Ta Tsai, Tim Brooks, Tianfan Xue, Nikhil Karnad, Qiurui He, Jonathan T. Barron, Dillon Sharlet, Ryan Geiss, Samuel W. Hasinoff, Yael Pritch, Marc Levoy 使用手機在低光下拍攝照片具有挑戰性,并且幾乎不會産生令人滿意的結果。除了讀取噪聲和光子散粒噪聲帶來的實體限制外,這些相機通常是手持式的,具有小光圈和傳感器,使用不易冷卻的大量生産的模拟電子裝置,通常用于拍攝移動的物體,例如兒童和兒童。寵物。在本文中,我們描述了一種用于在低至0.3 lux的光線下捕獲幹淨,清晰,彩色照片的系統,在該系統中,人的視覺變得單色且模糊。為了使手持攝影機無需閃光燈照明,我們可以捕獲,對齊群組合多個幀。我們的系統采用運動測光技術,該技術可使用運動量估計值(無論是由于握手還是運動物體引起的)來識别幀數和每幀曝光時間,進而将捕獲的突發中的噪聲和運動模糊最小化。我們使用專門針對高噪聲圖像的魯棒對齊和合并技術來組合這些幀。為了確定在這種弱光下準确的色彩,我們采用了基于學習的自動白平衡算法。為了防止照片看起來像是在白天拍攝的照片,我們使用了色調映射技術,該技術的靈感來自幻覺繪畫,以增加對比度,将陰影粉碎為黑色,并在黑暗中環繞場景。所有這些過程都是使用移動裝置的有限計算資源執行的。新手攝影師可以使用我們的系統通過單次快門按下在幾秒鐘内生成可共享的照片,即使在昏暗的環境下,人也看不清。 |
Surreal: Complex-Valued Deep Learning as Principled Transformations on a Rotational Lie Group Authors Rudrasis Chakraborty, Yifei Xing, Stella Yu 近年來,複雜的深度學習因其多功能性和捕獲更多資訊的能力而受到越來越多的關注。但是,缺乏明确定義的複雜價值操作仍然是進一步發展的瓶頸。在這項工作中,我們提出了一種利用權重Fr chet平均方法在複數空間上定義深度神經網絡的幾何方法。我們用數學方法證明了該算法的可行性。我們還定義了基本的構造塊,例如卷積,非線性和針對複數空間量身定制的殘差連接配接。為了證明我們提出的模型的有效性,我們在使用不到1個參數的同時,将我們的複雜價值網絡與其在MSTAR分類任務中的最新技術進行了全面比較,并獲得了更好的性能。 |
Stabilizing DARTS with Amended Gradient Estimation on Architectural Parameters Authors Kaifeng Bi, Changping Hu, Lingxi Xie, Xin Chen, Longhui Wei, Qi Tian 差異化神經架構搜尋已成為探索用于深度學習的架構的流行方法。盡管搜尋效率具有很大的優勢,但它經常會遇到穩定性較弱的問題,這使其無法應用于較大的搜尋空間或靈活地适應不同的情況。本文研究了目前最流行的差分搜尋算法DARTS,并指出了不穩定性的重要因素,這取決于它對建築參數梯度的近似。在目前狀态下,優化算法可能會收斂到另一點,這會導緻重新訓練過程中出現嚴重的準确性。在此分析的基礎上,我們提出了一個利用網絡參數優化的最優性的直接屬性來計算體系結構梯度的修正術語。我們的方法在數學上保證了梯度估計遵循大緻正确的方向,這導緻搜尋階段收斂于合理的體系結構。實際上,我們的算法很容易實作,并且可以有效地添加到基于DARTS的方法中。在CIFAR和ImageNet上進行的實驗表明,我們的方法具有較高的準确性,更重要的是,它使基于DARTS的方法能夠探索以前從未研究過的更大的搜尋空間。 |
DR$\vert$GRADUATE: uncertainty-aware deep learning-based diabetic retinopathy grading in eye fundus images Authors Teresa Ara jo, Guilherme Aresta, Lu s Mendon a, Susana Penas, Carolina Maia, ngela Carneiro, Ana Maria Mendon a, Aur lio Campilho 糖尿病性視網膜病變DR分級對于确定患者的适當治療和随訪至關重要,但是篩查過程可能很煩人并且容易出錯。深度學習方法已顯示出作為計算機輔助診斷CAD系統的有希望的性能,但是它們的黑匣子行為阻礙了其臨床應用。我們提出了DR vert GRADUATE,這是一種新穎的基于深度學習的DR評分CAD系統,它通過提供醫學上可以解釋的解釋以及對該預測的不确定性的估計來支援其決策,進而使眼科醫生可以衡量該決策應得到多少信任。我們在設計DR vert GRADUATE時考慮了DR分級問題的序數性質。一種基于多執行個體學習架構的新穎的高斯采樣方法,使DR vert GRADUATE可以推斷與解釋圖和預測不确定性相關的圖像等級,而僅使用圖像明智的标簽進行訓練。 DR vert GRADUATE在Kaggle訓練集中進行了訓練,并在多個資料集中進行了評估。在DR分級中,在五個不同的資料集中獲得了介于0.71和0.84之間的二次權重Cohen s Kappa QWK。我們表明高QWK值發生在具有低預測不确定性的圖像上,是以表明該不确定性是預測品質的有效度量。此外,品質差的圖像通常會帶來較高的不确定性,這表明不适合診斷的圖像确實導緻可信度較低的預測。此外,對不熟悉的醫學圖像資料類型的測試表明,DR vert GRADUATE可以進行離群值檢測。注意圖通常會突出顯示感興趣的區域以進行診斷。這些結果表明,DR vert GRADUATE作為DR嚴重度分級的第二意見系統具有巨大潛力。 |
Contextual Imagined Goals for Self-Supervised Robotic Learning Authors Ashvin Nair, Shikhar Bahl, Alexander Khazatsky, Vitchyr Pong, Glen Berseth, Sergey Levine 強化學習為學習個人技能提供了一種吸引人的形式主義,而通用機器人系統必須能夠掌握廣泛的行為準則。我們可以讓機器人自動提出和實踐自己的行為,而不是學習大量技能,而是了解機器人在環境中可以執行的承受能力和行為,以便一旦有了新的知識就可以重新利用這些知識。任務由使用者指揮在本文中,我們将在自我監督的目标條件強化學習的背景下研究該問題。在這種學習方式中的一個主要挑戰是為了練習有用技能而設定目标的問題,機器人必須能夠自主設定可行但多樣的目标。當機器人的環境和可用對象發生變化時(如大多數開放世界設定中的情況一樣),機器人必須僅向自身提出可以在目前設定下使用手邊的對象完成的那些目标。先前的工作僅在單一環境中研究自我監督的目标條件RL,其中目标建議來自機器人的過去經驗或生成的模型就足夠了。在更多樣化的環境中,這經常會導緻無法實作的目标,并且正如我們通過實驗表明的那樣,這會阻止有效的學習。我們提出了一個條件目标設定模型,旨在提出可以從機器人目前狀态可行的目标。我們證明,這可以使自我監督的目标以現實世界中原始圖像的觀察為基礎,以政策學習為條件,進而使機器人能夠操縱各種對象并将其推廣到訓練期間未看到的新對象。 |
Learning Task-Oriented Grasping from Human Activity Datasets Authors Mia Kokic, Danica Kragic, Jeannette Bohg 我們建議利用現實世界中的人類活動RGB資料集來教授機器人em面向任務的抓圖TOG。一方面,由于互動過程中包含手和對象的RGB D資料集通常缺少注釋,這是由于手動擷取它們而造成的。另一方面,RGB資料集通常帶有标簽注釋,這些标簽沒有提供足夠的資訊來推斷6D機器人抓握姿勢。但是,它們包含對許多不同任務的各種對象進行掌握的示例。是以,與RGB D資料集相比,它們提供了更豐富的監管來源。我們提出了一個模型,該模型以RGB圖像作為輸入,并輸出手的姿勢和配置以及對象的姿勢和形狀。我們遵循的見解是,與互相獨立地估計這些數量相比,共同估計手和物體的姿勢可以提高準确性。定量實驗表明,使用手部姿勢資訊訓練對象姿态預測器,反之亦然,比沒有此資訊的訓練更好。給定訓練後的模型,我們處理RGB資料集以自動擷取TOG模型的訓練資料。該模型将對象點雲和任務作為輸入,并在給定任務的情況下輸出适合抓取的區域。定性實驗表明,我們的模型可以成功處理現實世界的資料集。用機器人進行的實驗表明,該資料使機器人能夠學習面向任務的對新穎對象的掌握。 |
Mixing realities for sketch retrieval in Virtual Reality Authors Daniele Giunchi, Stuart james, Donald Degraen, Anthony Steed 用于虛拟現實VR的繪圖工具使使用者可以在虛拟環境本身内部對3D設計進行模組化。這些工具采用基于桌面的界面中已知的素描和雕刻技術,并将其應用于基于手的控制器互動。盡管這些技術允許對基本形狀進行空中草圖繪制,但使用者仍然難以建立詳細而全面的3D模型。在我們的工作中,我們緻力于通過增強基于草圖的界面以及用于互動模型檢索的支援系統,來支援使用者設計周圍的虛拟環境。通過草繪,沉浸式使用者可以查詢包含詳細3D模型的資料庫,并将其替換為虛拟環境。為了了解虛拟環境中的輔助素描,我們比較了素描互動的不同方法,即3D空中素描,虛拟平闆電腦上的2D素描,固定虛拟白闆上的2D素描和真實平闆電腦上的2D素描。使用2D實體平闆電腦,2D虛拟平闆電腦,2D虛拟白闆和3D空中草圖。我們的結果表明,空中3D草圖繪制被認為是搜尋模型集合的一種更直覺的方法,而實體裝置的添加由于将其包含在虛拟環境中的複雜性而造成了混亂。雖然我們将工作視為椅子3D模型的檢索問題,但是我們的結果可以外推到虛拟環境的其他草圖繪制任務。 |
A Simple Dynamic Learning Rate Tuning Algorithm For Automated Training of DNNs Authors Koyel Mukherjee, Alind Khare, Ashish Verma 在圖像資料集上訓練神經網絡通常需要進行大量實驗,以找到最佳學習率制度。特别是,在對抗訓練或訓練新合成模型的情況下,人們不會事先知道最佳學習率制度。我們提出了一種用于确定學習率軌迹的自動算法,該算法可跨資料集和模型進行自然訓練和對抗訓練,而無需任何特定于資料集模型的調整。它是一種獨立的無參數自适應方法,無計算開銷。我們從理論上讨論算法的收斂行為。我們從經驗上廣泛驗證了我們的算法。我們的結果表明,在自然訓練和對抗訓練中,與文獻中的SOTA基準相比,我們提出的方法Emph始終可達到最高的準确性。 |
Deep 1D-Convnet for accurate Parkinson disease detection from gait Authors Imanne El Maachi, Guillaume Alexandre Bilodeau, Wassim Bouachir 診斷帕金森氏病是一項複雜的任務,需要評估幾種運動和非運動症狀。在診斷過程中,步态異常是醫生應考慮的重要症狀之一。然而,步态評估具有挑戰性,并且依賴于臨床醫生的專業知識和主觀性。在這種情況下,智能步态分析算法的使用可以幫助醫師,以促進診斷過程。本文提出了一種基于深度學習技術的新型智能帕金森檢測系統,用于分析步态資訊。我們使用1D卷積神經網絡1D Convnet來建構深度神經網絡DNN分類器。所提出的模型處理來自腳傳感器的18個1D信号,這些信号測量垂直地面反作用力VGRF。網絡的第一部分包括與系統輸入相對應的18個并行一維Convnet。第二部分是一個完全連接配接的網絡,該網絡連接配接一維Convnet的并置輸出以獲得最終分類。我們用帕金森病統一評分量表UPDRS對帕金森氏病的檢測和疾病嚴重程度的預測進行了測試。我們的實驗證明了該方法在基于步态資料的帕金森病檢測中的高效性。該算法的準确率達98.7。據我們所知,這是帕金森步态識别開始表現的狀态。此外,我們在帕金森病嚴重程度預測中達到了85.3的準确性。據我們所知,這是第一個基于UPDRS進行嚴重性預測的算法。我們的結果表明,該模型能夠從步态資料中學習内在特征,并将其推廣到看不見的受試者,這可能有助于臨床診斷。 |
Causal inference for climate change events from satellite image time series using computer vision and deep learning Authors Vikas Ramachandra 為了确定影響氣候變化(如森林砍伐)的幹預措施的處理效果,我們提出了一種使用衛星圖像時間序列進行因果推理的方法。簡而言之,目的是量化與氣候相關的人為幹預措施(如城市化)以及自然災害(如飓風和森林火災)的前後影響。作為一個具體的例子,我們專注于量化由于人為原因引起的林木覆寫率變化。所提出的方法包括以下步驟。首先,我們使用計算機視覺和機器學習深度學習技術來在每個時間段檢測和量化随時間變化的林木覆寫水準。然後,我們檢視此時間序列以識别變更點。接下來,我們使用貝葉斯結構因果模型并預測對事實的預測來估計預期的森林樹木覆寫值。将其與幹預後實際觀察到的值進行比較,并且兩個值的差異為我們提供了與非幹預方案相比的幹預效果,即如果沒有幹預,可能會發生的情況。作為一個特定的用例,我們分析了巴西在1993年結束的惡性通貨膨脹事件幹預之前和之後的森林砍伐水準94,針對巴西朗多尼亞附近的亞馬遜雨林地區。對于這種森林砍伐用例,使用我們的因果推斷架構可以幫助歸因于歸因于森林樹木覆寫率變化的減少和由于人類在不同時間點的活動造成的森林砍伐率的提高。 |
Human Action Recognition Using Deep Multilevel Multimodal (M2) Fusion of Depth and Inertial Sensors Authors Zeeshan Ahmad, Naimul Khan 多年來,人們已經提出了使用深度和慣性傳感器資料的用于人類動作識别HAR的多模式融合架構。在大多數現有工作中,融合是在單個級别的功能級别或決策級别執行的,而缺少融合更好的分類所必需的豐富的中級功能的機會。為了解決這個缺點,在本文中,我們提出了三種新穎的深層多級多模式融合架構,以利用各個階段的不同融合政策并利用多級融合的優勢。在輸入時,我們将深度資料轉換為稱為順序前視圖圖像SFI的深度圖像,并将慣性傳感器資料轉換為信号圖像。通過使用Prewitt濾波器進行卷積,可以使每個輸入模态,深度和慣性進一步變為多模态。在模态内建立模态,可以通過卷積神經網絡CNN進一步提取互補和區分特征。對CNN進行每種形式的輸入圖像訓練,以學習低級,進階和複雜功能。在提出的架構的不同階段提取和融合學習到的特征,以結合區分性和補充性資訊。這些高資訊量的功能用作多類支援向量機SVM的輸入。我們在三個公開的多模式HAR資料集(即UTD多模式人類行為資料集MHAD,Berkeley MHAD和UTD MHAD Kinect V2)上評估了提出的架構。實驗結果表明,所提出的融合架構優于現有方法。 |
Unified Multi-scale Feature Abstraction for Medical Image Segmentation Authors Xi Fang, Bo Du, Sheng Xu, Bradford J. Wood, Pingkun Yan 自動醫學圖像分割是醫學圖像分析的重要組成部分,在計算機輔助診斷中起着重要作用。例如,對肝髒進行定位和分割對肝癌的診斷和治療非常有幫助。醫學圖像分割中的最新模型是編碼器解碼器體系結構的變體,例如全卷積網絡FCN和UNet。1基于FCN的分割方法的主要重點是通過合并最新的CNN結構(例如ResNet2和DenseNet)進行網絡結構工程。 3除了探索新的網絡結構以有效地提取進階特征外,在FCN中并入用于多尺度圖像特征提取的結構還有助于提高分割任務的性能。在本文中,我們設計了一種新的多尺度網絡體系結構,該體系結構通過具有專用卷積路徑的多尺度輸入來有效地組合不同尺度的特征,進而更好地利用層次資訊。 |
HRL4IN: Hierarchical Reinforcement Learning for Interactive Navigation with Mobile Manipulators Authors Chengshu Li, Fei Xia, Roberto Martin Martin, Silvio Savarese 人類環境中最常見的導航任務需要輔助手臂互動,例如打開門,按下按鈕并推開障礙物。這種類型的導航任務(我們稱為互動式導航)要求使用具有操縱功能的移動操縱器移動基座。互動式導航任務通常是長期的,并且由純導航,純操縱及其組合的異構階段組成。使用實施例的錯誤部分效率低下并且阻礙了進展。我們提出HRL4IN,這是一種用于互動式導航任務的新穎的層次RL體系結構。由于對子目标的時間擴充承諾,HRL4IN在長期任務中利用了HRL相對于平坦RL的勘探優勢。與其他HRL解決方案不同,HRL4IN通過在任務的不同階段的不同空間中建立子目标來處理互動式導航任務的異構性質。此外,HRL4IN選擇實施例的不同部分用于每個階段,進而提高了能源效率。我們在兩種環境下,即2D網格世界環境和3D環境(具有實體仿真),針對平面PPO和最新的HRL算法HAC HAR4IN評估了HRL4IN。我們顯示,HRL4IN在任務性能和能效方面明顯優于其基準。有關更多資訊,請通路: |
Reconstruction of Undersampled 3D Non-Cartesian Image-Based Navigators for Coronary MRA Using an Unrolled Deep Learning Model Authors Mario O. Malav , Corey A. Baron, Srivathsan P. Koundinyan, Christopher M. Sandino, Frank Ong, Joseph Y. Cheng, Dwight G. Nishimura 目的利用展開的深度學習DL模型快速重建欠采樣的3D非笛卡爾圖像導航器iNAV,用于冠狀動脈磁共振血管成像CMRA中的非剛性運動校正。 |
Accurate Layerwise Interpretable Competence Estimation Authors Vickram Rajendran, William LeVine 在野外估計機器學習性能是一個重要且尚未解決的問題。在本文中,我們試圖檢查,了解和預測分類模型的點狀能力。我們的貢獻是雙重的。首先,我們建立了統計上嚴格的能力定義,以概括分類器置信度的通用概念;其次,我們提出了ALICE準确的分層可解釋的能力估計值,這是任何分類器的逐點能力估計器。通過考慮分布,資料和模型的不确定性,ALICE可以在常見故障情況下(例如類不平衡資料集,分布資料集不足和訓練不足的模型)憑經驗顯示準确的能力估計。我們的貢獻使我們能夠準确地預測給定任何輸入和誤差函數的任何分類模型的能力。我們将我們的分數與模型置信度和信任度分數等最先進的置信度估計值進行比較,并在諸如DIGITS,CIFAR10和CIFAR100的資料集上顯示出優于這些方法的能力預測方面的顯着改進。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩請移步首頁
pic from pexels.com