今日CS.CV 計算機視覺論文速覽
Tue, 23 Jul 2019
Totally 52 papers
?上期速覽✈更多精彩請移步首頁
Interesting:
?基于圖像遷移的夜間車輛檢測, 提出了一種利用白天的标記資料訓練夜晚無标記資料的目标檢測方法,基于生成對抗網絡來生成黑夜圖像的标記,随後利用GAN生成的圖像來訓練模型進行夜間檢測。(from Universidade Federal do Esp´ırito Santo)
基于cycleGAN的圖像遷移模型:
一些遷移後的樣本和效果:
?基于RGB-D的目标檢測綜述參考書, 針對傳統方法和深度學習方法進行了綜述(from 西澳洲大學)
author:http://isaacronaldward.com/
?基于深度學習目标檢測綜述, 分析了現有的典型檢測方法和資料集,提供了針對各種方法系統同的測評,列出了各種應用場景。給出了一些開放問題和未來的發展方向。(from 西安交大)
典型應用包括安防、軍事、交通、醫學、家居,還包括弱監督檢測、顯著性檢測、強調檢測、邊緣檢測、文本檢測、多域的通用能力和視訊目标檢測、3D位姿檢測等等。未來趨勢将在視訊、後處理法、弱監督、多領域、3D、顯著性、無監督、多任務、多傳感器、移動終端、醫學生物、遙感和實時檢測以及GAN相關的應用中發展。
?MegaDepth單視圖深度重建, 包含了一個深度資料集MegaDepth,可用于深度預測、深度圖修複等。同時提出了基于圖像的深度估計網絡。(from 康奈爾大學)
文章中幾種損失函數值得學習,包括L1,梯度比對損失以及順序ordinal損失
website:http://www.cs.cornell.edu/projects/megadepth/
?視網膜啟發的針對動态視覺傳感器采樣方法用于視覺紋理重建, (from 北大)
Daily Computer Vision Papers
Automatic detection of multiple pathologies in fundus photographs using spin-off learning Authors Gwenol Quellec, Mathieu Lamard, Pierre Henri Conze, Pascale Massin, B atrice Cochener 在過去的幾十年中,在糖尿病視網膜病變DR篩查網絡中收集了大量的眼底照片資料集。通過深度學習,這些資料集被用于訓練DR的自動檢測器和一些其他常見病理,目的是自動篩查。迄今為止,一個挑戰限制了這種系統的采用,自動檢測器忽略了眼科醫生目前檢測到的罕見病症。為了解決這個限制,我們提出了一種新的機器學習ML架構,稱為旋轉學習,用于自動檢測稀有條件。該架構擴充了針對頻繁條件訓練的卷積神經網絡CNN,其具有用于罕見狀況檢測的無監督機率模型。旋轉學習是基于以下觀察:CNN經常感覺包含相同異常的照片,即使這些CNN被訓練以檢測不相關的條件。這個觀察是基于t SNE可視化工具,我們決定将其包含在我們的機率模型中。離散學習支援熱圖生成,是以可以在圖像中突出顯示檢測到的異常以供決策支援。在來自OPHDIAT篩選網絡的160,000多次篩選檢查的資料集中的實驗表明,脫離學習可以檢測出41個中的37個條件,其中ROC曲線下面積AUC大于0.8平均AUC 0.938。特别是,離散學習明顯優于其他候選ML架構,用于檢測罕見條件多任務學習,轉移學習和一次性學習。我們希望這些更豐富的預測能夠引發自動眼病理篩查,這将徹底改變眼科臨床實踐。 |
Multi-Class Lane Semantic Segmentation using Efficient Convolutional Networks Authors Shao Yuan Lo, Hsueh Ming Hang, Sheng Wei Chan, Jing Jhih Lin 車道檢測在自駕車中起着重要作用。一些研究利用語義分割網絡來提取穩健的泳道特征,但很少有人能夠區分不同類型的泳道。在本文中,我們關注多類車道語義分割的問題。基于觀察到車道是道路場景圖像中的小尺寸和窄寬度物體,我們提出了兩種技術,特征尺寸選擇FSS和減壓膨脹塊DD塊。 FSS允許網絡使用适當的特征尺寸提取薄道特征。為了獲得細粒度的空間資訊,DD Block由一系列擴張的卷積構成,具有遞減的擴張率。實驗結果表明,與基線系統相比,所提出的技術在準确性方面提供了明顯的改進,同時它們實作了相同或更快的推理速度,并且可以在高分辨率圖像上實時運作。 |
k-t NEXT: Dynamic MR Image Reconstruction Exploiting Spatio-temporal Correlations Authors Chen Qin, Jo Schlemper, Jinming Duan, Gavin Seegoolam, Anthony Price, Joseph Hajnal, Daniel Rueckert 動态磁共振成像MRI在k空間和時間上表現出高度相關性。為了加速動态磁共振成像并利用來自高度欠采樣資料的k t相關,我們在此提出一種新的基于深度學習的動态MR圖像重建方法,稱為k t NEXT k t NEtwork with X f Transform。特别是,受k t BLAST和k t FOCUSS等傳統方法的啟發,我們建議從x f域中的混疊信号重建真實信号,以利用時空備援。在此基礎上,所提出的方法然後通過以疊代方式交替x f空間和圖像空間之間的重建過程來學習恢複信号。這使得網絡能夠有效地捕獲有用資訊并共同利用來自兩個互補域的時空相關性。在高度欠采樣的短軸心髒電影MRI掃描上進行的實驗表明,我們提出的方法在數量和品質上都優于現有技術的動态MR重建方法。 |
++衛星地表覆寫分類Satellite-Net: Automatic Extraction of Land Cover Indicators from Satellite Imagery by Deep Learning Authors Eleonora Bernasconi, Francesco Pugliese, Diego Zardetto, Monica Scannapieco 在本文中,我們通過深度學習DL解決了衛星圖像土地覆寫分類的挑戰。土地覆寫旨在探測領土的實體特征,并估算某類實體植被,住宅建築,工業區,森林區,河流,湖泊等占用土地的百分比.DL是大資料分析的新範例特别是對于計算機視覺。由于高度自動化和計算性能,DL在土地覆寫目的圖像分類中的應用具有很大的潛力。特别地,卷積神經網絡CNN的發明是該領域的進步的基礎。 1,聯合國全球工作組的衛星任務組介紹了迄今為止在官方統計中使用地球觀測所取得的成果。然而,在該研究中,尚未探索CNN用于圖像的自動分類。這項工作調查了CNN用于估算土地覆寫名額的用途,提供了第一個有希望的結果的證據。特别是,該論文提出了一種稱為衛星網的定制模型,能夠在測試集上達到高達98的精度水準。 |
A Survey of Deep Learning-based Object Detection Authors Licheng Jiao, Fan Zhang, Fang Liu, Shuyuan Yang, Lingling Li, Zhixi Feng, Rong Qu 對象檢測是計算機視覺中最重要,最具挑戰性的分支之一,它已被廣泛應用于人們的生活中,如監視安全性,自動駕駛等,目的是定位某類語義對象的執行個體。随着用于檢測任務的深度學習網絡的快速發展,對象檢測器的性能得到了極大的提高。為了更深入地了解目标檢測管道的主要發展現狀,本次調查首先分析了現有典型檢測模型的方法,并對基準資料集進行了描述。之後,我們主要以系統的方式全面概述各種物體檢測方法,包括一級和兩級探測器。此外,我們列出了傳統和新的應用程式。還分析了一些代表性的物體檢測分支。最後,我們讨論利用這些目标檢測方法建構一個有效和高效的系統的架構,并指出一套發展趨勢,以更好地遵循最先進的算法和進一步的研究。 |
+古文獻圖像檢索Deep Learning Approaches for Image Retrieval and Pattern Spotting in Ancient Documents Authors Kelly Lais Wiggers, Alceu de Souza Britto Junior, Alessandro Lameiras Koerich, Laurent Heutte, Luiz Eduardo Soares de Oliveira 本文介紹了使用深度學習在文檔圖像中進行基于内容的圖像檢索和模式定位的兩種方法。第一種方法使用預先訓練的CNN模型來應對訓練資料的缺乏,訓練資料經過精細調整以實作查詢和候選圖像的緊湊但有差別的表示。第二種方法使用在ImageNet資料集的先前準備的圖像對子集上訓練的Siamese卷積神經網絡,以提供基于相似性的特征圖。在這兩種方法中,學習的表示方案考慮了不同大小的特征圖,這些特征圖根據檢索性能進行評估。使用兩個公共資料集Tobacoo 800和DocExplore的強大實驗方案已經表明,所提出的方法與現有技術文檔圖像檢索和模式定位方法相比是有利的。 |
Markerless Augmented Advertising for Sports Videos Authors Hallee E. Wong, Osman Akar, Emmanuel Antonio Cuevas, Iuliana Tabian, Divyaa Ravichandran, Iris Fu, Cambron Carter 無标記增強現實可以是具有挑戰性的計算機視覺任務,尤其是在直播設定中以及缺少與視訊捕獲相關的資訊(例如固有的相機參數)。這通常需要熟練的藝術家的幫助,以及在後期制作環境中使用進階視訊編輯工具。我們提出了一種自動視訊增強管道,用于識别感興趣的紋理并将廣告疊加到這些區域上。我們限制廣告以美觀和自然的方式放置。目的是增加場景,使不再需要商業休息。為了實作廣告與原始視訊的無縫內建,我們建構場景的3D表示,将廣告放置在3D中,然後将其投影回圖像平面。在成功放置在單個幀中之後,我們使用基于單應性的形狀保持跟蹤,使得廣告在視訊剪輯的持續時間内看起來是透視正确的。跟蹤器設計用于處理平滑的錄影機運動和鏡頭邊界。 |
Domain-Specific Priors and Meta Learning for Low-shot First-Person Action Recognition Authors Huseyin Coskun, Zeeshan Zia, Bugra Tekin, Federica Bogo, Nassir Navab, Federico Tombari, Harpreet Sawhney 缺乏具有注釋的大規模真實資料集會使學習成為視覺活動的必要條件。在此範圍内,我們的目标是開發一種有效的低射擊轉移學習方法,用于第一次人員分類。我們利用獨立訓練的視覺線索來學習可以從源域提供表示的表示,隻需少量示例即可提供原始動作,并提供目标域。這些視覺提示包括對象對象互動,handgrasps和區域内的運動。是手铐的功能。我們建議一個基于元學習的架構,以适當地提取部署的視覺線索的獨特和域invari ant元件,以便能夠跨越用不同場景配置捕獲的公共資料集傳輸動作分類模型。我們徹底評估了我們的方法,并報告了對于同類和資料集間轉移的藝術行為分類方法誇大的有希望的結果。 |
+++恢複被遮擋的圖像Visualizing the Invisible: Occluded Vehicle Segmentation and Recovery Authors Xiaosheng Yan, Yuanlong Yu, Feigege Wang, Wenxi Liu, Shengfeng He, Jia Pan 在本文中,我們提出了一個新的疊代多任務架構來完成被遮擋車輛的分割掩模并恢複其不可見部分的外觀。特别是,為了提高分割完成的品質,我們提出了兩個耦合鑒别器,并引入了一個輔助3D模型池,用于将真實輪廓作為對抗樣本進行采樣。此外,我們提出了一種具有共享網絡的雙路徑結構,以增強外觀恢複能力。通過疊代地執行分割完成和外觀恢複,結果将逐漸細化。為了評估我們的方法,我們提出了一個資料集,Occluded Vehicle資料集,包含合成和真實世界被遮擋的車輛圖像。我們對該資料集進行了對比實驗,并證明我們的模型在恢複分段掩模和閉塞車輛外觀的任務方面優于現有技術水準。此外,我們還證明了我們的外觀恢複方法可以使現實世界視訊中的遮擋車輛跟蹤受益。 作者:http://cmcs.fzu.edu.cn/website/f/teacherDetail?id=212 |
DeepIris: Iris Recognition Using A Deep Learning Approach Authors Shervin Minaee, Amirali Abdolrashidi 在過去的幾十年裡,虹膜識别一直是一個活躍的研究領域,因為它在安全方面的廣泛應用,從機場到國土安全邊界控制。過去已經提出了用于虹膜識别的不同特征和算法。在本文中,我們提出了一種基于殘差卷積神經網絡CNN的虹膜識别端到端深度學習架構,可以共同學習特征表示并進行識别。我們使用來自每個類的少量訓練圖像在衆所周知的虹膜識别資料集上訓練我們的模型,并且顯示出有希望的結果和對先前方法的改進。我們還提出了一種可視化技術,能夠檢測虹膜圖像中的重要區域,這些區域主要影響識别結果。我們相信這個架構可以廣泛用于其他生物識别識别任務,有助于擁有更具可擴充性和準确性的系統。 |
+Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Authors Aditya Mogadala, Marimuthu Kalimuthu, Dietrich Klakow 由于來自多學科社群的興趣激增,例如深度學習,計算機視覺和自然語言處理,近期視覺和語言任務的整合已經顯着增長。在本次調查中,我們将重點放在十個不同的願景和語言整合任務上,包括問題的制定,方法,現有的資料集,評估名額以及與相應的現有技術方法所取得的成果的比較。這超出了早期的調查,這些調查要麼是任務特定的,要麼隻集中在一種類型的視覺内容上,即圖像或視訊。然後,我們通過讨論視覺和語言研究整合的未來可能方向來結束調查。 |
An Efficient Method of Detection and Recognition in Remote Sensing Image Based on multi-angle Region of Interests Authors Hongyu Wang, Wei Liang, Guangcun Shan 目前,深度學習技術已廣泛應用于圖像識别領域。然而,它主要旨在識别和檢測普通圖檔和普通場景。遙感圖像作為特殊圖像,與普通圖像相比具有不同的拍攝角度和拍攝方式,使遙感圖像在某些區域發揮着不可替代的作用。本文基于深度卷積神經網絡提供圖像的多層次資訊,并結合RPN區域建議網絡生成多角度ROIs感興趣區域,提出了一種新的遙感圖像目标檢測與識别模型。在實驗中,它取得了比傳統方法更好的結果,這表明這裡提出的模型在遙感圖像識别中具有巨大的潛在應用。 |
A-Phase classification using convolutional neural networks Authors Edgar R. Arce Santana, Alfonso Alba, Martin O. Mendez, Valdemar Arce Guevara 在NREM睡眠期間,可以在人腦電圖中觀察到一系列稱為A期的短事件。這些事件可根據其光譜内容分為三組A1,A2和A3,并被認為在不同睡眠階段之間的轉換中起作用。相位檢測和分類通常由經過教育訓練的專家手動執行,但這是一項繁瑣且耗時的任務。在過去二十年中,各種研究人員設計了自動檢測和分類A階段的算法,并取得了不同程度的成功,但問題依然存在。在本文中,提出了一種不同的方法,而不是嘗試為所有主題設計一般分類器,我們建議使用盡可能少的資料為每個主題訓練臨時分類器,以便大大減少所需的時間量。專家。所提出的分類器基于深度卷積神經網絡,使用EEG信号的對數譜圖作為輸入資料。結果令人鼓舞,在區分A階段和非A階段時達到80.31的平均準确度,在A階段子類型中進行分類時達到71.87,其中僅有25個A階段用于訓練。當考慮額外的專家驗證資料時,子類型分類準确度增加到78.92。這些結果表明,在專家的幫助下,半自動注釋系統可以為全自動分類器提供更好的替代方案。 |
+++基于機率的點雲重建方法Probabilistic Point Cloud Reconstructions for Vertebral Shape Analysis Authors Anjany Sekuboyina, Markus Rempfler, Alexander Valentinitsch, Maximilian Loeffler, Jan S. Kirschke, Bjoern H. Menze 我們提出了一種用于點雲PC的自動編碼網絡架構,能夠在沒有監督的情況下提取形狀簽名。在此基礎上,我們設計了一種能夠對非結構化PC上的資料差異進行模組化的損失函數,并且在變量自動編碼器中對潛在空間進行規範化,這兩者都增加了自動編碼器的描述能力,同時使其具有機率性。評估我們的建築物的重建品質,我們使用它們來檢測椎骨骨折,無需任何監督。通過學習有效地重建健康的椎骨,骨折被檢測為異常重建。評估包含sim 1500椎骨的資料集,我們在ROC曲線下獲得75的面積,而不使用基于強度的特征。 |
Quadruplet Selection Methods for Deep Embedding Learning Authors Kaan Karaman, Erhan Gundogdu, Aykut Koc, A. Aydin Alatan 對具有細微差别的物體的識别已經在許多實際應用中使用,例如汽車模型識别和海上船舶識别。為了區分細粒度細節中的對象,我們通過使用多任務學習架構來關注深度嵌入學習,其中樣本的分層标簽粗略和精細标簽用于分類和基于四元組的損失函數。為了提高學習特征的識别強度,我們提出了一種專門為四個訓練樣本設計的新特征選擇方法。通過實驗,觀察到,與随機選擇四聯體樣品相比,從相同的粗類和細類中選擇具有相對容易的正樣品的非常硬的負樣品顯着增加了細粒度資料集中的一些性能名額。通過所提出的方法學習的特征嵌入實作了針對其現有技術對應物的有利性能。 |
RGB-D image-based Object Detection: from Traditional Methods to Deep Learning Techniques Authors Isaac Ronald Ward, Hamid Laga, Mohammed Bennamoun RGB圖像的物體檢測是圖像處理和計算機視覺中長期存在的問題。它适用于各種領域,包括機器人,監視,人機互動和醫療診斷。随着低成本3D掃描器的可用性,在過去幾年中已經提出了大量RGB D物體檢測方法。本章對該領域的最新發展進行了全面的調查。我們将本章分為兩部分,第一部分的重點是基于手工制作的特征與機器學習算法相結合的技術。第二部分的重點是最近的工作,這是基于深度學習。深度學習技術,加上大型訓練資料集的可用性,現在已經徹底改變了計算機視覺領域,包括RGB D物體檢測,實作了前所未有的性能水準。我們調查了主要貢獻,總結了最常用的管道,讨論了它們的優點和局限性,并重點介紹了未來研究的一些重要方向。 |
+全景視覺下的計算機視覺Adapting Computer Vision Algorithms for Omnidirectional Video Authors Hannes Fassold 全向360視訊非常受歡迎,因為它提供了極具沉浸感的觀看體驗。對于計算機視覺算法,它提出了一些挑戰,例如通常采用的特殊的等角矩形投影和巨大的圖像尺寸。在這項工作中,我們對這些挑戰進行了進階概述,并概述了如何使計算機視覺算法适應全方位視訊的具體政策。 |
A Single Image based Head Pose Estimation Method with Spherical Parameterization Authors Hui Yuana, Mengyu Lia, Junhui Hou, Jimin Xiao 頭部姿勢估計在各種應用中起着至關重要的作用,例如,駕駛輔助系統,人機互動,虛拟現實技術等。我們提出了一種新穎的基于幾何的算法,用于以非常低的計算成本從單個2D面部圖像精确地估計頭部姿勢。具體地,首先将來自預定義3D面部模型的僅四個非共面特征點的直角坐标以及從2D面部圖像自動手動提取的相應特征點的直角坐标歸一化以排除外部因素(即比例因子和平移參數)的影響。然後,四個标準化的3D特征點以球形坐标表示,并參考唯一确定的球體。由于球面參數化,特征點的坐标可以有效地沿着直角坐标中的所有三個方向變形。最後,通過最小化歸一化2D特征點與變形3D特征點的2D重新投影之間的歐幾裡德距離來獲得訓示頭部姿勢的旋轉矩陣。兩個流行的資料庫,即Pointing 04和Biwi Kinect的綜合實驗結果表明,與現有技術的基于幾何的方法相比,所提出的算法可以以更高的準确度和更低的運作時間來估計頭部姿勢。即使與基于藝術學習的方法的開始或具有附加深度資訊的基于幾何的方法相比,我們的算法仍然産生相當的性能。 |
Image-and-Spatial Transformer Networks for Structure-Guided Image Registration Authors Matthew C.H. Lee, Ozan Oktay, Andreas Schuh, Michiel Schaap, Ben Glocker 深度神經網絡的圖像配準已經成為一個活躍的研究領域,也是醫學成像中長期存在問題的激動人心的途徑。目标是學習将輸入圖像對的外觀映射到空間變換的參數的複雜函數,以便對準相應的解剖結構。我們争論并證明目前的直接非疊代方法是次優的,特别是如果我們尋求感興趣的結構SoI的準确對齊。有關SoI的資訊通常在教育訓練時間提供,例如,以分段或地标的形式。我們引入了一種新穎的通用架構,Image和Spatial Transformer Networks ISTN,以利用SoI資訊,使我們能夠學習針對下遊注冊任務優化的新圖像表示。由于這些表示,我們可以對轉換參數采用特定于測試的疊代細化,即使在非常有限的訓練資料的情況下也能産生高度準确的配準。在成對3D腦注冊和說明性合成資料上展示了性能。 |
FD-FCN: 3D Fully Dense and Fully Convolutional Network for Semantic Segmentation of Brain Anatomy Authors Binbin Yang, Weiwei Zhang 本文提出了一種基于三維補片的全密集全卷積網絡FD FCN,用于快速準确地分割T1權重磁共振圖像中的皮層下結構。由開創性的FCN開發,采用端到端學習方法,并由新設計的密集區塊(包括密集的完全連接配接層)建構,所提出的FD FCN與其他基于FCN的方法不同,并且從效率和效率的角度來看都表現出優異的性能。準确性。與U形架構相比,FD FCN丢棄了模型适應度的上采樣路徑。為了緩解參數爆炸的問題,密集塊的輸入不再直接傳遞給後續層。 FD FCN的這種架構大大減少了訓練過程中的記憶體和時間消耗。雖然FD FCN較小,但在模型能力方面,它比其他傳統網絡具有更好的密集推理能力。這得益于網絡架構的建構以及重新設計的密集塊的結合。多尺度FD FCN通過在最終預測中嵌入中間層輸出來模拟局部和全局上下文,這鼓勵在不同尺度下提取的特征之間的一緻性并且在細分過程中直接嵌入細粒度資訊。此外,重建密集塊以擴大感受域而不顯着增加參數,并且光譜坐标被用于原始輸入更新檔的空間上下文。實驗在IBSR資料集上進行,FD FCN在53秒内對11個腦結構産生了89.81的整體Dice重疊值的準确分割結果,與現有技術的3D FCN方法相比,骰子精度至少提高了3.66。 。 |
Polyp Detection and Segmentation using Mask R-CNN: Does a Deeper Feature Extractor CNN Always Perform Better? Authors Hemin Ali Qadir, Younghak Shin, Johannes Solhusvik, Jacob Bergsland, Lars Aabakken, Ilangko Balasingham 由于結腸鏡檢查期間醫生的息肉漏檢率約為25,是以結腸篩查非常需要自動息肉檢測和分割。然而,由于結腸中的各種息肉樣結構和大小,顔色,形狀和紋理方面的進階間息肉變異,這種計算機化仍然是一個未解決的問題。在本文中,我們采用Mask R CNN,并利用不同的現代卷積神經網絡CNN作為息肉檢測和分割的特征提取器來評估其性能。我們通過向訓練資料集添加額外的息肉圖像來回答每個特征提取器的性能改進,以回答我們是否需要更深和更複雜的CNN或更好的資料集來進行自動息肉檢測和分割的訓練。最後,我們提出了一種內建方法,以進一步提高性能。我們評估了2015 MICCAI息肉檢測資料集的性能。取得的最好成績是72.59召回,80精度,70.42骰子和61.24 Jaccard。該模型實作了最先進的分割性能。 |
Sensor Aware Lidar Odometry Authors Dmitri Kovalenko, Mikhail Korobkin, Andrey Minin 提出了一種雷射雷達測距方法,将計算機中關于傳感器實體知識的知識融入其中。測量誤差模型使得點正态協方差的估計具有更高的精度。相鄰的雷射束用于異常值對應拒絕方案。該方法在KITTI的排行榜中排名為1.37定位誤差。與内部資料集上的LOAM方法相比,實作了3.67。 |
Extended Local Binary Patterns for Efficient and Robust Spontaneous Facial Micro-Expression Recognition Authors Chengyu Guo, Jingyun Liang, Geng Zhan, Zhong Liu, Matti Pietik inen, Li Liu 面部微表情ME是一種自發的,不自主的面部動作,當一個人經曆情緒但故意或無意識地試圖隐藏他或她的真實情感時。最近,由于其臨床診斷,商務談判,審訊和安全等潛在應用,ME認可引起了越來越多的關注。然而,建構大規模ME資料集是昂貴的,主要是由于難以自然地誘導自發ME。這限制了需要大量訓練資料的深度學習技術的應用。在本文中,我們提出了一個簡單,有效但強大的描述符,稱為三個正交平面ELBPTOP上的擴充局部二進制模式,用于ME識别。 ELBPTOP由三個互補的二進制描述符LBPTOP和兩個新的徑向差分LBPTOP RDLBPTOP和角度差LBPTOP ADLBPTOP組成,它們探索ME視訊序列中包含的徑向和角度方向的局部二階資訊。 ELBPTOP是一個新穎的ME描述,靈感來自獨特和微妙的面部動作。它具有計算效率,隻是略微增加了計算LBPTOP的成本,但對ME識别非常有效。此外,通過首先将白化主成分分析WPCA引入ME識别,我們可以進一步獲得更緊湊和有差別的特征表示,并實作顯着的計算節省。對三種流行的自發ME資料集SMIC,CASMEII和SAMM的廣泛實驗評估表明,我們提出的ELBPTOP方法在所有三個評估資料集上明顯優于先前的技術水準。我們提出的ELBPTOP在CASMEII上達到73.94,比該資料集上的最新技術水準高6.6。更令人印象深刻的是,ELBPTOP在SAMM資料集上将識别準确度從44.7提高到63.44。 |
Multi-scale Cell Instance Segmentation with Keypoint Graph based Bounding Boxes Authors Jingru Yi, Pengxiang Wu, Qiaoying Huang, Hui Qu, Bo Liu, Daniel J. Hoeppner, Dimitris N. Metaxas 大多數現有方法直接處理單元執行個體分段問題,而不依賴于其他檢測框。由于缺乏對對象的全局了解,該方法通常不能分離觸摸單元。相反,基于框的執行個體分割通過将對象檢測與分割相結合來解決該問題。然而,現有方法通常利用基于錨盒的檢測器,由于類不平衡問題,這将導緻較差的執行個體分割性能。在本文中,我們提出了一種新的基于盒子的細胞執行個體分割方法。特别地,我們首先通過關鍵點檢測來檢測細胞的五個預定義點。然後我們根據關鍵點圖對這些點進行分組,然後提取每個單元格的邊界框。最後,在邊界框内的特征圖上執行細胞分割。我們在具有不同對象形狀的兩個單中繼資料集上驗證我們的方法,并且憑經驗證明了我們的方法與其他執行個體分割技術相比的優越性。代碼可在 |
+++基于特征圖學習的點雲去噪Feature Graph Learning for 3D Point Cloud Denoising Authors Wei Hu, Xiang Gao, Gene Cheung, Zongming Guo 在許多最近的圖譜信号恢複方案中識别反映成對相似性的适當的基礎圖核心是關鍵的,包括圖像去噪,去量化和對比度增強。現有的圖學習算法計算正确定義的圖拉普拉斯矩陣mathbf L的最可能的條目,但需要大量的信号觀察mathbf z s以獲得穩定的估計。在這項工作中,我們假設每個節點i的相關特征向量mathbf f i的可用性,我們通過優化特征度量來計算最佳特征圖。具體來說,我們通過最小化圖拉普拉斯正則化器GLR mathbf z top mathbf L mathbf z來交替地優化馬哈拉諾比斯距離矩陣mathbf M的對角線和非對角線條目,其中邊緣權重是wi,j exp mathbf fi mathbf fj top mathbf M mathbf fi mathbf fj,給出一個觀察mathbf z。我們通過近端梯度PG優化對角線條目,其中我們通過從Gershgorin圓定理導出的線性不等式将mathbf M限制為正定PD。為了優化非對角線條目,我們設計了一個塊下降算法,它疊代地優化了mathbf M的一行和一列。為了保持mathbf M PD,我們将通過PG進行優化時将mathbf M的子矩陣mathbf M 2,2的Schur補碼限制為PD。我們的算法減輕了mathbf M的完全特征分解,是以即使在特征向量mathbf f i具有高次元時也能確定快速的計算速度。為了驗證其有用性,我們将特征圖學習算法應用于3D點雲去噪問題,與廣泛實驗中的競争方案相比,産生了最先進的性能。 |
+Real-time Background-aware 3D Textureless Object Pose Estimation Authors Mang Shao, Danhang Tang, Tae Kyun Kim 在這項工作中,我們提出了一種改進的模糊決策森林,用于基于典型模闆表示的實時三維物體姿态估計。我們在決策林架構中使用額外的搶占式背景拒絕器節點,以盡早終止對背景位置的檢查,進而顯着提高效率。我們的方法也可以擴充到大型資料集,因為樹結構自然地提供了對象數量的對數時間複雜度。最後,我們使用快速廣度優先方案進一步縮短驗證階段。結果表明,我們的方法在保持相當的準确性的同時,在效率方面優于現有技術。 |
DetectFusion: Detecting and Segmenting Both Known and Unknown Dynamic Objects in Real-time SLAM Authors Ryo Hachiuma, Christian Pirchheim, Dieter Schmalstieg, Hideo Saito 我們提供了一個RGB D SLAM系統DetectFusion,該系統可以實時運作,并且可以穩健地處理可在場景中動态移動的語義已知和未知對象。我們的系統檢測,分割和配置設定語義類标簽到場景中的已知對象,同時即使它們在單目錄影機前獨立移動也跟蹤和重建它們。與相關工作相比,我們通過結合二維物體檢測和三維幾何分割的新方法,實作了語義執行個體分割的實時計算性能。另外,我們提出了一種檢測和分割語義未知對象運動的方法,進而進一步提高了錄影機跟蹤和地圖重建的準确性。我們表明,我們的方法在定位和對象重建精度方面與先前的工作相當或更好,而即使在每個幀中對象被分割,也實作大約20 FPS。 |
Class-specific Anchoring Proposal for 3D Object Recognition in LIDAR and RGB Images Authors Amir Hossein Raffiee, Humayun Irshad 在現實生活應用的環境中檢測二維設定中的對象通常是不夠的,其中周圍環境需要在三維3D中被準确地識别和定向,例如在自動駕駛車輛的情況下。是以,準确和有效地檢測三維設定中的對象正變得越來越多地涉及廣泛的工業應用,是以逐漸吸引研究人員的注意。然而,建立用于檢測3D中的對象的系統是一項具有挑戰性的任務,因為它依賴于來自不同來源的資料的多模态融合。在本文中,我們使用目前最先進的3D物體探測器研究錨定效應,并基于物體尺寸和基于長寬比的錨點聚類提出類特定錨定建議CAP政策。所提出的錨定政策在行人等級的簡易,中等和硬設定上顯着提高了7.19,8.13和8.8的檢測精度,在汽車級别的簡易,中等和硬設定上顯着提高了2.19,2.17和1.27,并且在騎自行車者的簡易設定上提高了12.1類。我們還表明,錨定過程中的聚類還可以顯着提高區域提案網絡在提出利益區域方面的表現。最後,我們為KITTI資料集中的每類對象提出了最佳聚類數,進而顯着提高了檢測模型的性能。 |
Shallow Unorganized Neural Networks using Smart Neuron Model for Visual Perception Authors Richard Jiang, Danny Crookes 深度神經網絡DNN最近的成功揭示了神經形态計算在許多具有挑戰性的應用中的重要能力。盡管DNN來源于模拟生物神經元,但仍然存在對DNN是否是模仿人類智能機制的最終和最佳模型的懷疑。特别是,計算DNN模型與觀察到的生物神經元事實之間存在兩個差異。首先,人類神經元是随機互連的,而DNN需要精心設計的架構才能正常工作。其次,人類神經元通常具有100ms的長尖峰延遲,這意味着在做出決定時可能不涉及很多層,而DNN可能具有數百層以保證高精度。在本文中,我們提出了一種新的計算神經形态模型,即淺層無組織神經網絡SUNN,與DNN相比。提出的SUNN與三個基本方面的标準ANN或DNN不同1 SUNN基于自适應神經元細胞模型Smart Neurons,它允許每個神經元自适應地響應其輸入,而不是像神經元模型那樣執行固定權重求和運算在人工神經網絡DNNs 2 SUNNs僅使用淺層架構處理計算任務3 SUNN具有随機互連的自然拓撲結構,正如人類大腦所做的那樣,并且由圖靈的B型無組織機器提出。我們實施了所提出的SUNN架構,并在許多無監督的早期視覺感覺任務上進行了測試。令人驚訝的是,這種淺層架構在我們的實驗中取得了非常好的結果。我們的新計算模型的成功使其成為Turing s B型機器的一個工作示例,可以實作與現有技術相當的或更好的性能。 |
TARN: Temporal Attentive Relation Network for Few-Shot and Zero-Shot Action Recognition Authors Mina Bishay, Georgios Zoumpourlis, Ioannis Patras 在本文中,我們提出了一種新的時間關注關系網絡TARN,用于少數射擊和零射擊動作識别的問題。我們網絡的核心是一種元學習方法,它學習比較可變時間長度的表示,即在少數鏡頭動作識别或視訊和語義表示(如詞向量)的情況下,兩個不同長度的視訊。零射擊動作識别的情況。與少數鏡頭和零鏡頭動作識别中的其他作品相比,我們利用注意機制以執行時間對準,并且b在視訊片段水準上學習對準的表示的深度測量。我們采用基于劇集的教育訓練計劃,并以端到端的方式教育訓練我們的網絡。所提出的方法不需要在目标域中進行任何微調或者保持額外的表示,如存儲器網絡的情況。實驗結果表明,所提出的結構在少數鏡頭動作識别中優于現有技術,在零鏡頭動作識别中取得了有競争力的效果。 |
ImageNet-trained deep neural network exhibits illusion-like response to the Scintillating Grid Authors Eric D. Sun, Ron Dekel 用于計算機視覺的深度神經網絡DNN模型現在能夠進行人類物體識别。是以,DNN的性能和脆弱性與人類視覺的相似性引起了極大的興趣。在這裡,我們描述了VGG 19 DNN對閃爍網格視覺錯覺圖像的響應,其中白點被認為是部分黑色。我們觀察到與閃爍網格中VGG 19表征相異性和點白度之間的預期單調關系的顯着偏差。也就是說,點白度的線性增加導緻非線性增加,然後顯着地減少代表性不相似性中的非單調性。在對照圖像中,觀察到代表性差異和點白度之間的大多數單調關系。此外,對應于最大代表性不相似性的點白度等級,即非單調性不相似性的開始與對應于人類觀察者中的幻覺感覺的開始的那些緊密比對。是以,DNN中的非單調響應是與人類幻覺感覺相關的潛在模型。 |
signADAM: Learning Confidences for Deep Neural Networks Authors Dong Wang, Yicheng Liu, Wenwo Tang, Fanhua Shang, Hongying Liu, Qigong Sun, Licheng Jiao 在本文中,我們提出了一種新的一階梯度算法來訓練深度神經網絡。我們首先在基于符号的方法中引入随機梯度的符号運算,例如,将SIGN SGD引入ADAM,其被稱為signADAM。此外,為了使每個特征的拟合速率更接近,我們定義了置信度函數來區分梯度的不同分量并将其應用于我們的算法。它可以生成比現有算法更稀疏的梯度。我們稱這種新算法為signADAM。特别是,我們的算法都易于實作,并且可以加速各種深度神經網絡的訓練。 signADAM的動機優選地是通過更新大的和有用的梯度來從最不同的樣本學習特征,而不管随機梯度中的無用資訊。我們還為算法建立了理論收斂保證。各種資料集和模型的經驗結果表明,我們的算法比許多最先進的算法(包括SIGN SGD,SIGNUM和ADAM)産生更好的性能。我們還從多個角度分析績效,包括損失情況,并開發一種自适應方法,以進一步改善泛化。源代碼可在以下位置獲得 |
Image Classification with Hierarchical Multigraph Networks Authors Boris Knyazev, Xiao Lin, Mohamed R. Amer, Graham W. Taylor 圖形卷積網絡GCN是一類可以從圖形結構化資料中學習的通用模型。盡管是一般性的,但是當應用于視覺任務時,GCN被認為不如卷積神經網絡CNN,主要是由于缺乏寫死到CNN中的領域知識,例如空間定向的平移不變濾波器。然而,GCN的一個很大的優點是能夠處理不規則輸入,例如圖像的超像素。這可以顯着降低圖像推理任務的計算成本。 GCN固有的另一個關鍵優勢是對多關系資料進行模組化的自然能力。基于這兩個有前途的特性,在這項工作中,我們展示了在某些情況下設計用于圖像分類的GCN的最佳實踐,甚至優于MNIST,CIFAR 10和PASCAL圖像資料集上的CNN。 |
++可解釋的壓縮分類An Interpretable Compression and Classification System: Theory and Applications Authors Tzu Wei Tseng, Kai Jiun Yang, C. C. Jay Kuo, Shang Ho Lawrence Tsai 該研究提出了一種低複雜度的可解釋分類系統。所提出的系統包含三個主要子產品,包括特征提取,特征減少和分類。所有這些都是線性的。由于線性屬性,提取和縮減的特征可以反轉到原始資料,如線性變換,例如傅裡葉變換,進而可以量化和可視化各個特征對原始資料的貢獻。此外,降低的特征和可逆性自然地承受了所提出的系統資料壓縮能力。該系統可以在壓縮資料和原始資料之間具有小的百分比偏差的情況下顯着壓縮資料。同時,當壓縮資料用于分類時,仍然可以實作高測試精度。此外,我們觀察到所提出的系統的提取特征可以近似為不相關的高斯随機變量。是以,經典的估計和檢測理論可以應用于分類。這促使我們建議使用MAP最大後驗分類方法。結果,提取的特征和相應的性能具有統計意義并且在數學上可解釋。仿真結果表明,與傳統方案相比,所提出的分類系統不僅大大減少了訓練和測試時間,而且測試精度也很高。 |
Automated Muscle Segmentation from Clinical CT using Bayesian U-Net for Personalization of a Musculoskeletal Model Authors Yuta Hiasa, Yoshito Otake, Masaki Takao, Takeshi Ogawa, Nobuhiko Sugano, Yoshinobu Sato 我們提出了一種從臨床CT中自動分割個體肌肉的方法。該方法使用具有U Net架構的貝葉斯卷積神經網絡,使用蒙特卡洛壓差,除了分割标簽之外還推斷出不确定性度量。我們使用兩個資料集20髋和大腿區域的完全注釋的CT和18個部分注釋的CT來評估所提出方法的性能,這些CT可從The Cancer Imaging Archive TCIA資料庫公開獲得。實驗表明,在20組CT中,19個肌肉的Dice系數DC為0.891 0.016 mean std,平均對稱表面距離ASD為0.994±0.230 mm。與現有技術的分層多圖譜方法相比,這些結果是統計學上顯着的改進,其導緻0.845 0.031 DC和1.556 0.444 mm ASD。我們評估了多類器官分割問題中不确定性度量的有效性,并證明了具有高不确定性的像素與分割失敗之間的相關性。證明了不确定性度量在主動學習中的一種應用,并且所提出的查詢像素選擇方法顯着降低了用于擴充訓練資料集的手動注釋成本。所提出的方法允許在臨床正常中對個體肌肉形狀進行準确的患者特異性分析。這将開辟各種應用,包括生物力學模拟的個性化和肌肉萎縮的定量評估。 |
An Efficient 3D CNN for Action/Object Segmentation in Video Authors Rui Hou, Chen Chen, Rahul Sukthankar, Mubarak Shah 卷積神經網絡基于CNN的圖像分割近年來取得了很大進展。然而,由于其高計算複雜性,視訊對象分割仍然是具有挑戰性的任務。大多數先前的方法采用雙流CNN架構來分别處理空間和運動特征。在本文中,我們提出了一種端到端編碼器解碼器樣式3D CNN,用于同時聚合視訊對象分割的空間和時間資訊。為了有效地處理視訊,我們為金字塔池子產品和解碼器提出了3D可分卷積,這在保持性能的同時大大減少了操作次數。此外,我們還通過添加額外的分類器來預測視訊中演員的動作标簽,進而将我們的架構擴充到視訊動作分段。對幾個視訊資料集的廣泛實驗證明,與現有技術相比,所提出的動作和對象分割方法具有優越的性能。 |
++人體抽取和場景轉換Human Extraction and Scene Transition utilizing Mask R-CNN Authors Asati Minkesh, Kraittipong Worranitta, Miyachi Taizo 物體檢測是計算機視覺的一個時髦分支,特别是在人類識别和行人檢測方面。認識到一個人的完整身體一直是一個難題。多年來,研究人員提出了各種方法,最近,作為Mask R CNN的一個突破進入了光明。基于更快的R CNN,掩碼R CNN能夠為每個執行個體生成分段掩碼。我們提出了一個應用程式來提取多個人并使用Mask R CNN将它們放入新的背景圖像中。掩碼R CNN從圖像中檢測所有類型的對象掩碼。然後我們的算法僅考慮目标人并且僅在沒有障礙的情況下提取人,例如在人面前的狗,并且使用者也可以選擇多個人作為他們的期望。我們的算法對圖像和視訊都有效,無論其長度如何。此外,提取這些人并将他們放入新的背景。我們的算法不會為Mask R CNN增加任何開銷,以5 fps運作。我們展示了一個圖像中的瑜伽人和舞蹈視訊幀中的舞者的例子。我們希望我們簡單有效的方法可以作為替換圖像背景和幫助簡化未來研究的基線。 |
Construct Dynamic Graphs for Hand Gesture Recognition via Spatial-Temporal Attention Authors Yuxiao Chen, Long Zhao, Xi Peng, Jianbo Yuan, Dimitris N. Metaxas 我們提出了一種基于動态圖的空間時間注意DG STA方法,用于手勢識别。關鍵思想是首先從手骨架建構一個完全連通的圖形,然後通過在空間和時間域中執行的自我關注機制自動學習節點特征和邊緣。我們進一步建議利用關節位置的空間時間線索來保證在具有挑戰性的條件下的可靠識别。此外,應用新穎的空間時間掩模以顯着降低99的計算成本。我們在基準DHG 14 28和SHREC 17上進行了廣泛的實驗,證明了我們的方法與現有技術方法相比的優越性能。源代碼可以在 |
Unsupervised Segmentation of Hyperspectral Images Using 3D Convolutional Autoencoders Authors Jakub Nalepa, Michal Myller, Yasuteru Imai, Ken ichi Honda, Tomomi Takeda, Marek Antoniak 高光譜圖像分析已成為遙感界廣泛研究的重要課題。這種圖像的分類和分割有助于了解掃描場景中的基礎材料,因為高光譜圖像傳達了在多個光譜帶中捕獲的詳細資訊。盡管深度學習已經确立了該領域的最新技術水準,但由于缺乏地面實況資料,培養良好的推廣模型仍然具有挑戰性。在這封信中,我們解決了這個問題,并提出了一種以完全無監督的方式分割高光譜圖像的端到端方法。我們介紹了一種新的深度架構,它将3D卷積自動編碼器與聚類相結合。我們針對基準和現實生活資料進行的多方面實驗研究表明,我們的方法提供了高品質的分割,而無需任何先前的類别标簽。 |
Order Matters: Shuffling Sequence Generation for Video Prediction Authors Junyan Wang, Bingzhang Hu, Yang Long, Yu Guan 預測自然視訊序列中的未來幀是一項新的挑戰,在計算機視覺社群中越來越受到關注。然而,當預測序列很長時,現有模型遭受嚴重的時間資訊丢失。與以往專注于生成更真實内容的方法相比,本文廣泛研究了序列資訊對視訊生成的重要性。提出了一種新的Shuffling sEquence gEneration網絡SEE Net,它可以學習通過改組視訊幀并将它們與真實視訊序列進行比較來區分不自然的順序。在具有合成和現實世界視訊的三個資料集上的系統實驗表明在我們提出的模型中用于視訊預測的改組序列生成的有效性,并且通過定性和定量評估展示了現有技術性能。源代碼可在以下位置獲得 |
Recurrent Connections Aid Occluded Object Recognition by Discounting Occluders Authors Markus Roland Ernst, Jochen Triesch, Thomas Burwick 當部分刺激被遮擋時,視覺皮層中的反複連接配接被認為有助于物體識别。在這裡,我們調查人工神經網絡中的複發連接配接是否以及如何同樣有助于對象識别。我們系統地測試和比較由自下而上B,橫向L和自上而下T連接配接組成的架構。在新穎的立體遮擋對象識别資料集上評估性能。該任務包括識别僞3D環境中由多個遮擋器數字遮擋的一個目标數字。我們發現循環模型的性能明顯優于前饋模型,後者在參數複雜度方面具有比對性。此外,我們分析了由于經常性連接配接,網絡對刺激的表示如何随時間演變。我們表明,經常性連接配接傾向于将網絡對被遮擋數字的表示移向其未被遮擋的版本。我們的結果表明,大腦和人工神經網絡都可以利用循環連接配接來幫助遮擋對象識别。 |
Automated Surgical Activity Recognition with One Labeled Sequence Authors Robert DiPietro, Gregory D. Hager 先前的工作已經證明了運動資料在機器人輔助手術中自動識别活動的可行性。然而,這些努力假設了大量密集注釋序列的可用性,這必須由專家手動提供。這個過程繁瑣,昂貴且容易出錯。在本文中,我們在稀缺注釋的假設下提出了第一個分析,其中隻有一個注釋序列可用于訓練。我們在這個具有挑戰性的環境中證明了自動識别的可行性,并且我們表明,在識别階段之前以無人監督的方式學習表示會導緻性能的顯着提高。此外,我們的論文對社群提出了新的挑戰,我們還能在這個重要但相對未開發的制度中進一步推動績效 |
PH-GCN: Person Re-identification with Part-based Hierarchical Graph Convolutional Network Authors Bo Jiang, Xixi Wang, Bin Luo 人物識别Re ID任務需要魯棒地提取人物圖像的特征表示。最近,已經廣泛研究了基于部分的表示模型,用于提取人物圖像的更緊湊和穩健的特征表示以改善人Re ID結果。然而,現有的基于部分的表示模型大多獨立地提取不同部分的特征,忽略了不同部分之間的關系資訊。為克服這一局限性,本文提出了一種新的深度學習架構,稱為基于部分的分層圖卷積網絡PH GCN,用于人員Re ID問題。給定人物圖像,PH GCN首先構造分層圖以表示不同部分之間的成對關系。然後,通過在PH GCN中傳遞的消息執行本地和全局特征學習,其将其他節點資訊考慮用于部分特征表示。最後,采用感覺器層進行最終人物部位标簽預測和重新識别。提出的架構提供了一種通用解決方案,可在統一的端到端網絡中同時內建本地,全局和結構特征學習。對幾個基準資料集的大量實驗證明了基于PH GCN的Re ID方法的有效性。 |
Pan-tilt-zoom SLAM for Sports Videos Authors Jikai Lu, Jianhui Chen, James J. Little 我們提供了一個線上SLAM系統,專門用于跟蹤高度動态運動中的雲台變焦PTZ錄影機,如籃球和足球比賽。在這些遊戲中,PTZ錄影機旋轉速度非常快,玩家可以覆寫大型圖像區域。為了克服這些挑戰,我們建議使用一種新穎的相機模型來跟蹤和使用光線作為映射中的地标。光線克服了純旋轉相機中缺失的深度。我們還開發了一個線上雲台森林,用于繪圖并引入移動物體的探測器,以減輕前景物體的負面影響。我們在合成和真實資料集上測試我們的方法。實驗結果表明,該方法優于以往的線上PTZ錄影機姿态估計方法。 |
+++基于圖像遷移額黑夜車輛檢測Cross-Domain Car Detection Using Unsupervised Image-to-Image Translation: From Day to Night Authors Vinicius F. Arruda, Thiago M. Paix o, Rodrigo F. Berriel, Alberto F. De Souza, Claudine Badue, Nicu Sebe, Thiago Oliveira Santos 深度學習技術使得最先進模型的出現能夠解決對象檢測任務。然而,這些技術是資料驅動的,将準确性委托給訓練資料集,訓練資料集必須類似于目标任務中的圖像。擷取資料集涉及注釋圖像,這是一個艱巨而昂貴的過程,通常需要時間和手動工作。是以,當應用的目标域沒有可用的注釋資料集時,出現了具有挑戰性的情況,使得在這種情況下的任務依賴于不同域的訓練資料集。共享此問題,對象檢測是自動駕駛車輛的重要任務,其中大量駕駛場景産生若幹應用領域,需要用于訓練過程的注釋資料。在該工作中,提出了一種用于訓練具有來自源域日圖像的注釋資料的汽車檢測系統的方法,而不需要目标域夜間圖像的圖像注釋。為此,探索了基于生成對抗網絡GAN的模型,以便能夠生成具有相應注釋的人工資料集。建立人工資料集假資料集,将圖像從日間域轉換為夜間域。然後使用包括僅目标域夜間圖像的注釋圖像的僞資料集來訓練汽車檢測器模型。實驗結果表明,所提出的方法實作了顯着且一緻的改進,包括與僅具有可用注釋資料即日圖像的訓練相比,增加了超過10的檢測性能。 |
VIFIDEL: Evaluating the Visual Fidelity of Image Descriptions Authors Pranava Madhyastha, Josiah Wang, Lucia Specia 我們解決了評估圖像描述生成系統的任務。我們為此任務VIFIDEL提出了一種新穎的圖像感覺度量。它基于圖像中描繪的對象的标簽與描述中的單詞之間的語義相似性來估計生成的标題相對于實際圖像的内容的忠實度。該度量還能夠在評估期間考慮人參考描述中提到的對象的相對重要性。即使這些人工參考描述不可用,VIFIDEL仍然可以可靠地評估系統描述。該名額與兩個衆所周知的資料集上的人類判斷高度相關,并且與依賴于人類參考的名額競争 |
Artificial Neural Network Algorithm based Skyrmion Material Design of Chiral Crystals Authors B.U.V Prashanth, Mohammed Riyaz Ahmed 本研究中提出的模型預測了理想的手性晶體,并提出了設計手性晶體的新方向。 Skyrmions受拓撲保護,結構不對稱的材料具有異國情調的旋轉成分。這項工作提出了手性晶體的skyrmion材料設計的深度學習方法。本文提出了一種從真假手性資料集建構機率分類器和人工神經網絡ANN的方法,該資料集由具有A和B型元素的手性和非手性化合物組成。示出了形成手性晶體的準确度的定量預測器。通過與probalistic分類器方法的比較,綜合測試了ANN方法的可行性。在整個手稿中,我們提出了深度學習算法設計與材料的模組化和模拟。這項研究工作闡明了開發複雜軟體工具以制作水晶設計名額的方法。 |
Automatic Radiology Report Generation based on Multi-view Image Fusion and Medical Concept Enrichment Authors Jianbo Yuan, Haofu Liao, Rui Luo, Jiebo Luo 生成放射學報告非常耗時,并且需要在實踐中具有廣泛的專業知識。是以,非常需要可靠的自動放射學報告生成來減輕工作量。雖然深度學習技術已經成功應用于圖像分類和圖像字幕任務,但是在了解和連結複雜的醫學視覺内容與準确的自然語言描述方面,放射學報告生成仍然是具有挑戰性的。此外,包含配對醫學圖像和報告的開放通路資料集的資料規模仍然非常有限。為了應對這些實際挑戰,我們提出了一種生成編碼器解碼器模型,并專注于胸部X射線圖像和報告,并進行了以下改進。首先,我們使用大量胸部X射線圖像預編碼編碼器,以準确識别14個常見的射線照相觀察,同時通過強制執行交叉視圖一緻性來利用多視圖圖像。其次,我們以後期融合方式基于句子級注意機制合成多視圖視覺特征。此外,為了豐富解碼器的描述性語義并強制确定醫學相關内容的正确性,如提及器官或診斷,我們根據訓練資料中的放射學報告提取醫學概念,并微調編碼器以提取來自x射線圖像的最常見的醫學概念。這些概念通過詞級關注模型與每個解碼步驟融合。在印第安納大學胸部X射線資料集上進行的實驗結果表明,與其他基線方法相比,所提出的模型實作了最先進的性能。 |
Scene-and-Process-Dependent Spatial Image Quality Metrics Authors Edward W. S. Fry, Sophie Triantaphillidou, Robin B. Jenkin, Ralph E. Jacobson, John R. Jarvis 為相機系統設計的空間圖像品質度量通常采用調制傳遞函數MTF,噪聲功率譜NPS和視覺對比度檢測模型。現有技術表明,使用傳統方法測量的MTF和NPS沒有計算非線性,内容感覺圖像處理的場景相關特性。我們提出了兩個新的度量标準日志噪聲等效量子日志NEQ和視覺日志NEQ。它們都采用場景和過程相關的MTF SPD MTF和NPS SPD NPS測量,分别考慮信号傳輸和噪聲場景依賴性。我們還研究了實作對比度檢測和辨識模型,這些模型考慮了場景相關的視覺掩蔽。此外,修改了三個主要的錄影機名額,使用上述場景相關措施。通過檢查與模拟錄影機管道産生的圖像的感覺品質的相關性來驗證所有度量。在實施SPD MTF和SPD NPS時,度量精度始終如一地提高。新穎的名額優于同一類型的現有名額。 |
Validation of Modulation Transfer Functions and Noise Power Spectra from Natural Scenes Authors Edward W. S. Fry, Sophie Triantaphillidou, Robin B. Jenkin, John R. Jarvis, Ralph E. Jacobson 調制傳遞函數MTF和噪聲功率譜NPS分别表征成像系統的銳度分辨率和噪聲。這兩種測量均基于線性系統理論,但正常應用于采用非線性,内容感覺圖像處理的系統。對于這樣的系統,MTF的NPS不準确地從包含邊緣,正弦曲線,噪聲或均勻音調信号的傳統測試圖中導出,這些信号不能代表自然場景信号。死葉測試圖提供了改進的測量,但在描述場景相關系統的性能時仍然存在局限性。在本文中,我們驗證了幾種新的場景和過程相關的MTF SPD MTF和NPS SPD NPS度量,這些度量表征了一個場景的系統性能,或者涉及許多場景的平均真實世界性能,或者系統場景依賴性的水準。我們還使用死葉圖獲得了新的SPD NPS和SPD MTF測量。我們證明了所有提出的措施都是穩健的,并且對于場景相關系統而言比目前的措 |
++推理出被遮擋的物體提升抓取Inferring Occluded Geometry Improves Performance when Retrieving an Object from Dense Clutter Authors Andrew Price, Linyi Jin, Dmitry Berenson 對象搜尋在雜亂的場景中找到目标對象的問題對于解決倉庫和家庭環境中的許多機器人應用是必不可少的。然而,雜亂的環境需要物體經常互相遮擋,使得難以分割物體并推斷它們的形狀和性質。我們不再依賴于CAD或其他顯式場景對象模型的可用性,而是通過最先進的深度神經網絡來完成形狀完成以及體積記憶系統,為雜亂的環境增加了一個操縱規劃器,允許機器人推理封閉區域可能包含的内容。我們在由家居用品組成的各種桌面操作場景中測試系統,突出其對現實領域的适用性。我們的結果表明,将兩個元件合并到一個操作規劃架構中可以顯着減少在密集的雜亂中找到隐藏對象所需的操作數量。 |
++基于視網膜的采樣方法A Retina-inspired Sampling Method for Visual Texture Reconstruction Authors Lin Zhu, Siwei Dong, Tiejun Huang, Yonghong Tian 傳統的基于幀的相機不能滿足實時應用的快速反應需求,而新興的動态視覺傳感器DVS可以實作對移動物體的高速捕獲。然而,為了實作視覺紋理重建,DVS除了輸出尖峰之外還需要額外的資訊。本文介紹了一種受視網膜神經元信号處理啟發的中心凹樣本,其目的在于僅利用尖峰的特性進行視覺紋理重建。在所提出的方法中,像素獨立地響應具有時間異步尖峰的亮度變化。通過分析尖峰的到達,可以恢複亮度資訊,進而可以重建自然場景以進行可視化。針對高速運動和靜止場景,提出了三種用于紋理重建的尖峰流解碼方法。與傳統的基于幀的相機和DVS相比,我們的模型可以實作更好的圖像品質和更高的靈活性,這可以改變苛刻的機器視覺應用的建構方式。 |
Chinese Abs From Machine Translation |
Papers from arxiv.org
更多精彩請移步首頁
pic from pexels.com