上科大信息學院高盛華課題在計算機視覺領域發(fā)表重要成果

上海科技大學
2021-10-09 14:23:49 文/謝燁華 圖/鄒梓涵
近些年來,360度全景圖像或視頻因其帶給觀察者身臨其境的觀看體驗而引發(fā)越來越多的關注。但全景圖像或視頻是一種非歐幾里得數(shù)據(jù),即這些數(shù)據(jù)實際上是以二維數(shù)據(jù)的形式進行存儲。人們需要用等矩陣映射(equirectangular projection)把數(shù)據(jù)從球面映射到平面如下圖。等矩陣映射是一種簡單的投影方式,它將經(jīng)線映射為恒定間距的垂直線,將緯線映射為恒定間距的水平線,這就導致二維數(shù)據(jù)形式存儲的360度全景圖相比于人們真實感知的場景具有相當大的失真。因此,基于360度全景圖像視頻理解需要考慮這些投影失真,以便提升圖像理解的性能。
圖.(a)原始球面上的360度圖片,(b)經(jīng)過投影變換后全景圖上的360度圖像。
上科大信息學院高盛華課題組針對360度的全景圖像視頻理解問題,提出一種新型的球狀卷積神經(jīng)網(wǎng)絡(Spherical Convolutional Neural Networks)新型深度網(wǎng)絡,該網(wǎng)絡包括球狀卷積操作、球狀池化操作、球狀卷積LSTM單元和球狀均方差損失函數(shù)(MSE)。相比于標準的卷積神經(jīng)網(wǎng)絡,該網(wǎng)絡將等矩陣映射時候?qū)е碌奈矬w形狀失真考慮其中,可以提取到魯棒的視覺特征。近期,這項研究成果“Spherical DNNs and Their Applications in 360 Images and Videos” 發(fā)表于人工智能領域頂級學術刊物IEEE Transactions on Pattern Analysis and Machine Intelligence(簡稱IEEE TPAMI)。
假設定義球面卷積是以北極點為中心半徑為ɑ的圓錐所相對應的球冠。當課題組用這個球面卷積對映射之后得到平面圖像進行卷積時,會基于所需卷積區(qū)域在球極坐標系中的位置,通過雙線性差值來拉伸或者旋轉(zhuǎn)卷積核。他們所提出的球狀卷積還可以在球極坐標系統(tǒng)上的所有位置實現(xiàn)參數(shù)共享。不僅如此,他們還根據(jù)每個像素所在立體角的位置,賦予不同的權重,以此把用在平面圖像或視頻中的標準MSE損失函數(shù)擴展到全景圖像或視頻中,結(jié)果證明,該方法在顯著性檢測等任務中優(yōu)于現(xiàn)有模型。
圖. 課題組所提出的球狀卷積的參數(shù)共享示意圖。該圖顯示球冠是如何從北極點(第一列)經(jīng)過赤道(第三列)然后移動到南極點(第五列),兩列之間角度差等π/4。第一行顯示的是在原始球面上球冠的區(qū)域。第二行顯示的是在經(jīng)過映射變換之后的全景圖像上球冠的區(qū)域。第三行顯示的是與每個球冠卷積核位置相對應的采樣網(wǎng)格。紅色曲線代表θ方向的采樣網(wǎng)格,藍色曲線代表Φ方向的采樣網(wǎng)格。
此項研究由上?萍即髮W、新加坡科學院等單位協(xié)作完成。上科大信息學院2020屆博士生徐衍鈺(目前在新加坡科學院高性能計算所工作)和2020屆碩士生張子恒為共同第一作者,高盛華教授為通訊作者。該項工作得到了上海市自然科學基金以及國家自然科學基金等項目的大力支持。
文章鏈接(點擊閱讀原文獲取更多內(nèi)容):
https://ieeexplore.網(wǎng)址未加載/abstract/document/9497715
圖 文 徐衍鈺
高盛華
排 版 靖羽萌
編 輯 高正純
高 瑄
今天“分享”“點贊”“在看”了嗎?