题名 |
基於深度學習之視覺定位-以故宮南院為例 |
并列篇名 |
VISUAL LOCALIZATION BASED ON DEEP LEARNING - TAKE SOUTHERN BRANCH OF THE NATIONAL PALACE MUSEUM FOR EXAMPLE |
DOI |
10.6652/JoCICHE.202205_34(3).0004 |
作者 |
凃嘉濠(Chia-Hao Tu);呂學展(Eric Hsueh-Chan Lu) |
关键词 |
視覺定位 ; 深度學習 ; 卷積神經網路 ; visual localization ; deep learning ; convolutional neural network |
期刊名称 |
中國土木水利工程學刊 |
卷期/出版年月 |
34卷3期(2022 / 05 / 01) |
页次 |
215 - 220 |
内容语文 |
繁體中文 |
中文摘要 |
視覺定位利用影像迴歸相機的位置與方位,在電腦視覺領域上有非常多的應用,例如自動駕駛、擴增實境(AR)與虛擬實境(VR)等等。而深度學習中的卷積神經網路模擬生物的視覺有很好的影像特徵萃取能力,因此在視覺定位上使用卷積神經網路能更有效萃取特徵進而提升迴歸準確度。雖然本團隊已對故宮南院場域建立過基於深度學習的影像室內定位模型,但後續有更好的卷積神經網路及視覺定位損失函數被提出,因此本論文嘗試使用新的網路及損失函數以取得更好的定位準確度。在本論文中,我們使用ResNet-50作為骨幹網路,將輸出層改為3維的位置和4維的方位四元數,並使用具有可學習權重的損失函數結合位置與方位。我們使用過去收集的故宮南院資料集進行實驗,比較了不同的預訓練模型與正規化方法對定位準確度的影響,實驗的最佳結果提升了約60%的定位準確度。 |
英文摘要 |
Visual localization uses images to regress camera position and orientation. It has many applications in computer vision such as autonomous driving, augmented reality (AR) and virtual reality (VR), and so on. The convolutional neural network simulates biological vision and has a good image feature extraction ability, so using it in visual localization can improve regression accuracy. Although our team has built an image indoor localization model for Southern Branch of the National Palace Museum, this paper tries to use new network and loss function to achieve better positioning accuracy. In this paper, we use ResNet-50 as backbone network, and change the output layer to 3-dimensional position and 4-dimensional orientation quaternion, and use learnable weights loss function. We compare different pretrained models and normalization methods, and the best result improves the positioning accuracy by about 60%. |
主题分类 |
工程學 >
土木與建築工程 工程學 > 水利工程 工程學 > 市政與環境工程 |
参考文献 |
|