fbpx
维基百科

物体识别

  • 物体识别(Object detection)是计算机视觉影像處理中的術語,指的是让计算机去分析一张图片或者一段影片中的物体,并标记出来,这需要给神经网络大量的物体数据去训练它,这样才能进行识别。目前人臉檢測是物體識別領域中被廣泛研究的題目之一。

應用 编辑

物體識別在計算機視覺任務中被廣泛應用,有許多基於物體識別之下游任務,如圖像自動標註、物體計數 (页面存档备份,存于互联网档案馆)、人臉識別。物體識別亦可應用於物件追蹤,例如:追蹤球類比賽中的球與追蹤影片中的人物。

球類追蹤 编辑

由於羽球網球體積小且瞬間移動速度快,因此是球類追蹤中較難精確實現的任務之。

TrackNet[1] [2] 编辑

為了解決上述問題,TrackNet利用深度神經網路追蹤球體在影像中的軌跡,並且可以克服球體影響模糊、面積小、且在部分影片幀中消失之問題。TrackNet使用了基於熱點圖卷積神經網路[3][4],並利用產生的熱點圖來表示球體所在位置的機率分佈。由於TrackNet試圖克服上述「部分影片幀中消失」的問題,模型的輸入為相鄰的三個幀,輸出則為中間幀的結果。其輸出可以表示為 ,代表在座標 與深度 的位置上的機率,最終輸出為 ,即是使用各座標上機率最高的深度作為輸出。

在訓練神經網路方面,為了學習球體位置的機率分佈,TrackNet使用高斯分佈來建模球體在真實位置 的熱點圖,表示如下:

 

損失函數則是使用交叉熵,定義為:

 ,其中 

方法 编辑

近代常見的物體識別方法多為基於深度神經網路模型之方法,核心概念為利用神經網路模型抽取影像之特徵圖,並以此識別出物體類別與位置。

End-to-End Object Detection with Transformers[5] 编辑

在這個方法中,作者提出一個神經網路模型DETR,旨在將物件偵測任務視為一個集合預測任務,並在訓練時將神經網路模型預測的集合與正確結果集合間進行二分圖匹配

為了能夠產生出一個集合,DETR,借鑒了自然語言處理領域的Seq2Seq概念,並首次在物件偵測領域引入了Transformer模型,在此方法中同時使用到Transformer編碼器與解碼器,其中在解碼器部分,DETR進行了修改,提出了對象查詢(object queries)的概念,使得模型可以自己學習需要偵測的對象的特徵。

由於這是物件偵測領域首次使用了這種簡化的集合預測方法,因此具有其重要性,並引領後續集合預測方法的蓬勃發展。

參考資料 编辑

  1. ^ Huang, Yu-Chuan; Liao, I-No; Chen, Ching-Hsuan; Ik, Tsi-Ui; Peng, Wen-Chih. TrackNet: A Deep Learning Network for Tracking High-speed and Tiny Objects in Sports Applications. 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS) (IEEE). 2019-09. doi:10.1109/avss.2019.8909871. 
  2. ^ TrackNet. nol.cs.nctu.edu.tw. [2023-06-20]. (原始内容于2023-01-13). 
  3. ^ Belagiannis, Vasileios; Zisserman, Andrew. Recurrent Human Pose Estimation. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017) (IEEE). 2017-05. doi:10.1109/fg.2017.64. 
  4. ^ Pfister, Tomas; Charles, James; Zisserman, Andrew. Flowing ConvNets for Human Pose Estimation in Videos. 2015 IEEE International Conference on Computer Vision (ICCV) (IEEE). 2015-12. doi:10.1109/iccv.2015.222. 
  5. ^ Carion, Nicolas; Massa, Francisco; Synnaeve, Gabriel; Usunier, Nicolas; Kirillov, Alexander; Zagoruyko, Sergey. End-to-End Object Detection with Transformers. Computer Vision – ECCV 2020. Cham: Springer International Publishing. 2020: 213–229. ISBN 978-3-030-58451-1. 

物体识别, object, detection, 是计算机视觉及影像處理中的術語, 指的是让计算机去分析一张图片或者一段影片中的物体, 并标记出来, 这需要给神经网络大量的物体数据去训练它, 这样才能进行识别, 目前人臉檢測是物體識別領域中被廣泛研究的題目之一, 目录, 應用, 球類追蹤, tracknet, 方法, object, detection, with, transformers, 參考資料應用, 编辑物體識別在計算機視覺任務中被廣泛應用, 有許多基於物體識別之下游任務, 如圖像自動標註, 物體計數, . 物体识别 Object detection 是计算机视觉及影像處理中的術語 指的是让计算机去分析一张图片或者一段影片中的物体 并标记出来 这需要给神经网络大量的物体数据去训练它 这样才能进行识别 目前人臉檢測是物體識別領域中被廣泛研究的題目之一 目录 1 應用 1 1 球類追蹤 1 1 1 TrackNet 1 2 2 方法 2 1 End to End Object Detection with Transformers 5 3 參考資料應用 编辑物體識別在計算機視覺任務中被廣泛應用 有許多基於物體識別之下游任務 如圖像自動標註 物體計數 页面存档备份 存于互联网档案馆 人臉識別 物體識別亦可應用於物件追蹤 例如 追蹤球類比賽中的球與追蹤影片中的人物 球類追蹤 编辑 由於羽球或網球體積小且瞬間移動速度快 因此是球類追蹤中較難精確實現的任務之 TrackNet 1 2 编辑 為了解決上述問題 TrackNet利用深度神經網路追蹤球體在影像中的軌跡 並且可以克服球體影響模糊 面積小 且在部分影片幀中消失之問題 TrackNet使用了基於熱點圖的卷積神經網路 3 4 並利用產生的熱點圖來表示球體所在位置的機率分佈 由於TrackNet試圖克服上述 部分影片幀中消失 的問題 模型的輸入為相鄰的三個幀 輸出則為中間幀的結果 其輸出可以表示為P i j k displaystyle P i j k nbsp 代表在座標 i j displaystyle i j nbsp 與深度k displaystyle k nbsp 的位置上的機率 最終輸出為h i j a r g m a x k P i j k displaystyle h i j argmax k P i j k nbsp 即是使用各座標上機率最高的深度作為輸出 在訓練神經網路方面 為了學習球體位置的機率分佈 TrackNet使用高斯分佈來建模球體在真實位置 x 0 y 0 displaystyle x 0 y 0 nbsp 的熱點圖 表示如下 G x y 1 2 p s 2 e x x 0 2 y y 0 2 2 s 2 2 p s 2 255 displaystyle G x y lfloor frac 1 2 pi sigma 2 e frac x x 0 2 y y 0 2 2 sigma 2 2 pi sigma 2 centerdot 255 rfloor nbsp 損失函數則是使用交叉熵 定義為 H Q P i j k Q i j k l o g P i j k displaystyle H Q P sum i j k Q i j k logP i j k nbsp 其中Q i j k 1 if G i j k 0 otherwise displaystyle Q i j k begin cases 1 amp text if G i j k 0 amp text otherwise end cases nbsp 方法 编辑近代常見的物體識別方法多為基於深度神經網路模型之方法 核心概念為利用神經網路模型抽取影像之特徵圖 並以此識別出物體類別與位置 End to End Object Detection with Transformers 5 编辑 在這個方法中 作者提出一個神經網路模型DETR 旨在將物件偵測任務視為一個集合預測任務 並在訓練時將神經網路模型預測的集合與正確結果集合間進行二分圖匹配 為了能夠產生出一個集合 DETR 借鑒了自然語言處理領域的Seq2Seq概念 並首次在物件偵測領域引入了Transformer模型 在此方法中同時使用到Transformer編碼器與解碼器 其中在解碼器部分 DETR進行了修改 提出了對象查詢 object queries 的概念 使得模型可以自己學習需要偵測的對象的特徵 由於這是物件偵測領域首次使用了這種簡化的集合預測方法 因此具有其重要性 並引領後續集合預測方法的蓬勃發展 參考資料 编辑 nbsp 这是一篇電腦科學小作品 你可以通过编辑或修订扩充其内容 查论编 Huang Yu Chuan Liao I No Chen Ching Hsuan Ik Tsi Ui Peng Wen Chih TrackNet A Deep Learning Network for Tracking High speed and Tiny Objects in Sports Applications 2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance AVSS IEEE 2019 09 doi 10 1109 avss 2019 8909871 TrackNet nol cs nctu edu tw 2023 06 20 原始内容存档于2023 01 13 Belagiannis Vasileios Zisserman Andrew Recurrent Human Pose Estimation 2017 12th IEEE International Conference on Automatic Face amp Gesture Recognition FG 2017 IEEE 2017 05 doi 10 1109 fg 2017 64 Pfister Tomas Charles James Zisserman Andrew Flowing ConvNets for Human Pose Estimation in Videos 2015 IEEE International Conference on Computer Vision ICCV IEEE 2015 12 doi 10 1109 iccv 2015 222 Carion Nicolas Massa Francisco Synnaeve Gabriel Usunier Nicolas Kirillov Alexander Zagoruyko Sergey End to End Object Detection with Transformers Computer Vision ECCV 2020 Cham Springer International Publishing 2020 213 229 ISBN 978 3 030 58451 1 取自 https zh wikipedia org w index php title 物体识别 amp oldid 78861788, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。