全局注意力機制與位置注意力機制結合是深度學習中非常有潛力的方向!它為深度學習模型提供了一種強大的工具,特別是在處理具有複雜空間結構和時序關係的任務時。
這種結合能夠充分利用兩者的優勢,提高模型的性能和準確性。例如代表模型AFFAM就實現了高達99.29%的精度。全局注意力機制關注輸入資料的所有部分,透過對整個輸入序列或圖像進行加權處理,能夠捕捉全局範圍內的關鍵資訊,有助於模型理解資料的整體結構和內容,更準確地識別關鍵特徵和模式。而位置注意力機制則側重利用輸入資料中元素的位置資訊,幫助模型理解元素之間的空間或時序關係,從而更好地捕捉圖像中的物件位置等關鍵資訊。
為了讓大家緊跟領域前沿,我為大家梳理了7種代表性的結合方法,原文和程式碼都有,一起來看!
掃描下方二維碼,回復「全局+位置」免費獲取全部論文合集及專案程式碼
論文賞析
Enhancing Multivariate Time Series Classifiers through Self-Attention and Relative Positioning Infusion
「論文簡述」
在本文中,作者提出了兩個新的注意力塊(全局時間注意力模組和時間偽高斯增強自我注意力模組),它們可以增強基於深度學習的TSC方法,即使這些方法是針對特定資料集或任務設計和最佳化的。作者透過在英吉利大學(UEA)基準(30個多元時間序列分類(MTSC)資料集的標準化集合)上評估多個最先進的基於深度學習的TSC模型來驗證這一說法。
實驗表明,新增提議的注意力塊可以將基本模型的平均準確率提高3.6%。此外,提出的TPS塊使用了一個新的注入模組來包含變換器中的相對位置資訊。作為一個計算複雜度較低的獨立單元,它使TPS的效能優於大多數最先進的基於DNN的TSC方法。
Adaptive feature fusion with attention mechanism for multi-scale target detection
「論文簡述」
為了偵測不同大小的目標,YOLO V3和DSSD等目標偵測器採用多尺度輸出。為了提高偵測效能,YOLO V3和DSSD透過結合兩個相鄰尺度進行特徵融合。然而,僅在相鄰尺度之間進行特徵融合是不夠的。它還沒有在其他尺度上利用這些特性。此外,拼接作為一種常見的特徵融合操作,不能提供一種機制來學習不同尺度下特徵的重要性和相關性。
本文提出了一種多尺度目標偵測的自適應特徵融合注意機制(AFFAM)。AFFAM利用路徑層和亞像素卷積層來調整特徵映射的大小,有助於更好地學習複雜的特徵映射。此外,AFFAM分別利用全局注意機制和空間位置注意機制,自適應地學習通道特徵在不同尺度上的相關性和空間特徵的重要性。最後,作者將AFFAM與YOLO V3結合,建構了一個高效的多尺度目標偵測器。
DPAFNet: A Residual Dual-Path Attention-Fusion Convolutional Neural Network for Multimodal Brain Tumor Segmentation
「論文簡述」
本文提出了一種基於雙路徑(DP)模組和多尺度注意力融合(MAF)模組的高效三維分割模型(DPAFNet)。在DPAFNet中,採用雙路徑卷積來擴大網路規模,並引入殘差連接來避免網路退化。提出了一種注意融合模組,對通道級全局和局部資訊進行融合,將不同尺度的特徵圖進行融合,得到語義資訊豐富的特徵。這使得小腫瘤的物件資訊得到了充分的重視。
此外,三維迭代擴張卷積合併(IDCM)模組擴展了感受野,提高了上下文感知能力。消融實驗驗證了擴張卷積合併模組的最優擴張速率組合,並證明了由於後處理方法提高了分割精度。
Combining Global and Local Attention with Positional Encoding for Video Summarization
「論文簡述」
本文提出了一種新的有監督視訊摘要方法。為了克服現有基於RNN的摘要架構的缺點,即與遠端影格的依賴關係建模和平行化訓練過程的能力有關,開發的模型依賴於使用自我注意力機制來估計視訊影格的重要性。與以往透過觀察整個影格序列來建立影格依賴關係模型的基於注意力的摘要方法不同,該方法結合了全局和局部多頭注意力機制來發現在不同粒度等級的影格依賴關係的不同建模。
此外,所利用的注意力機制整合了對視訊影格的時間位置進行編碼的元件-這在製作視訊摘要時非常重要。在兩個資料集(SumMe和TVSum)上的實驗表明,與現有的基於注意力的方法相比,所提出的模型是有效的,並且與其他最先進的監督摘要方法相比具有競爭力。
掃描下方二維碼,回復「全局+位置」免費獲取全部論文合集及專案程式碼