グローバルアテンション+位置アテンションがSOTAを更新!精度ほぼ100%!

グローバルアテンションメカニズムと位置アテンションメカニズムの組み合わせは、深層学習において非常に有望な方向性です!これは、深層学習モデルに特に複雑な空間構造と時系列関係を伴うタスクを扱う際に強力なツールを提供します。

この組み合わせは、両者の利点を最大限に活用し、モデルの性能と精度を向上させることができます。例えば、代表的なモデルであるAFFAMは、99.29%という高精度を達成しました。グローバルアテンションメカニズムは入力データ全体に焦点を当て、入力シーケンスまたは画像全体に重み付け処理を行うことで、グローバル範囲の重要な情報を捉えることができ、データ全体の構造と内容をモデルが理解するのに役立ち、重要な特徴とパターンをより正確に識別します。一方、位置アテンションメカニズムは、入力データ内の要素の位置情報を活用することに重点を置き、要素間の空間的または時間的な関係をモデルが理解するのを助け、それによって画像内のオブジェクトの位置などの重要な情報をよりよく捉えることができます。

皆さんが分野の最前線に追いつけるよう、代表的な組み合わせ方法を7つまとめました。原文とコードもすべてありますので、ぜひご覧ください!

以下のQRコードをスキャンし、「グローバル+位置」と返信すると、論文集とプロジェクトコードの全てを無料で入手できます。图片

論文紹介

Enhancing Multivariate Time Series Classifiers through Self-Attention and Relative Positioning Infusion

「論文概要」

本論文では、著者は2つの新しいアテンションブロック(グローバル時間アテンションモジュールと時間擬似ガウス強化自己アテンションモジュール)を提案しました。これらは、深層学習ベースのTSC手法を強化することができ、特定データセットやタスク向けに設計・最適化された手法であっても適用可能です。著者は、イーストアングリア大学(UEA)ベンチマーク(30の多変量時系列分類(MTSC)データセットの標準化されたコレクション)上で複数の最先端の深層学習ベースTSCモデルを評価することで、この主張を検証しています。

実験では、提案されたアテンションブロックを追加することで、ベースラインモデルの平均精度が3.6%向上することが示されています。さらに、提案されたTPSブロックは、トランスフォーマーからの相対位置情報を含めるために新しい注入モジュールを使用しています。計算複雑性が低い独立したユニットとして、TPSはほとんどの最先端のDNNベースTSC手法よりも優れたパフォーマンスを発揮します。

图片

Adaptive feature fusion with attention mechanism for multi-scale target detection

「論文概要」

異なるサイズのオブジェクトを検出するために、YOLO V3やDSSDなどのオブジェクト検出器は多尺度出力を採用しています。検出性能を向上させるために、YOLO V3とDSSDは隣接する2つのスケールを組み合わせることで特徴融合を行います。しかし、隣接するスケール間のみでの特徴融合は十分ではありません。他のスケールでの特徴を利用していません。さらに、一般的な特徴融合操作である連結は、異なるスケールでの特徴の重要性と相関を学習するメカニズムを提供しません。

本論文では、多尺度オブジェクト検出のための適応的特徴融合アテンションメカニズム(AFFAM)を提案します。AFFAMはパス層とサブピクセル畳み込み層を利用して特徴マップのサイズを調整し、複雑な特徴マップをよりよく学習するのに役立ちます。さらに、AFFAMはグローバルアテンションメカニズムと空間位置アテンションメカニズムをそれぞれ利用して、異なるスケールでのチャネル特徴の相関と空間特徴の重要性を適応的に学習します。最後に、著者はAFFAMをYOLO V3と組み合わせて、効率的な多尺度オブジェクト検出器を構築しました。

图片

DPAFNet: A Residual Dual-Path Attention-Fusion Convolutional Neural Network for Multimodal Brain Tumor Segmentation

「論文概要」

本論文では、デュアルパス(DP)モジュールと多尺度アテンション融合(MAF)モジュールに基づく効率的な3Dセグメンテーションモデル(DPAFNet)を提案します。DPAFNetでは、ネットワーク規模を拡大するためにデュアルパス畳み込みが使用され、ネットワークの劣化を回避するために残差接続が導入されています。アテンション融合モジュールは、チャネルレベルのグローバルおよびローカル情報を融合し、異なるスケールの特徴マップを融合して意味情報豊かな特徴を得るために提案されています。これにより、小さな腫瘍のオブジェクト情報が十分に強調されます。

さらに、3D反復拡張畳み込みマージ(IDCM)モジュールは、受容野を拡大し、コンテキスト認識能力を向上させます。アブレーション実験は、拡張畳み込みマージモジュールの最適な拡張レートの組み合わせを検証し、後処理方法によりセグメンテーション精度が向上することを示しています。

图片

Combining Global and Local Attention with Positional Encoding for Video Summarization

「論文概要」

本論文では、新しい教師あり動画要約手法を提案します。既存のRNNベースの要約アーキテクチャの欠点、すなわち遠隔フレームとの依存関係モデリングおよびトレーニングプロセスを並列化する能力に関連するものを克服するために、開発されたモデルは、動画フレームの重要性を推定するために自己アテンションメカニズムを使用することに依存しています。フレームシーケンス全体を観察することでフレーム依存関係をモデリングする以前のアテンションベースの要約手法とは異なり、この手法はグローバルおよびローカルマルチヘッドアテンションメカニズムを組み合わせて、異なる粒度レベルでのフレーム依存関係の異なるモデリングを発見します。

さらに、利用されるアテンションメカニズムは、動画フレームの時間位置をエンコードするコンポーネントを統合しています。これは、動画要約を作成する際に非常に重要です。2つのデータセット(SumMeとTVSum)での実験は、提案されたモデルが既存のアテンションベースの手法と比較して有効であり、他の最先端の教師あり要約手法と競合することを示しています。

图片

以下のQRコードをスキャンし、「グローバル+位置」と返信すると、論文集とプロジェクトコードの全てを無料で入手できます。图片

メインタグ:深層学習

サブタグ:アテンション機構応用コンピュータビジョンニューラルネットワーク


前の記事:初のAI思考百科事典が誕生、モデル推論はもはやブラックボックスではない

次の記事:AI AgentsとAgentic AIの違いは何ですか?

短いURLをシェア