Globale Aufmerksamkeit + Positionsaufmerksamkeit aktualisieren SOTA! Nahezu 100% Genauigkeit!

Die Kombination aus globalem Aufmerksamkeitsmechanismus und positionalem Aufmerksamkeitsmechanismus ist eine sehr vielversprechende Richtung im Deep Learning! Sie bietet ein mächtiges Werkzeug für Deep-Learning-Modelle, insbesondere bei der Bewältigung von Aufgaben mit komplexen räumlichen Strukturen und zeitlichen Beziehungen.

Diese Kombination kann die Vorteile beider voll ausschöpfen, um die Leistung und Genauigkeit des Modells zu verbessern. Zum Beispiel erreichte das repräsentative Modell AFFAM eine Genauigkeit von bis zu 99,29%. Der globale Aufmerksamkeitsmechanismus konzentriert sich auf alle Teile der Eingabedaten und verarbeitet die gesamte Eingabesequenz oder das gesamte Bild mit gewichteter Verarbeitung, um Schlüsselinformationen im globalen Bereich zu erfassen. Dies hilft dem Modell, die Gesamtstruktur und den Inhalt der Daten zu verstehen und Schlüsselmerkmale und -muster genauer zu identifizieren. Der positionale Aufmerksamkeitsmechanismus hingegen konzentriert sich auf die Nutzung der Positionsinformationen von Elementen in den Eingabedaten, um dem Modell zu helfen, räumliche oder zeitliche Beziehungen zwischen Elementen zu verstehen und so kritische Informationen wie Objektpositionen in Bildern besser zu erfassen.

Damit jeder mit der Spitze des Feldes mithalten kann, habe ich 7 repräsentative Kombinationsmethoden zusammengestellt, einschließlich Originalarbeiten und Code. Werfen wir einen Blick darauf!

Scannen Sie den untenstehenden QR-Code, antworten Sie mit „Global + Position“, um alle Artikelsammlungen und den Projektcode kostenlos zu erhalten图片

Artikelanalyse

Enhancing Multivariate Time Series Classifiers through Self-Attention and Relative Positioning Infusion

„Artikelzusammenfassung“

In diesem Artikel schlagen die Autoren zwei neue Aufmerksamkeitsblöcke (Global Temporal Attention Module und Temporal Pseudo-Gaussian Enhanced Self-Attention Module) vor, die auf Deep Learning basierende TSC-Methoden verbessern können, selbst wenn diese Methoden für bestimmte Datensätze oder Aufgaben entwickelt und optimiert wurden. Die Autoren validieren diese Behauptung, indem sie mehrere hochmoderne Deep Learning-basierte TSC-Modelle auf dem Benchmark der University of East Anglia (UEA) (einer standardisierten Sammlung von 30 multivariaten Zeitreihen-Klassifizierungsdatensätzen (MTSC)) evaluieren.

Experimente zeigen, dass das Hinzufügen der vorgeschlagenen Aufmerksamkeitsblöcke die durchschnittliche Genauigkeit der Baseline-Modelle um 3,6% verbessern kann. Darüber hinaus verwendet der vorgeschlagene TPS-Block ein neuartiges Injektionsmodul, um relative Positionsinformationen aus dem Transformer zu integrieren. Als eigenständige Einheit mit geringerer Rechenkomplexität ermöglicht er es TPS, die meisten hochmodernen DNN-basierten TSC-Methoden zu übertreffen.

图片

Adaptive feature fusion with attention mechanism for multi-scale target detection

„Artikelzusammenfassung“

Um Objekte unterschiedlicher Größe zu erkennen, verwenden Objektdetektoren wie YOLO V3 und DSSD multiskalare Ausgaben. Um die Erkennungsleistung zu verbessern, führen YOLO V3 und DSSD eine Feature-Fusion durch, indem sie zwei benachbarte Skalen kombinieren. Die Feature-Fusion nur zwischen benachbarten Skalen ist jedoch nicht ausreichend. Sie nutzt keine Features aus anderen Skalen. Darüber hinaus bietet die Konkatenation als häufige Feature-Fusion-Operation keinen Mechanismus, um die Bedeutung und Korrelation von Features in verschiedenen Skalen zu lernen.

Dieser Artikel schlägt einen adaptiven Feature-Fusion-Aufmerksamkeitsmechanismus (AFFAM) für die multiskalare Objekterkennung vor. AFFAM verwendet Pfadschichten und Subpixel-Konvolutionsschichten, um die Größe von Feature-Maps anzupassen, was beim besseren Lernen komplexer Feature-Maps hilft. Darüber hinaus verwendet AFFAM jeweils einen globalen Aufmerksamkeitsmechanismus und einen räumlichen Positionsaufmerksamkeitsmechanismus, um die Korrelation von Kanaleigenschaften und die Bedeutung von räumlichen Merkmalen in verschiedenen Skalen adaptiv zu lernen. Schließlich kombinieren die Autoren AFFAM mit YOLO V3, um einen effizienten multiskalaren Objektdetektor zu erstellen.

圖片

DPAFNet: A Residual Dual-Path Attention-Fusion Convolutional Neural Network for Multimodal Brain Tumor Segmentation

„Artikelzusammenfassung“

Dieser Artikel schlägt ein effizientes 3D-Segmentierungsmodell (DPAFNet) vor, das auf dem Dual-Path (DP)-Modul und dem Multi-Scale Attention Fusion (MAF)-Modul basiert. Im DPAFNet wird Dual-Path-Konvolution verwendet, um die Netzwerkskala zu erweitern, und Restverbindungen werden eingeführt, um eine Netzwerkdegradation zu vermeiden. Es wird ein Aufmerksamkeitsfusionsmodul vorgeschlagen, um globale und lokale Informationen auf Kanalebene zu fusionieren und Feature-Maps unterschiedlicher Skalen zu fusionieren, um Feature-Maps mit reichen semantischen Informationen zu erhalten. Dies stellt sicher, dass die Objektinformationen kleiner Tumore vollständig hervorgehoben werden.

Darüber hinaus erweitert das 3D Iterative Dilated Convolution Merging (IDCM)-Modul das rezeptive Feld und verbessert die Kontextsensitivität. Ablationsexperimente verifizieren die optimale Kombination von Dilatationsraten für das Dilated Convolution Merging-Modul und zeigen, dass die Segmentierungsgenauigkeit durch Nachbearbeitungsmethoden verbessert wird.

圖片

Combining Global and Local Attention with Positional Encoding for Video Summarization

„Artikelzusammenfassung“

Dieser Artikel schlägt eine neuartige Methode zur überwachten Videozusammenfassung vor. Um die Nachteile bestehender RNN-basierter Zusammenfassungsarchitekturen zu überwinden, die mit der Modellierung von Abhängigkeiten zu entfernten Frames und der Fähigkeit zur Parallelisierung des Trainingsprozesses zusammenhängen, stützt sich das entwickelte Modell auf die Verwendung von Selbstaufmerksamkeitsmechanismen zur Schätzung der Wichtigkeit von Video-Frames. Im Gegensatz zu früheren auf Aufmerksamkeit basierenden Zusammenfassungsmethoden, die Frame-Abhängigkeiten durch Beobachtung der gesamten Frame-Sequenz modellieren, kombiniert diese Methode globale und lokale Multi-Head-Aufmerksamkeitsmechanismen, um verschiedene Modellierungen von Frame-Abhängigkeiten auf verschiedenen Granularitätsebenen zu entdecken.

Darüber hinaus integriert der verwendete Aufmerksamkeitsmechanismus Komponenten zur Kodierung der zeitlichen Position von Video-Frames – was bei der Erstellung von Videozusammenfassungen sehr wichtig ist. Experimente an zwei Datensätzen (SumMe und TVSum) zeigen, dass das vorgeschlagene Modell im Vergleich zu bestehenden auf Aufmerksamkeit basierenden Methoden effektiv und im Vergleich zu anderen hochmodernen überwachten Zusammenfassungsmethoden wettbewerbsfähig ist.

圖片

Scannen Sie den untenstehenden QR-Code, antworten Sie mit „Global + Position“, um alle Artikelsammlungen und den Projektcode kostenlos zu erhalten圖片

Hauptkategorie:Deep Learning

Unterkategorien:AufmerksamkeitsmechanismusAnwendungenComputer VisionNeuronale Netze


Vorheriger:Erste Enzyklopädie des KI-Denkens geboren, Modell-Schlussfolgerungen sind kein schwarzes Loch mehr

Nächster:10 Jahre mühsamer Forschung ohne Erfolg, Millioneninvestitionen verschwendet! KI-Blackbox bleibt ungelöst, Google gibt auf

Kurz-URL teilen