La combinación del mecanismo de atención global y el mecanismo de atención posicional es una dirección muy prometedora en el aprendizaje profundo. Proporciona una herramienta poderosa para los modelos de aprendizaje profundo, especialmente al tratar tareas que involucran estructuras espaciales complejas y relaciones temporales.
Esta combinación puede aprovechar al máximo las ventajas de ambos para mejorar el rendimiento y la precisión del modelo. Por ejemplo, el modelo representativo AFFAM logró una precisión tan alta como 99.29%. El mecanismo de atención global se centra en todas las partes de los datos de entrada, procesando toda la secuencia de entrada o imagen con procesamiento ponderado, capaz de capturar información clave en el alcance global. Esto ayuda al modelo a comprender la estructura general y el contenido de los datos y a identificar con mayor precisión características y patrones clave. El mecanismo de atención posicional, por otro lado, se centra en utilizar la información posicional de los elementos en los datos de entrada, ayudando al modelo a comprender las relaciones espaciales o temporales entre los elementos, y así capturar mejor información crítica como las posiciones de los objetos en las imágenes.
Para que todos se mantengan al día con la vanguardia del campo, he compilado 7 métodos de combinación representativos, incluyendo los artículos originales y el código, ¡vamos a verlos!
Escanea el código QR a continuación, responde con "Global + Posición" para obtener todas las colecciones de artículos y código del proyecto de forma gratuita
Análisis de artículos
Enhancing Multivariate Time Series Classifiers through Self-Attention and Relative Positioning Infusion
「Resumen del artículo」
En este artículo, los autores proponen dos nuevos bloques de atención (Módulo de Atención Temporal Global y Módulo de Autoatención Mejorada Pseudo-Gaussiana Temporal) que pueden mejorar los métodos TSC basados en aprendizaje profundo, incluso si estos métodos están diseñados y optimizados para conjuntos de datos o tareas específicas. Los autores validan esta afirmación evaluando varios modelos TSC de última generación basados en aprendizaje profundo en el benchmark de la Universidad de East Anglia (UEA) (una colección estandarizada de 30 conjuntos de datos de clasificación de series temporales multivariadas (MTSC)).
Los experimentos muestran que agregar los bloques de atención propuestos puede mejorar la precisión promedio de los modelos base en un 3.6%. Además, el bloque TPS propuesto utiliza un nuevo módulo de inyección para incorporar información posicional relativa del transformador. Como unidad independiente con menor complejidad computacional, permite que TPS supere a la mayoría de los métodos TSC de última generación basados en DNN.
Adaptive feature fusion with attention mechanism for multi-scale target detection
「Resumen del artículo」
Para detectar objetos de diferentes tamaños, detectores de objetos como YOLO V3 y DSSD emplean salidas multiescala. Para mejorar el rendimiento de la detección, YOLO V3 y DSSD realizan fusión de características combinando dos escalas adyacentes. Sin embargo, la fusión de características solo entre escalas adyacentes no es suficiente. No utiliza características de otras escalas. Además, la concatenación, como operación común de fusión de características, no proporciona un mecanismo para aprender la importancia y la correlación de las características en diferentes escalas.
Este artículo propone un Mecanismo de Atención de Fusión de Características Adaptativo (AFFAM) para la detección de objetos multiescala. AFFAM utiliza capas de ruta y capas convolucionales de subpíxeles para ajustar el tamaño de los mapas de características, lo que ayuda a aprender mejor mapas de características complejos. Además, AFFAM emplea el mecanismo de atención global y el mecanismo de atención posicional espacial respectivamente para aprender adaptativamente la correlación de las características del canal y la importancia de las características espaciales en diferentes escalas. Finalmente, los autores combinan AFFAM con YOLO V3 para construir un detector de objetos multiescala eficiente.
DPAFNet: A Residual Dual-Path Attention-Fusion Convolutional Neural Network for Multimodal Brain Tumor Segmentation
「Resumen del artículo」
Este artículo propone un modelo de segmentación 3D eficiente (DPAFNet) basado en el módulo de doble ruta (DP) y el módulo de fusión de atención multiescala (MAF). En DPAFNet, se utiliza la convolución de doble ruta para expandir la escala de la red, y se introducen conexiones residuales para evitar la degradación de la red. Se propone un módulo de fusión de atención para fusionar información global y local a nivel de canal y fusionar mapas de características de diferentes escalas para obtener características ricas en información semántica. Esto asegura que la información del objeto de pequeños tumores se enfatice completamente.
Además, el módulo de Fusión de Convolución Dilatada Iterativa 3D (IDCM) expande el campo receptivo y mejora la conciencia contextual. Los experimentos de ablación verifican la combinación óptima de tasas de dilatación para el módulo de fusión de convolución dilatada y demuestran que la precisión de la segmentación se mejora debido a los métodos de postprocesamiento.
Combining Global and Local Attention with Positional Encoding for Video Summarization
「Resumen del artículo」
Este artículo propone un novedoso método de resumen de video supervisado. Para superar los inconvenientes de las arquitecturas de resumen existentes basadas en RNN, que están relacionados con el modelado de dependencias con fotogramas distantes y la capacidad de paralelizar el proceso de entrenamiento, el modelo desarrollado se basa en el uso de mecanismos de autoatención para estimar la importancia de los fotogramas de video. A diferencia de los métodos de resumen basados en atención anteriores que modelan las dependencias de los fotogramas observando toda la secuencia de fotogramas, este método combina mecanismos de atención multi-cabeza globales y locales para descubrir diferentes modelados de dependencias de fotogramas en diferentes niveles de granularidad.
Además, el mecanismo de atención utilizado integra componentes para codificar la posición temporal de los fotogramas de video, lo cual es muy importante al crear resúmenes de video. Los experimentos en dos conjuntos de datos (SumMe y TVSum) muestran que el modelo propuesto es efectivo en comparación con los métodos basados en atención existentes y es competitivo con otros métodos de resumen supervisado de última generación.
Escanea el código QR a continuación, responde con "Global + Posición" para obtener todas las colecciones de artículos y código del proyecto de forma gratuita