La identificación y el análisis de vídeo constituyen una de las áreas de investigación más importantes en el campo de la visión por computadora. Entre ellas, el reconocimiento de acciones a nivel de grano fino es una tarea de reconocimiento más refinada y compleja. El principal desafío reside en la escasez de conjuntos de datos disponibles para el reconocimiento de acciones a nivel de grano fino, lo que limita el progreso de la investigación en este campo. El reconocimiento de acciones a nivel de grano fino está diseñado para distinguir subclases en una clasificación de acciones amplia, las cuales son más sutiles y suelen basarse únicamente en pequeñas diferencias locales. Las tareas de reconocimiento a nivel de grano fino existentes generalmente utilizan detección de objetivos, mecanismos de atención y otros métodos relacionados para encontrar y utilizar la información regional local en la imagen. Sin embargo, la mayoría de estos métodos se utilizan para tareas de reconocimiento de imágenes, por lo que carecen de la utilización de la información temporal en vídeo. Este artículo utiliza un método basado en el enfoque dual para estudiar el reconocimiento de acciones a nivel de grano fino en vídeo. Se presenta un conjunto de datos de vídeo de fútbol a nivel de grano fino, denominado «Football». Este conjunto consta de vídeos en directo de múltiples partidos de fútbol. Inicialmente, se categorizaron tres tipos generales de movimiento: regate, pase y tiro. Posteriormente, estos se desglosaron en un conjunto más detallado de 26 movimientos específicos. Todos los experimentos presentados en este artículo se implementarán en este conjunto de datos. Todos los métodos descritos se probarán en los conjuntos de datos de fútbol y cocina MPII. Durante el proceso de optimización de la red, estos métodos obtienen mejores resultados y superan a los métodos convencionales actuales, lo que verifica su eficacia.
Video identification and analysis is one of the important research contents in the field of computer vision. Among them, the fine-grained action recognition of the video is a more refined and challenging recognition task. The main challenges are the few available fine-grained action recognition datasets that limit the progress of research in this field; fine-grained action-recognition is designed to distinguish subclasses in a large action classification, which are more subtle, usually only by small local differences. Existing fine-grained recognition tasks generally use target detection, attention mechanism and other related methods to find and use the local regional information in the image. However, most of these methods are used for image recognition tasks, so they lack the utilization of timing information for video. This paper uses dual-based method to study fine-grained video action recognition. A fine-grained football video dataset, Football is presented. It consists of live videos of multiple football matches. Initially, we categorized three broad movement types: dribbling, passing, and shooting. Subsequently, these were broken down into a more detailed set of 26 specific movements. All of the experiments presented in this paper will be implemented onthis dataset. All methods in this paper will complete related experiments on the Football football dataset and the MPII cooking dataset. In the process of various network optimization, these methods achieve improved results and outperformed the current mainstream methods, which verifies the effectiveness of our methods.