China
En la rehabilitación de la función motora de pacientes, la tecnología de análisis de imágenes se utiliza ampliamente. Al combinarla con imágenes, se puede proporcionar información sobre el estado de rehabilitación del paciente y ajustar el plan de tratamiento de manera oportuna. Las tecnologías de análisis de imágenes existentes utilizan principalmente redes neuronales convolucionales (CNN) o redes de memoria a corto y largo plazo (LSTM) para analizar movimientos continuos. Si bien ofrecen un rendimiento suficientemente preciso, pueden presentar limitaciones en tiempo real. Por ello, este artículo propone una arquitectura CNN-TCN que combina el modelo ResNet-50 de la estructura CNN con las redes convolucionales temporales (TCN), una variante de las redes neuronales recurrentes (RNN), y utiliza auriculares, vídeos, etc., para proporcionar información en tiempo real. Para verificar el efecto de la arquitectura e implementar el mecanismo de retroalimentación en tiempo real de la función de movimiento basado en el análisis de imágenes, este experimento seleccionó los conjuntos de datos HMDB51 y KTH como conjuntos de datos iniciales para el entrenamiento, complementados con datos de acciones cotidianas comunes como caminar, agacharse y balancear los brazos. Posteriormente, se reclutaron 50 pacientes que necesitaban rehabilitación como voluntarios para verificar los resultados. Estos se evaluaron mediante tres indicadores: precisión, exhaustividad y tiempo de retroalimentación. Se encontró que la precisión y la exhaustividad de la CNN por sí sola fueron del 76 % y el 74 %, respectivamente; la precisión y la exhaustividad de la LSTM por sí sola fueron del 83 % y el 84 %, respectivamente; y la precisión y la exhaustividad de la CNN-TCN fueron del 86 % y el 87 %, respectivamente. El tiempo de retroalimentación de la CNN, la LSTM y la CNN-TCN fue de aproximadamente 340 a 400 milisegundos, de 360 a 430 milisegundos y de 290 a 360 milisegundos, respectivamente. CNN-TCN supera a CNN y LSTM en precisión y también en tiempo de inferencia. Por lo tanto, CNN-TCN es una mejor opción para garantizar alta precisión y buena eficacia.
In the motor function rehabilitation of patients, image analysis technology is being widely used in the rehabilitation treatment of patients. Combined with images, feedback on the patients’ rehabilitation status can be provided, and the treatment plan can be adjusted in a timely manner. Existing image analysis technologies mostly use convolutional neural networks (CNN) or long short-term memory (LSTM) network to analyze continuous motion movements. They have good enough performance in terms of accuracy but may lack real-time performance. Based on this, this paper proposes a CNN-TCN architecture that combines the ResNet-50 model of the CNN structure and the temporal convolutional networks (TCN), a variant of the recurrent neural networks (RNN), and uses headphones, videos, etc., for real-time feedback. To verify the effect of the architecture and realize the real-time feedback mechanism of motion function based on image analysis, this experiment selects HMDB51 and KTH datasets as the initial datasets for training, supplemented with common daily action data such as walking, bending, and arm swinging, etc. Then 50 patients who need rehabilitation are recruited as volunteers to verify the results. The results are evaluated using three indicators: accuracy, recall,and feedback time. It is found that the accuracy and recall of CNN alone are 76% and 74%, and the accuracy and recall of LSTM alone are 83% and 84%, while the accuracy and recall of CNN-TCN are 86% and 87%. The feedback time of CNN, LSTM, and CNN-TCN is basically 340 to 400 milliseconds, 360 to 430 milliseconds, and 290-360 milliseconds respectively. CNN-TCN is better than CNN and LSTM in accuracy and also outperforms CNN and LSTM in inference time. Therefore, CNN-TCN is a better choice while ensuring highaccuracy and good