banner
Hogar / Noticias / Biblioteca de datos de movimiento de construcción: un conjunto de datos de movimiento integrado para
Noticias

Biblioteca de datos de movimiento de construcción: un conjunto de datos de movimiento integrado para

Apr 12, 2024Apr 12, 2024

Datos científicos volumen 9, número de artículo: 726 (2022) Citar este artículo

Accesos 2012

1 altmétrica

Detalles de métricas

Identificar las actividades de los trabajadores es crucial para garantizar la seguridad y la productividad de la fuerza laboral humana en las obras de construcción. Muchos estudios implementan sensores basados ​​en la visión o en la inercia para construir esqueletos humanos en 3D para posturas automatizadas y reconocimiento de actividades. Los investigadores han desarrollado conjuntos de datos enormes y heterogéneos para movimientos genéricos y modelos de inteligencia artificial basados ​​en estos conjuntos de datos. Sin embargo, el conjunto de datos y las etiquetas de movimiento relacionados con la construcción deben diseñarse específicamente, ya que los trabajadores de la construcción a menudo están expuestos a posturas incómodas y tareas físicas intensivas. Este estudio desarrolló un pequeño conjunto de datos de actividades relacionadas con la construcción con un experimento en el laboratorio e implementó los conjuntos de datos para etiquetar manualmente una biblioteca de datos de movimiento de construcción (CML) a gran escala para el reconocimiento de actividades. El conjunto de datos CML desarrollado contiene 225 tipos de actividades y 146.480 muestras; entre ellos, 60 tipos de actividades y 61.275 muestras están altamente relacionadas con las actividades de construcción. Para verificar el conjunto de datos, se adoptaron cinco algoritmos de aprendizaje profundo ampliamente aplicados para examinar el conjunto de datos y se informó su usabilidad, calidad y suficiencia. La precisión media de los modelos sin ajuste puede alcanzar entre el 74,62% ​​y el 83,92%.

Mediciones)

movimiento de trabajadores de la construcción

Tipo(s) de tecnología

sistema de detección de movimiento portátil

Tipo(s) de factor

posición de las articulaciones del esqueleto

Característica de la muestra: organismo

trabajadores de la construcción

Característica de la muestra: entorno

sitio de construcción

Monitorear las actividades de los trabajadores es esencial para garantizar la seguridad y rastrear la productividad de los proyectos de construcción, ya que casi el 80% de las lesiones fatales y no fatales son causadas por comportamientos inseguros en el sitio1. Además, las actividades asociadas con posturas incómodas, movimientos repetitivos y esfuerzos enérgicos tienen resultados imperceptibles pero graves para la salud a largo plazo de los trabajadores de la construcción, como los trastornos musculoesqueléticos relacionados con el trabajo (WMSD)2,3. Los enfoques convencionales de gestión de la seguridad basados ​​en el comportamiento4 se basan en el autoinforme, la observación manual y la medición directa para identificar comportamientos inseguros5,6,7. Enfoques similares también son populares para la evaluación de la productividad laboral8. Debido a su alto costo de tiempo y esfuerzo9, los investigadores han propuesto soluciones automatizadas y computacionales con sensores de bajo costo y fáciles de usar. Las actividades humanas se pueden representar como secuencias de modelos de esqueletos 3D, que normalmente se pueden construir a partir de conjuntos de datos de captura de movimiento. Con el aprendizaje profundo y los métodos basados ​​en trayectorias10,11, los resultados de la detección, como videos RGB, videos de profundidad RGB (RGBD) y señales inerciales, se pueden traducir en posturas y actividades humanas12. Estos métodos se han implementado con éxito en diversas industrias, como la atención médica13, los deportes14, los juegos15 y la cocina16. Para la industria de la construcción, los investigadores también propusieron varios modelos para la clasificación de actividades basada en visión RGB17 y la detección de caídas basada en unidades de medida inerciales (IMU)18.

El reconocimiento de la actividad de construcción basado en la visión está disponible y es asequible. Los investigadores confían principalmente en cámaras RGB y RGBD. Por ejemplo, Yang et al.19 utilizaron vídeo RGB para clasificar 11 actividades de construcción comunes. Roberts et al.20 utilizaron 317 vídeos comentados para analizar las operaciones de los trabajadores de albañilería y yesería. Khosrowpour et al. propusieron un enfoque de máquina supervisada para predecir las actividades de los trabajadores con cámaras RGB-D y reportaron una precisión de reconocimiento del 76%21. Otra vía técnica popular es el uso de sistemas de detección portátiles, como sensores IMU18,22,23, teléfonos inteligentes24,25, relojes deportivos26,27 y sistemas de presión de plantillas portátiles28,29,30. Por ejemplo, Yang et al.18 desarrollaron un algoritmo de aprendizaje semisupervisado para detectar las caídas de trabajadores del hierro con sistemas IMU. Antwi-Afari et al.31 evaluaron tres tipos de redes neuronales recurrentes para el reconocimiento y clasificación automatizados de las posturas de trabajo incómodas de los trabajadores de la construcción utilizando sensores de plantillas portátiles.

Dada la importancia y utilidad de estos algoritmos de reconocimiento de actividad, los investigadores han desarrollado conjuntos de datos enormes y confiables para respaldar un mayor desarrollo teórico, como el conjunto de datos HDM05 Motion Capture (mocap)32 y el conjunto de datos Berkeley MHAD33, el conjunto de datos NTU + RGBD 12034 y el Conjunto de datos CAD6035. Sin embargo, la mayoría de estos conjuntos de datos fueron diseñados para el reconocimiento de actividades genéricas, pero no especialmente para actividades de construcción, lo que resultó en altos errores de reconocimiento e interpretaciones incorrectas. Esto se puede atribuir a dos razones: primero, la exposición a posturas incómodas. Las tareas de construcción implican actividades complicadas y dependen en gran medida de la operación manual. Las tareas físicamente exigentes hacen que la mayoría de los trabajadores de la construcción sufran trastornos musculoesqueléticos relacionados con el trabajo (WMSD)36 y lesiones ergonómicas a largo plazo. Estas lesiones y los WMSD a menudo se atribuyen a posturas laborales incómodas37. La postura incómoda se refiere a posturas corporales que se desvían significativamente de las posiciones normales y cómodas y que potencialmente pueden provocar trastornos musculares y traumatismos38. Las posturas incómodas en las actividades de construcción a menudo se asocian con exposición a la fuerza muscular a largo plazo y rotaciones de las articulaciones del cuerpo casi extremas debido a diversas tareas laborales, como cargar cargas, arrodillarse, doblarse, ponerse en cuclillas y girar. La segunda razón son las etiquetas de movimiento únicas. Las posiciones de las articulaciones esqueléticas de muchas actividades laborales relacionadas con la construcción en el contexto del entorno de la construcción son a menudo similares a operaciones genéricas de tareas completamente diferentes. Por ejemplo, la postura esquelética de saludar en la vida diaria es idéntica al movimiento de un trabajador de la construcción que pinta paneles de yeso. Por lo tanto, las etiquetas deben asignarse de manera adecuada y específica. Debido al costo y el tiempo que implica construir un nuevo conjunto de datos, los investigadores tienden a desarrollar conjuntos de datos genéricos para validar algoritmos genéricos, pero descuidan las características y patrones de datos únicos de una industria específica. Sin embargo, los conjuntos de datos profesionales y especialmente diseñados proporcionan mayor relevancia, precisión, eficiencia y confiabilidad para una implementación específica39. Para llenar este vacío, este estudio tiene como objetivo desarrollar una biblioteca de datos de movimiento que sea adecuada para el desarrollo del reconocimiento de actividades y la gestión de tareas en la industria de la construcción mediante la integración de un pequeño conjunto de datos de movimiento de construcción recopilado manualmente con conjuntos de datos públicos a gran escala, alineando todos los conjuntos de datos. como un conjunto de datos adecuado, unido y debidamente etiquetado.

Para desarrollar un conjunto de datos de movimiento de construcción, es necesario un experimento a gran escala para capturar las principales actividades de construcción. Sin embargo, dado que muchos equipos de investigación han desarrollado abundantes conjuntos de datos de movimiento genéricos, este estudio combina ambos conjuntos de datos existentes con el conjunto de datos del experimento en el laboratorio para compilar un conjunto de datos de movimiento de construcción integrado con sistemas de etiquetas diseñados específicamente. Hacerlo puede traducir mociones genéricas a actividades de construcción relevantes mediante selección y anotación. Este enfoque evita experimentos repetitivos de captura de movimiento, amplía el conjunto de datos de movimiento de la construcción y ahorra una cantidad significativa de tiempo y esfuerzo. Sin embargo, combinar conjuntos de datos públicos existentes y conjuntos de datos específicos de la construcción en un solo conjunto de datos integrado presenta cuatro desafíos principales, como se muestra en la Fig. 1. (a) Diferencia de equipo. El movimiento humano se puede capturar a través de dos corrientes de tecnologías: procesamiento de video basado en RGB/RGBD y detección portátil basada en IMU. La elección de la tecnología dará lugar a diferencias en el formato de los datos finales (como imágenes o señales inerciales) y en la tasa de muestreo de los datos. (b) Diferencia de cuadro. Diferentes personas pueden realizar las mismas actividades con diferentes duraciones. Además, debido a la variación en las tasas de muestreo, incluso la misma actividad y la misma duración pueden dar lugar a un número diferente de fotogramas. (c) Diferencia de coordenadas. Con diferentes configuraciones de equipos y sistemas de coordinación, la misma actividad puede representarse de manera diferente mediante sistemas de coordinación locales o globales con diferentes valores cuantitativos. (d) Diferencia de etiqueta. La etiqueta utilizada para la misma actividad puede ser diferente en diferentes conjuntos de datos; por ejemplo, "saltar" también puede etiquetarse como "salto" o "salto".

Inconsistencias en los conjuntos de datos MoCap.

Además de alinear todos los conjuntos de datos públicos en el mismo formato de datos con el mismo modelo de esqueleto, este estudio también realizó un experimento en el laboratorio para capturar las actividades predefinidas relacionadas con la construcción para una mayor anotación de datos. Las pautas para los procedimientos del estudio cumplieron con todas las regulaciones éticas relevantes y fueron aprobadas por el Comité de Ética de Sujetos Humanos de la Universidad de la Ciudad de Hong Kong. Se obtuvo el consentimiento informado de todos los participantes. Antes del experimento en el laboratorio, se predefinieron 60 tipos de actividades relacionadas con la construcción basándose en análisis ergonómicos. Los resultados capturados se utilizaron como secuencias de posturas estándar con otros marcos de actividades. Se calcularon las variaciones de los movimientos articulares de los modelos esqueléticos. Luego, las muestras de los conjuntos de datos públicos se compararán con actividades estandarizadas y se utilizará la etiqueta con la menor variación o diferencias para anotar la muestra. El experimento en el laboratorio utilizó el sistema de captura de movimiento Noitom Perception Neuron y 10 sujetos participaron en el proceso de recopilación de datos.

En resumen, este estudio desarrolló un flujo de trabajo formal para procesar el conjunto de datos del experimento en el laboratorio recopilado manualmente y los conjuntos de datos públicos (como se muestra en la Fig. 2). Para garantizar que el formato de los datos sea coherente, todas las imágenes, fotogramas de vídeo y señales en serie inerciales se convertirán en esqueletos corporales en 3D. Todos los datos del esqueleto se procesarán en cuatro pasos principales, incluida la extracción uniforme de datos, la alineación de la estructura del esqueleto, el remuestreo y la transformación de la coordinación. Luego, todos los datos del esqueleto alineado se anotarán manualmente en cuatro categorías de actividades y se les asignarán etiquetas. El conjunto de datos final de la Biblioteca de movimiento de construcción (CML) se verificará utilizando los datos de evaluación comparativa en el laboratorio y se probará con cinco algoritmos populares de aprendizaje profundo. La Tabla 1 resume los conjuntos de datos públicos de movimiento del esqueleto que se utilizaron en el estudio para el desarrollo del conjunto de datos de movimiento de la construcción. Algunos conjuntos de datos de movimiento público se centran en industrias específicas y tienen poca relevancia para este estudio, por lo que fueron excluidos del estudio. Por ejemplo, el Hollywood 3D Dataset40 fue diseñado para actividades escénicas.

El flujo de trabajo del desarrollo del conjunto de datos de movimiento de construcción.

Para superar los cuatro desafíos técnicos, este estudio desarrolló un protocolo de procesamiento para todos los conjuntos de datos. El protocolo consta de seis pasos principales: (1) Generación de esqueletos y extracción uniforme de datos. Este paso tiene como objetivo diseñar un modelo de esqueleto uniforme y limpiar los conjuntos de datos originales. (2) Alineación de la estructura esquelética. Este paso garantiza que todos los conjuntos de datos utilicen el mismo modelo de esqueleto y que todos los movimientos de las articulaciones estén alineados en la misma configuración. (3) Remuestreo. Este estudio tiene como objetivo garantizar que todas las muestras de datos sigan el mismo sistema de marca de tiempo y tengan el mismo número de fotogramas por unidad de tiempo. (4) Transformación de la Coordinación. Este paso garantiza que todas las muestras tengan el sistema de coordenadas local de muestra y que las mismas posturas tengan los mismos valores cuantitativos. (5) Segmentación de datos. Este paso garantiza que la actividad con la misma etiqueta tenga la misma longitud de cuadro, lo que es más fácil para su uso futuro. (6) Formato de datos del conjunto de datos CML. Todas las muestras se guardarán en el mismo formato de datos para facilitar su procesamiento. Los siguientes párrafos tienen una explicación más detallada de cada paso.

Para alinear todos los conjuntos de datos, los formatos de datos basados ​​en visión y en IMU se tradujeron como posturas de esqueleto 3D. El formulario de datos de una postura esquelética típica está en el formato Bio-Vision Hierarchy (BVH). El formato de datos BVH puede almacenar tanto la conectividad como los movimientos de las articulaciones en un solo archivo. Como formato de datos ampliamente utilizado, todos los archivos de movimiento principales se pueden extraer como archivos de movimiento BVH. Los conjuntos de datos existentes suelen almacenar la actividad como archivos separados. Sin embargo, muchos archivos tienen diferentes recintos, lo que da como resultado que muchos archivos etiquetados tengan más de una actividad y solo tengan una etiqueta aproximada. Por lo tanto, para que todos los archivos extraídos sean uniformes, todos los archivos de datos con múltiples actividades se dividieron manualmente en actividades cortas e independientes y se guardaron por separado con una sola etiqueta. Además, se eliminaron cuadros de movimiento irrelevantes para mayor claridad. Por ejemplo, el conjunto de datos CMU Mocap original tiene 2605 secuencias de actividades y, después de la extracción y limpieza de datos, el conjunto de datos procesado tiene 172 tipos de actividades y 2928 muestras. Otro problema es que muchos archivos de actividad tienen múltiples sujetos humanos y valores nulos. Las muestras de valores nulos son archivos de movimiento cuyo movimiento de las articulaciones del esqueleto está lleno de ceros o le falta parcialmente algún contenido. Por ejemplo, en el conjunto de datos UT-Kinect-Action3D, la actividad de "transporte" tiene una muestra llena de ceros. En el conjunto de datos NTU-RGB + D 120, las actividades de A1-A60 tienen 165 archivos llenos de ceros y las actividades de A61-A120 tienen 191 archivos llenos de ceros. Este estudio eliminó directamente tanto las muestras de valor nulo como las muestras con múltiples objetos humanos.

Los dispositivos de captura de movimiento predominantes tienen estructuras esqueléticas y configuraciones técnicas únicas. Como resultado, el mismo movimiento puede tener diferentes estructuras de datos en diferentes conjuntos de datos debido a los dispositivos de captura, como OpenNI (15 uniones), Microsoft Kinect V1 (20 uniones), Microsoft Kinect V12 (25 uniones), RGB Mocap (17 uniones) y Neurona de Percepción Noitom (29 + 2 articulaciones). La Figura 3 muestra estructuras articulares capturadas por cinco dispositivos típicos y el sistema simplificado de 15/20 articulaciones para la alineación del esqueleto. Este estudio desarrolló un sistema de 15 a 20 esqueletos, que puede acomodar y ser compatible con todos los demás modelos esqueléticos. El sistema proporciona dos estructuras de articulaciones y el modelo de 20 articulaciones tiene más articulaciones para cuantificar el movimiento con alta resolución. Los datos de movimiento de las mismas articulaciones del sistema desarrollado y de otros modelos de esqueleto seguirán siendo los mismos. La junta faltante se calculará con la interpolación de juntas vecinas. La interpolación no lineal utilizó el modelo de perceptrón multicapa (MLP) del paquete scikit-learn (el error de validación es 0,0961).

Modelos típicos de articulaciones del cuerpo esquelético y el sistema simplificado de articulaciones 15/20.

La velocidad de muestreo de los conjuntos de datos existentes oscila entre 15 y 480 fotogramas por segundo (fps). Esto da como resultado una alta inconsistencia en la lectura de las entradas adecuadas para el reconocimiento de postura. Por ejemplo, el conjunto de datos Berkeley MHAD tiene una frecuencia de muestreo de 480 fps, y el conjunto de datos UTKinect-Action3D y el conjunto de datos MSR Action3D tienen una frecuencia de muestreo de 15 fps.

Este estudio convierte todas las muestras a 30 fps, que es la frecuencia de muestreo de la mayoría de los dispositivos (como Kinect v1/v2 y Vicon). Para conjuntos de datos que tienen una frecuencia de muestreo superior a 30 Hz, los fotogramas redundantes se truncarán; para conjuntos de datos que tienen una frecuencia de muestreo inferior a 30 Hz, los datos de los fotogramas faltantes se completarán con los resultados promedio interpolados. Además, como los conjuntos de datos utilizaron diferentes unidades, como pulgadas, centímetros, milímetros y metros, todas las unidades de las muestras se convertirán a metros. Además, algunos conjuntos de datos tienen un valor de calibración del eje z para reflejar las diferencias en las alturas de los sujetos (como el conjunto de datos CMU Mocap que tiene una longitud de escala de 0,45 y el conjunto de datos SBU que tiene un escalador az de 7,8125). En este estudio, los valores z de todas las muestras se ajustarán según su escalador.

Los diferentes formatos de archivos no sólo dan lugar a distintos modelos de esqueleto, sino que también introducen inconsistencia en los sistemas de coordinación. La conversión de sistemas de coordinación necesita definir matrices de rotación adecuadas (\({R}_{x},{R}_{y},{R}_{z}\)) y matrices de traslación (T). Los archivos de movimiento basados ​​en esqueleto, como .ASF/AMC y .BVH, definen las señales de movimiento grabadas como un sistema local. Por lo tanto, para alinear los sistemas, cada articulación debe trasladarse al sistema global. Por lo general, todas las articulaciones se trasladarán al sistema en la articulación de la cadera mediante la multiplicación de las matrices de transformación de las articulaciones conectadas (Mi). Mi se puede calcular con una matriz de rotación y una matriz de traslación relevantes. La Figura 4 muestra dicho proceso de transformación para diferentes sistemas de coordinación. Como se muestra en la figura, las coordenadas en el sistema global (Vg) se pueden calcular con \({M}_{i}^{{\prime} }s\) y las coordenadas locales Vl. De manera similar, los diferentes dispositivos mocap también introducen varios sistemas de coordinación. Por ejemplo, Kinect define el origen del sistema de coordinación en el centro de su sensor de infrarrojos. X crece hacia la izquierda del sensor; Y crece hasta la inclinación del sensor; Z crece en la dirección hacia la que mira el sensor. Los valores de x, y y z pueden ser negativos o positivos y dependen de las ubicaciones relativas de los sujetos sensibles al sensor. La mayoría de los conjuntos de datos con tecnologías Kinect tienen directamente las posiciones de las articulaciones del esqueleto bajo el sistema de coordenadas del dispositivo. Al implementar el proceso de transformación vectorizada que se muestra en la Fig. 4, estos conjuntos de datos se pueden traducir al sistema de coordenadas en cuestión o al sistema de coordenadas global. Además, dependiendo de la definición de las orientaciones x, y y z, el sistema cartesiano puede tener diferentes configuraciones, como XYZ, YXZ o ZYX. Mediante la multiplicación de matrices de rotación adecuadas, todos los sistemas de coordinación se pueden alinear como configuraciones XYZ para facilitar el procesamiento de datos en el futuro.

Conversión de sistemas de coordinación.

Cada conjunto de datos tiene su separación única de actividades y una consecuencia obvia es que la longitud de las muestras es diferente, incluso en el mismo conjunto de datos. Muchas implementaciones cuantitativas requieren que los datos de entrada tengan la misma longitud o tamaño para facilitar su uso práctico. Por lo tanto, el conjunto de datos CML necesita una segmentación de datos adecuada. Después del remuestreo, este estudio utilizó una ventana deslizante para alinear y contar la longitud de todas las muestras en los conjuntos de datos. La longitud promedio de los fotogramas de todas las actividades relacionadas con la construcción se contó para el conjunto de datos del experimento en el laboratorio (alrededor de 92 a 96,9 fotogramas). Luego se eligió un número de cuadro estandarizado, como 100 y 120, para diferentes actividades. Sin embargo, las personas pueden realizar la misma actividad a una velocidad diferente. Por lo tanto, el número de cuadro estandarizado debe cubrir al menos el 80% de las posturas de actividad. Si la actividad termina antes, el resto de los fotogramas seguirán siendo los mismos que el último fotograma de movimiento. Siguiendo este principio, se seleccionó el número de cuadro adecuado para cada actividad y la segmentación de datos se realizó manualmente con la longitud de cuadro adecuada.

Para permitir una consulta de datos eficiente y un intercambio de datos más sencillo, este estudio optó por exportar el conjunto de datos CML como archivos de notación de objetos JavaScript (JSON). JSON es un formato de datos liviano al que se puede acceder directamente en línea y al que se puede almacenar y consultar con bases de datos NoSQL, como MongoDB. Se puede acceder e importar cómodamente con las principales herramientas computacionales y de programación y convertir a otros formatos de datos convencionales, como ASF/AMC, c3d, BVH, TXT y CSV.

La regla convencional para agrupar las actividades humanas se basa en su complejidad. Por ejemplo, Aggarwal y Ryoo categorizaron las actividades como gestos, acciones, interacciones y actividades grupales41. Los gestos son movimientos elementales de una parte del cuerpo de una persona, que etiquetan las actividades de una persona como "girar dos brazos", "levantar una pierna", etc. Las actividades son movimientos continuos que se componen de múltiples posturas, como "atrapar", "tirar, ” y “llevar”. Las interacciones son actividades que involucran a una persona y otra persona o una persona y un objeto. Los comportamientos inseguros son la causa principal (más del 80%) de los accidentes42 y las posturas esqueléticas cuantitativas pueden utilizarse para el reconocimiento de actividades43,44. Otro factor de salud profesional, que está estrechamente relacionado con los WMSD, es la postura incómoda durante mucho tiempo durante la ejecución de tareas45. Para las actividades laborales regulares, los investigadores destacaron las actividades de los trabajadores como “modo productivo”, “modo semiproductivo” y “modo no productivo”46,47. Por lo tanto, todas las actividades de nuestro conjunto de datos se dividen en dos grupos más amplios: actividades relacionadas con la construcción (actividades de producción, actividades inseguras y actividades incómodas) y actividades no relacionadas con la construcción (actividades comunes y otras actividades). Las actividades de producción están directamente relacionadas con las tareas de construcción y actividades singulares relacionadas con la industria. Podrían utilizarse para identificar la situación laboral y la eficiencia de los trabajadores. Las actividades inseguras son actividades que exponen a los trabajadores a altos riesgos y potencialmente causan accidentes. Las actividades incómodas pueden no estar directamente relacionadas con accidentes, pero sí están asociadas con trastornos musculoesqueléticos relacionados con el trabajo (WMSD) a largo plazo, que son perjudiciales para la salud de los trabajadores a largo plazo. Las actividades comunes son actividades generales que son similares a las actividades de la vida diaria, como "sentarse", "pararse" y "caminar". Para anotar las muestras en el conjunto de datos, este estudio capturó los tres tipos de actividades de construcción predefinidas. Las etiquetas son actividades de construcción típicas y si la etiqueta pertenece a actividades inseguras o incómodas se determinó mediante teorías y modelos ergonómicos existentes, por ejemplo, la evaluación rápida de todo el cuerpo (REBA)48, la evaluación rápida de las extremidades superiores (RULA)49, Ovako Working Sistema de evaluación de la postura (OWAS)50, Cuadro de evaluación del manejo manual (MAC)51, Postura, actividad, herramientas y manejo (PATH)52, Regla de ergonomía del estado de Washington (WAC 296-62-051)53.

Muchas investigaciones existentes han identificado las principales actividades de producción e introducido el concepto de utilizarlas para definir y medir la productividad en proyectos de construcción54. Además, las actividades de producción pueden utilizarse para evaluar el estado laboral de los trabajadores55. Sin embargo, algunas actividades tienen secuencias posturales similares a las de las actividades no productivas. Por ejemplo, “moverse con las manos vacías” y “transportar barras de refuerzo” pueden tener movimientos esqueléticos similares. Por lo tanto, para garantizar un etiquetado adecuado, este estudio solo etiquetó actividades como actividades de producción cuando tenían una clara relevancia para los materiales, herramientas o equipos de construcción, como "soldadura", "perforación", "clavado", "atornillado" y "aserrado". .”

Muchos estudios han informado que entre el 80% y el 90% de los accidentes están asociados con actividades inseguras de los trabajadores56,57. La Administración de Salud y Seguridad Ocupacional (OSHA) definió las actividades inseguras más críticas basándose en las estadísticas de accidentes reportados58. Ampliando las estadísticas e informes de OSHA, muchos investigadores han definido claramente los comportamientos inseguros típicos. Por ejemplo, Han y Lee59 derivaron seis categorías de actividades inseguras para el equipo de construcción, incluidas caídas, transporte, contacto con objetos y equipos, exposición a sustancias/ambientes nocivos, agresiones y actos violentos, incendios y explosiones. Hinze et al.60 atribuyeron los accidentes a 20 posibles actividades inseguras, incluidas caídas desde alturas, caídas desde el nivel del suelo, electrocución (líneas eléctricas), electrocución (energía de edificios), electrocución (cableado de instalaciones defectuoso), electrocución (herramientas/cableado de construcción defectuosos). , electrocución (otro), golpe por equipo, golpe por material que cae, golpe por material (que no sea material que cae), atrapado en/entre equipos, atrapado en/entre materiales, derrumbe, explosión, incendio, explosión/incendio, asfixia , ahogamiento, causas naturales y otros. Choudhry et al.61 informaron que la falta de cualquiera de los cinco recursos de construcción puede resultar en actividades inseguras para el equipo de construcción. Estos recursos incluyen equipos de protección personal, limpieza, acceso a alturas, plantas y equipos y andamios. Con base en estos estudios, este estudio etiqueta el comportamiento inseguro cuando es relevante para las siguientes actividades o eventos: (1) caídas desde diferentes niveles o escaleras, incluidos resbalones, tropezones, subir/saltar escaleras/escaleras y alcanzar; (2) quitarse el equipo de protección personal, incluidos cascos, guantes, chalecos, zapatos y gafas; (3) estar cerca de incendios y explosiones, incluido fumar; (4) estar expuesto a agresiones y actos violentos, incluidos golpes, patadas y palizas. Finalmente, se identificaron 36 actividades inseguras y se utilizaron para anotar el conjunto de datos CML final.

Los trastornos musculoesqueléticos representan el 33% de todas las enfermedades profesionales recientemente notificadas y el 77% de las de los trabajadores de la construcción, lo que los convierte en la principal causa de enfermedades relacionadas con el trabajo62. Como causa principal de estos trastornos, este estudio enumera una categoría separada de actividades incómodas. Basándose en el análisis ergonómico, muchos investigadores han propuesto definiciones cuantitativas de las actividades incómodas de los trabajadores de la construcción. Por ejemplo, Jaffar et al.63 propusieron siete posturas y actividades genéricas incómodas, que incluyen inclinarse hacia los lados, agacharse, estirarse por encima de la cabeza, abrir los codos hacia los lados, doblar la muñeca, doblar el cuello hacia abajo y torcer parte del cuerpo. James et al.64 sugirieron posturas que se desvían de la posición neutral, como agarrar, arrodillarse, levantar, inclinarse, trabajar por encima de la cabeza, girar, usar equipos vibratorios, ponerse en cuclillas y estirarse demasiado. Con base en estos estudios, este estudio desarrolló 11 etiquetas de actividades incómodas.

Además de las actividades relacionadas con la construcción mencionadas anteriormente, las actividades genéricas, como caminar, sentarse y pararse, se clasifican como actividades comunes. Estas actividades son complementarias o forman parte de actividades más complicadas.

Además de los cuatro tipos principales de actividades relacionadas con la construcción, las actividades irrelevantes se etiquetan como "otras", como "pasear por la luna" o "aplicar crema en la cara".

Debido a los distintos diseños de experimentos, las etiquetas descriptivas para las mismas actividades pueden ser diferentes. Por ejemplo, la actividad de trotar en el conjunto de datos MSRAction3D se etiquetó como "trotar", pero en el conjunto de datos UTD-MHAD3, es "trotar en el lugar". Las etiquetas "acercándose" y "saliendo" en el conjunto de datos de interacción Kinect de SBU tienen una dirección para caminar debido al diseño del experimento. Por lo tanto, para garantizar la coherencia de todas las etiquetas, la anotación manual del conjunto de datos CML sigue tres reglas.

Sencillo y representativo. El nombre de la etiqueta debe ser simple, breve y representativo de la naturaleza de una actividad. Por ejemplo, “trotar en el lugar” y “trotar lentamente” se etiquetarán como “trotar”; “caminar hacia adelante” y “partir” se etiquetarán como “caminar”.

No direccional. A medida que los sistemas de coordinación de todos los conjuntos de datos se traducen a las coordenadas del sujeto, las etiquetas direccionales se fusionarán en la misma etiqueta. Por ejemplo, "caminar hacia el este" y "caminar hacia adelante" se etiquetarán como "caminar".

Claro y conservador. Para evitar posibles errores, las muestras de datos de actividad ambiguos no se etiquetarán y se eliminarán.

Como se muestra en la Tabla 2, todas las etiquetas son actividades prediseñadas basadas en la revisión de la literatura. Todos los conjuntos de datos son accesibles públicamente y utilizables con la cita adecuada. Para las licencias que figuran como “--” en la tabla, el propietario del conjunto de datos no especifica el tipo de licencias. El experimento en el laboratorio recopiló los marcos posturales estándar para todas las actividades relacionadas con la construcción. Las muestras del conjunto de datos públicos se compararon con todas las actividades estándar y se anotaron como la que tiene la mayor similitud (las diferencias más bajas en los movimientos de las articulaciones del esqueleto). Cuando dos actividades son similares entre sí, la “etiqueta” en las categorías de actividades relacionadas con la construcción y actividades inseguras tiene mayor prioridad. La Tabla 3 muestra una muestra de etiquetas fusionadas.

El conjunto de datos final de CML se almacenó en el repositorio de FigShare65. El doi de los conjuntos de datos públicos relevantes se puede encontrar en la Tabla 1 y sus URL se pueden encontrar en la Tabla 2. Las Tablas 4, 5 y 6 enumeran las estadísticas de datos y las estructuras de datos del conjunto de datos.

La Tabla 4 resume las estadísticas del conjunto de datos CML final. En total, se extrajeron 146.480 muestras de los conjuntos de datos públicos originales y de los conjuntos de datos de experimentos en el laboratorio. Originalmente, había 225 clases de actividades etiquetadas para todas las actividades. Después de la agregación, sólo 73 etiquetas se consideraron relacionadas con actividades de construcción y sólo 61.275 muestras eran adecuadas para el desarrollo futuro. El tamaño de todos los archivos JSON en el conjunto de datos CML era de más de 10 gigabytes. La Figura 5 muestra el diagrama de caja de los números de fotograma de todas las actividades. El número promedio de cuadros para las actividades relacionadas con la construcción y todas las actividades fue 92 y 96,9. Debido a los requisitos de licencia de conjuntos de datos públicos, este estudio solo compartió la muestra de datos procesados ​​de conjuntos de datos que permiten la redistribución y el intercambio. En resumen, el conjunto de datos compartido tiene 6.131 muestras (entre ellas, 4.333 muestras son actividades relacionadas con la construcción). Dado que el resto de los conjuntos de datos están disponibles públicamente, este estudio proporciona un repositorio de código que permite a los usuarios construir los conjuntos de datos completos con un analizador bvh y el convertidor de esqueleto.

Estadísticas del número de cuadros de muestras en cada categoría de actividad.

El formato de datos CML para almacenamiento es JSON para facilitar la importación, evaluación y uso compartido. El archivo se puede dividir en dos partes. La primera parte de "metadatos" solo almacena la información relacionada con el resumen de datos, la fuente del conjunto de datos original y la estructura conjunta e incluye todas las claves excepto "tdata" y "bdata". La segunda parte de "datos formales" solo incluye "tdata" (un objeto encierra fotogramas de todas las articulaciones a lo largo del tiempo) y "bdata" (un objeto incluye datos de series temporales de cada articulación). Todos los "datos formales" se almacenan a una velocidad de cuadro/frecuencia de muestreo estandarizada de 30 Hz. La estructura de datos detallada se enumera en la Tabla 5.

La Tabla 6 muestra todas las etiquetas anotadas en el conjunto de datos CML. Las primeras cuatro categorías son actividades relacionadas con la construcción y la última categoría son actividades irrelevantes. Para mantener la integridad del conjunto de datos, las "otras actividades" se mantienen en el conjunto de datos CML, pero para desarrollos futuros, los investigadores solo pueden utilizar las primeras cuatro categorías de actividades.

Esta sección tiene como objetivo validar el conjunto de datos desarrollado y garantizar su usabilidad y confiabilidad en la práctica. Este estudio seleccionó cinco modelos de aprendizaje profundo ampliamente aceptados para examinar el rendimiento del conjunto de datos CML desarrollado. Al hacerlo, puede demostrar cómo los conjuntos de datos unificados se pueden utilizar fácilmente como entradas estandarizadas para redes complejas. Además, los resultados del entrenamiento y el reconocimiento son comparables a otros conjuntos de datos y se pueden encontrar ajustados por otros modelos previamente entrenados. Además, los resultados de la validación pueden mostrar claramente la compensación entre el costo computacional y la precisión del reconocimiento del uso del conjunto de datos CML.

Los algoritmos seleccionados incluyen (1) memoria a corto plazo (LSTM), (2) redes LSTM bidireccionales66, (3) LeNet-567, (4) AlexNet68 y (5) ResNet-5069. LSTM es la red neuronal recurrente más utilizada que modela las relaciones temporales y contextuales de los datos de entrada mediante la implementación de una puerta de olvido adicional y una celda de memoria interna. Las redes LSTM bidireccionales amplían el modelo LSTM al introducir relaciones bidireccionales entre muestras. En este estudio, la red LSTM bidireccional está compuesta por dos capas con 90 neuronas y una tasa de abandono de 0,5, seguidas de dos capas completamente conectadas con la función de activación ReLU70. LeNet-5 es una red neuronal convolucional (CNN) clásica, pero incorpora relaciones espaciales entre datos de alta dimensión. AlexNet amplía LeNet-5 y muestra mayores precisiones en conjuntos de datos de imágenes y videos a gran escala. ResNet-50 es una red residual y tiene una capacidad de mapeo de identidad adicional. Las estructuras de red detalladas y los parámetros de los cinco algoritmos de prueba se resumen en la Tabla 7. Los tamaños de entrada son diferentes para los sistemas de 15 y 20 juntas. Por ejemplo, para AlexNet, los tamaños son 3 por 100 por 90 y 3 por 100 por 120 para los sistemas de 15 y 20 articulaciones, respectivamente.

Debido a la complejidad de las actividades y las diferencias individuales entre los sujetos del experimento, la longitud de la secuencia T de cada muestra de actividad puede diferir. Este estudio utilizó la estrategia de muestreo disperso para unificar la longitud de la secuencia T para diferentes longitudes completas, asegurando que todas las muestras puedan introducirse en redes con las mismas dimensiones. Para las redes basadas en CNN, el esqueleto del cuerpo es \({x}_{t}\in {R}^{3\times N}\), donde N representa el número de articulaciones y 3 es la dimensión de las coordenadas. En cada paso de tiempo t ∈ T, t es el índice de fotogramas. Por lo tanto, la entrada para las redes basadas en CNN son las secuencias de esqueleto \(X\in {R}^{3\times N\times T}\), y para las redes basadas en LSTM, el tamaño de entrada es \(X\in {R}^{3N\veces T}\).

El conjunto de datos se probó con diferentes números de iteraciones y proporción/tamaño del conjunto de datos. La prueba de iteración se diseñó para examinar la eficiencia del uso del conjunto de datos CML para lograr un modelo suficientemente preciso. La prueba de diferentes tamaños de muestra tiene como objetivo examinar si hay suficiente cantidad de datos y un tamaño de datos eficiente para alcanzar una precisión aceptable. Los tamaños de muestra examinados se enumeran en la Tabla 8.

Todos los algoritmos fueron programados en lenguaje Python con el paquete Pytorch. La computadora de escritorio de prueba se configuró con una CPU Intel i7-11700 @ 2,50 GHz (8 núcleos, 16 subprocesos) y una GPU GeForce GTX 3060Ti. Según la estrategia de muestreo escaso, cada lote de entrenamiento tenía entre 256 y 1024 secuencias y la época de entrenamiento total fue de 10 000. La tasa de aprendizaje se estableció en 0,00001 y se adaptó el algoritmo de estimación de momento adaptativo (ADAM)71 con una tasa de caída de 0,001 para optimizar la pérdida de entropía cruzada.

La Figura 6 y la Tabla 9 muestran el rendimiento de la precisión del desarrollo de cinco modelos de aprendizaje profundo a lo largo de épocas. La mayoría de los algoritmos convierten en 1000 épocas. La ejecución final de 10.000 épocas sólo aumentó ligeramente la precisión del reconocimiento. Cuando el número de época es superior a 4000, la pérdida comienza a aumentar y la precisión del reconocimiento fluctúa. Por lo tanto, el conjunto de datos CML desarrollado es capaz de generar modelos de aprendizaje aceptables y utilizables rápidamente en 1000 ejecuciones de época. El tiempo medio de formación del modelo es de menos de una hora.

Precisiones y pérdidas de reconocimiento de diferentes modelos de aprendizaje profundo a lo largo de las épocas.

La Figura 7 muestra las precisiones y pérdidas de reconocimiento con diferentes tamaños de muestra. Las precisiones y pérdidas se promediaron a partir de múltiples pruebas de entrenamiento barajadas. El conjunto de datos de entrenamiento utilizó solo una proporción de todo el conjunto de datos de CML, como se muestra en la Tabla 8. Las muestras de prueba eran muestras no utilizadas, por lo que las muestras de entrenamiento más pequeñas tenían muestras de prueba más grandes. El objetivo de esta prueba era garantizar la suficiencia de los datos para el reconocimiento de la actividad. Debido al tamaño grande y cambiante de la muestra de prueba, la pérdida de un modelo indica la suficiencia de los datos cuando el tamaño de la muestra era relativamente pequeño. Como puede verse, la pérdida converge alrededor de 25.000 muestras, lo que sugiere que el conjunto de datos CML desarrollado es suficiente para entrenar un modelo confiable de reconocimiento de actividad.

Precisiones y pérdidas de reconocimiento de diferentes modelos de aprendizaje profundo con diferentes tamaños de muestra.

Los métodos convencionales de reconocimiento de actividades clasifican las actividades de construcción en algunos tipos. Por ejemplo, Gong et al.17 utilizaron imágenes caracterizadas para clasificar la actividad de construcción en cinco categorías: viajar, transportar, agacharse, alinear y clavar. Escorcia et al.72 utilizaron datos de color y profundidad representados por una bolsa de poses del sensor Kinect para reconocer cinco tipos de actividades de construcción de paneles de yeso. Yang et al.19 propusieron un método de representación de trayectorias densas para reconocer 11 actividades de construcción comunes a partir de videos. Recientemente, Akhavian y Behzadan24 compararon varios algoritmos de clasificación e informaron que los modelos de redes neuronales proporcionan mayor precisión y permiten reconocer más tipos de actividades. Sin embargo, los modelos de redes neuronales, especialmente los modelos de aprendizaje profundo, dependen en gran medida de conjuntos de datos que tienen una gran cantidad de datos y etiquetas completas. El conjunto de datos CML desarrollado por este estudio no solo compuso un conjunto de datos con 60 etiquetas de actividades relacionadas con la construcción, sino que también construyó un conjunto de datos estandarizado a gran escala basado en conjuntos de datos públicos con más de 100 actividades no relacionadas con la construcción. Este enriquecimiento en la fuente de datos puede mejorar en gran medida el rendimiento de los modelos de reconocimiento de actividades y puede ampliarse a otros dominios de uso. En el caso de la validación técnica, la precisión promedio de reconocimiento de acciones de los cinco algoritmos obtuvo una precisión del 74,62 al 83,92%. Dada la gran cantidad de etiquetas diferentes, el conjunto de datos de CML puede hacer una contribución significativa a la industria.

Los algoritmos precisos de reconocimiento de movimiento dependen de conjuntos de datos amplios y confiables. Aunque el reconocimiento de la actividad es vital para gestionar las tareas de construcción y evitar lesiones, todavía falta un conjunto de datos diseñado específicamente para la industria de la construcción. Al mismo tiempo, los modelos modernos de aprendizaje automático tienen altos requisitos en cuanto a la calidad y cantidad de conjuntos de datos; accesible y liviano es la premisa para implementar la inteligencia artificial en una industria específica. El conjunto de datos CML se desarrolló para cumplir los propósitos anteriores y proporcionar una infraestructura de datos para el desarrollo de modelos y herramientas sofisticados. Todos los datos se alinearon y limpiaron adecuadamente para su uso inmediato y se almacenaron en el formato más compatible. Todas las etiquetas relevantes se han validado y anotado manualmente para garantizar su corrección. Las pruebas de validación sugieren que el conjunto de datos CML desarrollado es lo suficientemente grande y rico para entrenar modelos de aprendizaje ágiles y precisos. También es lo suficientemente versátil como para implementarse en sistemas de captura de movimiento basados ​​en visión y en IMU con diferentes dispositivos y equipos.

El conjunto de datos CML desarrollado se puede utilizar en el desarrollo de modelos y conjuntos de herramientas de evaluación de seguridad y productividad. Al reconocer las actividades de producción, se puede evaluar la carga de tareas y sus demandas físicas y las capacidades humanas de los trabajadores. Esto se puede utilizar en el cálculo de la productividad y en la organización de cronogramas de construcción. Dado el reconocimiento de actividades inseguras e incómodas, las plataformas de gestión de proyectos pueden proporcionar alertas tempranas y programas de capacitación adecuados a la fuerza laboral de la construcción. Además, la intensidad de las actividades incómodas se puede utilizar para evaluar el daño crónico a largo plazo a los trabajadores que potencialmente sufren de WMSD. Además, el reconocimiento de actividades se puede ampliar para coordinar la colaboración entre humanos y robots en el futuro. Por lo tanto, el conjunto de datos CML desempeña un papel esencial en el mantenimiento de estas aplicaciones y el desarrollo de la industria de la construcción.

El conjunto de datos CML combinó conjuntos de datos mocap basados ​​en visión y basados ​​en IMU para garantizar su generalidad y versatilidad. Sin embargo, las articulaciones representadas por ambos sistemas no están perfectamente alineadas; por ejemplo, los sistemas basados ​​en la visión tienden a predecir las articulaciones del esqueleto como el centro geométrico de las partes del cuerpo, pero los sistemas basados ​​en IMU registraron los movimientos de las articulaciones en el punto donde se colocaron los sensores. Esto da como resultado una ligera inconsistencia en las posturas. Además, las actividades de construcción dependen en gran medida de las herramientas, lo que puede dar lugar a diferentes actividades pero con los mismos movimientos esqueléticos. Por lo tanto, las etiquetas de movimiento anotadas en este estudio son genéricas e imprecisas. El reconocimiento de actividad de alta resolución requiere entradas de otras fuentes de detección.

El conjunto de datos CML tiene 60 etiquetas predefinidas para actividades relacionadas con la construcción, pero en la práctica hay muchos más tipos diferentes de actividades. Por lo tanto, las 60 etiquetas están diseñadas para ser genéricas y abarcar actividades similares. Dada la complejidad y variedad de las tareas de construcción y la organización de los procesos para diferenciar aún más las actividades más profesionales, es necesaria información adicional (como herramientas y equipos utilizados por los trabajadores, entorno de trabajo, contexto del sitio, etc.).

Este estudio utilizó Mathwork Matlab 2020a para analizar y exportar los archivos ASF/AMC y BVH. El código fuente abierto utilizado para analizar estos archivos se puede obtener en https://github.com/lawrennd/mocap.

Este estudio utilizó Python 3.7.6 y amplió un paquete de conversión BVH de 17 articulaciones, video-to-pose3D (https://github.com/HW140701/VideoTo3dPoseAndBvh), para generar archivos BVH. El paquete recientemente desarrollado puede transformar archivos JSON de modelos de 15 o 20 articulaciones en archivos BVH. Se puede acceder al código desarrollado con la siguiente URL: https://github.com/YUANYUAN2222/GIT_json_to_BVH. Mientras tanto, el código que podría usarse para volver a etiquetar y procesar diferentes conjuntos de datos (es decir, remuestreo y alineación de la estructura esquelética) se hace público en GitHub (https://github.com/YUANYUAN2222/Integrated-public-3D-skeleton-form-CML -biblioteca), que permiten a todos los lectores y usuarios potenciales procesar el conjunto de datos de origen por sí mismos.

Li, H., Lu, M., Hsu, S.-C., Gray, M. y Huang, T. Gestión proactiva de la seguridad basada en el comportamiento para mejorar la seguridad en la construcción. Seguro. Ciencia. 75, 107-117 (2015).

Artículo de Google Scholar

Seo, J., Moon, M. & Lee, S. Simulación de operaciones de construcción que refleja la fatiga muscular de los trabajadores. en Computación en Ingeniería Civil 2015 515–522 (Sociedad Estadounidense de Ingenieros Civiles, 2015).

Wang, D., Dai, F. y Ning, X. Evaluación de riesgos de los trastornos musculoesqueléticos relacionados con el trabajo en la construcción: revisión de los últimos avances. J. Constr. Ing. Gestionar. 141, 04015008 (2015).

Artículo de Google Scholar

Jiang, Z., Lin, Z. & Davis, LS Un marco unificado basado en árboles para la localización, el reconocimiento y la segmentación de acciones conjuntas. Computadora. Vis. Comprensión de la imagen. 117, 1345-1355 (2013).

Artículo de Google Scholar

Spielholz, P., Silverstein, B., Morgan, M., Checkoway, H. y Kaufman, J. Comparación de métodos de autoinforme, observación por vídeo y medición directa de los factores de riesgo físico del trastorno musculoesquelético de las extremidades superiores. Ergonomía 44, 588–613 (2001).

Artículo CAS PubMed Google Scholar

Choudhry, RM Seguridad basada en el comportamiento en obras de construcción: un estudio de caso. Ácido. Anal. Anterior. 70, 14-23 (2014).

Artículo PubMed Google Scholar

Zhang, M. & Fang, D. Una estrategia continua de seguridad basada en el comportamiento para una mejora persistente de la seguridad en la industria de la construcción. Automático. Construcción 34, 101-107 (2013).

Artículo CAS Google Scholar

Dozzi, SP & AbouRizk, SM Productividad en la construcción. (Instituto de Investigación en Construcción, Consejo Nacional de Investigación de Ottawa, 1993).

Guo, SY, Ding, LY, Luo, HB & Jiang, XY Una plataforma basada en Big Data sobre el comportamiento de los trabajadores: observaciones desde el campo. Ácido. Anal. Anterior. 93, 299–309 (2016).

Artículo CAS PubMed Google Scholar

Li, C., Hou, Y., Wang, P. y Li, W. Reconocimiento de acciones basado en mapas de distancia conjuntos con redes neuronales convolucionales. Proceso de señal IEEE. Letón. 24, 624–628 (2017).

Artículo de Google Scholar

Wang, P., Li, Z., Hou, Y. y Li, W. Reconocimiento de acciones basado en mapas de trayectoria conjunta utilizando redes neuronales convolucionales. en Actas de la 24ª conferencia internacional ACM sobre multimedia 102–106 (ACM, 2016).

Yang, X. & Tian, ​​Y. Reconocimiento eficaz de acciones en 3D mediante EigenJoints. J. Vis. Comunitario. Representación de imagen. 25, 2-11 (2014).

Artículo de Google Scholar

Hbali, Y., Hbali, S., Ballihi, L. y Sadgal, M. Reconocimiento de actividad humana basado en esqueletos para sistemas de monitorización de personas mayores. Computación IET. Vis. 12, 16-26 (2018).

Artículo de Google Scholar

Szczęsna, A., Błaszczyszyn, M. & Pawlyta, M. Conjunto de datos de captura de movimiento óptico de técnicas seleccionadas en atletas de kárate Kyokushin principiantes y avanzados. Ciencia. Datos 8, 13 (2021).

Artículo PubMed PubMed Central Google Scholar

Bloom, V., Makris, D. & Argyriou, V. G3D: un conjunto de datos de acción de juego y un marco de evaluación de reconocimiento de acción en tiempo real. en 2012, la Conferencia de la IEEE Computer Society sobre visión por computadora y talleres de reconocimiento de patrones 7 a 12 (IEEE, 2012).

Roda-Sales, A., Vergara, M., Sancho-Bru, JL, Gracia-Ibáñez, V. & Jarque-Bou, NJ Datos cinemáticos de la mano humana durante las tareas de alimentación y cocina. Ciencia. Datos 6, 167 (2019).

Artículo PubMed PubMed Central Google Scholar

Gong, J., Caldas, CH & Gordon, C. Aprendizaje y clasificación de acciones de trabajadores y equipos de construcción utilizando modelos de red bayesiana y palabras características de bolsa de video. Adv. Ing. Informática 25, 771–782 (2011).

Artículo de Google Scholar

Yang, K., Ahn, CR, Vuran, MC y Aria, SS Detección de caídas semisupervisadas para herreros con una unidad de medición inercial portátil. Automático. Construcción 68, 194-202 (2016).

Artículo de Google Scholar

Yang, J., Shi, Z. y Wu, Z. Reconocimiento de acciones basado en la visión de trabajadores de la construcción que utilizan trayectorias densas. Adv. Ing. Informática 30, 327–336 (2016).

Artículo de Google Scholar

Roberts, D., Torres Calderón, W., Tang, S. y Golparvar-Fard, M. Análisis de la actividad de los trabajadores de la construcción basado en la visión informado por la postura corporal. J. Computación. Civilización. Ing. 34, 04020017 (2020).

Artículo de Google Scholar

Khosrowpour, A., Niebles, JC y Golparvar-Fard, M. Evaluación de la cara de trabajo basada en la visión utilizando imágenes de profundidad para el análisis de la actividad de las operaciones de construcción interior. Automático. Construcción 48, 74–87 (2014).

Artículo de Google Scholar

Bangaru, SS, Wang, C., Busam, SA y Aghazadeh, F. Reconocimiento automatizado de la actividad del constructor de andamios basado en ANN a través de sensores EMG e IMU portátiles. Automático. Construcción 126, 103653 (2021).

Artículo de Google Scholar

Chen, J., Qiu, J. y Ahn, C. Reconocimiento de posturas incómodas de los trabajadores de la construcción mediante descomposición supervisada del tensor de movimiento. Automático. Construcción 77, 67–81 (2017).

Artículo de Google Scholar

Akhavian, R. & Behzadan, AH Reconocimiento y clasificación de la actividad de los trabajadores de la construcción mediante teléfonos inteligentes. Automático. Construcción 71, 198-209 (2016).

Artículo de Google Scholar

Fang, Y.-C. y Dzeng, R.-J. Una detección de presagios de caídas para trabajadores de la construcción basada en teléfonos inteligentes. Procedia Ing. 85, 147-156 (2014).

Artículo de Google Scholar

Ryu, J., Seo, J., Jebelli, H. & Lee, S. Reconocimiento de acciones automatizado mediante un rastreador de actividad tipo pulsera integrado con acelerómetro. J. Constr. Ing. Gestionar. 145, 04018114 (2019).

Artículo de Google Scholar

Ryu, J., Seo, J., Liu, M., Lee, S. & Haas, CT Reconocimiento de acciones mediante un rastreador de actividad tipo pulsera: estudio de caso de trabajos de albañilería. en el Congreso de Investigación de la Construcción 2016 790–799 (Sociedad Estadounidense de Ingenieros Civiles, 2016).

Antwi-Afari, MF et al. Redes basadas en aprendizaje profundo para el reconocimiento y clasificación automatizados de posturas de trabajo incómodas en la construcción utilizando datos de sensores de plantillas portátiles. Automático. Construcción 136, 104181 (2022).

Artículo de Google Scholar

Antwi-Afari, MF, Li, H., Yu, Y. & Kong, L. Sistema de presión de plantilla portátil para la detección y clasificación automatizadas de posturas de trabajo incómodas en trabajadores de la construcción. Automático. Construcción 96, 433–441 (2018).

Artículo de Google Scholar

Antwi-Afari, MF et al. Cuantificar los patrones de marcha de los trabajadores para identificar riesgos de seguridad en la construcción utilizando un sistema de presión de plantilla portátil. Seguro. Ciencia. 129, 104855 (2020).

Artículo de Google Scholar

Antwi-Afari, MF et al. Redes basadas en aprendizaje profundo para el reconocimiento y clasificación automatizados de posturas de trabajo incómodas en la construcción utilizando datos de sensores de plantillas portátiles. Automático. Construcción 136, 104181 (2022).

Artículo de Google Scholar

Müller, M. et al. Documentación base de datos mocap HDM05. http://resources.mpi-inf.mpg.de/HDM05/ (2007).

Ofli, F., Chaudhry, R., Kurillo, G., Vidal, R. & Bajcsy, R. Berkeley MHAD: una base de datos integral multimodal de acción humana. https://tele-immersion.citris-uc.org/berkeley_mhad (2013).

Shahroudy, A., Liu, J., Ng, T.-T. & Wang, G. NTU RGB+D: un conjunto de datos a gran escala para análisis de actividad humana en 3D. https://rose1.ntu.edu.sg/dataset/actionRecognition/ (2016).

Sung, J., Ponce, C., Selman, B. y Saxena, A. Detección de actividad humana a partir de imágenes RGBD. http://pr.cs.cornell.edu/humanactivities/data.php (2011).

Keyserling, WM, Brouwer, M. & Silverstein, BA La eficacia de un programa conjunto de gestión laboral para controlar posturas incómodas del tronco, el cuello y los hombros: resultados de un estudio de campo. En t. J. Ind. Ergon. 11, 51–65 (1993).

Artículo de Google Scholar

Enciclopedia internacional de ergonomía y factores humanos: juego de 3 volúmenes. (Prensa CRC, 2006).

Karwowski, W. Enciclopedia internacional de ergonomía y factores humanos, volumen 3. (CRC Press, 2001).

Afsar, P., Cortez, P. & Santos, H. Reconocimiento automático de acciones humanas a partir de vídeo utilizando el modelo oculto de Markov. en 2015, 18.a Conferencia Internacional del IEEE sobre Ingeniería y Ciencias Computacionales 105–109 (IEEE, 2015).

Hadfield, S. & Bowden, R. Hollywood 3D: reconocimiento de acciones en escenas naturales 3D. en la Conferencia IEEE de 2013 sobre visión por computadora y reconocimiento de patrones 3398–3405 (IEEE, 2013).

Aggarwal, JK y Ryoo, MS Análisis de la actividad humana: una revisión. Computación ACM. Sobrevivir. 43, 1–43 (2011).

Artículo de Google Scholar

Han, S., Lee, S. & Peña-Mora, F. Detección basada en la visión de acciones inseguras de un trabajador de la construcción: estudio de caso de subir escaleras. J. Computación. Civilización. Ing. 27, 635–644 (2013).

Artículo de Google Scholar

Guo, H., Yu, Y., Ding, Q. y Skitmore, M. Enfoque parametrizado basado en imágenes y esqueletos para la identificación en tiempo real de los comportamientos inseguros de los trabajadores de la construcción. J. Constr. Ing. Gestionar. 144 (2018).

Yu, Y., Guo, H., Ding, Q., Li, H. y Skitmore, M. Un estudio experimental de identificación en tiempo real de los comportamientos inseguros de los trabajadores de la construcción. Automático. Construcción 82, 193–206 (2017).

Artículo de Google Scholar

Nath, ND, Akhavian, R. y Behzadan, AH Análisis ergonómico de las posturas corporales de los trabajadores de la construcción mediante sensores móviles portátiles. Aplica. Ergón. 62, 107-117 (2017).

Artículo PubMed Google Scholar

Luo, X. y col. Hacia un muestreo de trabajo eficiente y objetivo: reconocimiento de las actividades de los trabajadores en videos de vigilancia del sitio con redes convolucionales de dos flujos. Automático. Construcción 94, 360–370 (2018).

Artículo de Google Scholar

Bai, Y., Huan, J. y Kim, S. Medición de la eficiencia de la construcción de puentes mediante el sistema inalámbrico de monitoreo por video en tiempo real. J. Gestionar. Ing. 28, 120-126 (2012).

Artículo de Google Scholar

Hignett, S. y McAtamney, L. Evaluación rápida de todo el cuerpo (REBA). Aplica. Ergón. 31, 201–205 (2000).

Artículo CAS PubMed Google Scholar

McAtamney, L. & Nigel Corlett, E. RULA: un método de encuesta para la investigación de trastornos de las extremidades superiores relacionados con el trabajo. Aplica. Ergón. 24, 91–99 (1993).

Artículo CAS PubMed Google Scholar

Karhu, O., Härkönen, R., Sorvali, P. & Vepsäläinen, P. Observación de posturas de trabajo en la industria: ejemplos de aplicación de OWAS. Aplica. Ergón. 12, 13-17 (1981).

Artículo CAS PubMed Google Scholar

Ejecutivo de Seguridad y Salud (HSE). Cuadro de evaluación del manejo manual. http://www.hse.gov.uk/msd/mac/ (2014).

Buchholz, B., Paquet, V., Punnett, L., Lee, D. & Moir, S. PATH: Un enfoque basado en muestreo de trabajo para el análisis ergonómico del trabajo en la construcción y otros trabajos no repetitivos. Aplica. Ergón. 27, 177–187 (1996).

Artículo CAS PubMed Google Scholar

Departamento de Trabajo e Industrias del Estado de Washington. WAC 296–62-051 Documentos de reglas de ergonomía. http://www.humanics-es.com/ergorulewithappendices.pdf (2010).

Hwang, B.-G. & Soh, CK Medición de la productividad a nivel comercial: desafíos y soluciones críticos. J. Constr. Ing. Gestionar. 139, 04013013 (2013).

Artículo de Google Scholar

Dai, J., Goodrum, PM y Maloney, WF Percepciones de los trabajadores artesanales de la construcción sobre los factores que afectan su productividad. J. Constr. Ing. Gestionar. 135, 217–226 (2009).

Artículo de Google Scholar

Lingard, H. & Rowlinson, S. Seguridad y salud ocupacional en la gestión de proyectos de construcción. (Routledge, 2004).

Bohm, J. & Harris, D. Percepción de riesgo y comportamiento de asunción de riesgos de los conductores de volquetes de obras de construcción. En t. J. Ocupar. Seguro. Ergón. 16, 55–67 (2010).

Artículo PubMed Google Scholar

Estadísticas, B. of L. Lesiones y enfermedades en el lugar de trabajo, Departamento de Trabajo de EE. UU., Washington, DC, 2011.

Han, S. & Lee, S. Un marco de reconocimiento y captura de movimiento basado en la visión para la gestión de la seguridad basada en el comportamiento. Automático. Construcción 35, 131-141 (2013).

Artículo de Google Scholar

Hinze, J., Pedersen, C. y Fredley, J. Identificación de las causas fundamentales de las lesiones en la construcción. J. Constr. Ing. Gestionar. 124, 67–71 (1998).

Artículo de Google Scholar

Choudhry, RM Implementación de BBS y el impacto del compromiso a nivel de sitio. J. Prof. Problemas Ing. Educativo. Practica. 138, 296–304 (2012).

Artículo de Google Scholar

Punnett, L. & Wegman, DH Trastornos musculoesqueléticos relacionados con el trabajo: la evidencia epidemiológica y el debate. J. Electromiogr. Kinesiol. 14, 13-23 (2004).

Artículo PubMed Google Scholar

Jaffar, N., Abdul-Tharim, AH, Mohd-Kamar, IF & Lop, NSA Revisión bibliográfica sobre factores de riesgo ergonómicos en la industria de la construcción. Procedia Ing. 20, 89–97 (2011).

Artículo de Google Scholar

James T., A. y Cheryl F., E. Soluciones simples de ergonomía para trabajadores de la construcción. Publicación del DHHS. Núm. 2007–122 92 (2007).

Tian, ​​Y., Li, H., Cui, H. y Chen, J. Biblioteca de datos de movimiento de construcción: un conjunto de datos de movimiento integrado para el reconocimiento de actividades en el sitio. figshare https://doi.org/10.6084/m9.figshare.20480787.v3 (2022).

Zhu, W. y col. Aprendizaje de funciones de coocurrencia para el reconocimiento de acciones basado en esqueletos utilizando redes LSTM profundas regularizadas. en Actas de la conferencia AAAI sobre inteligencia artificial vol. 30 (2016).

LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. Aprendizaje basado en gradientes aplicado al reconocimiento de documentos. Proc. IEEE 86, 2278–2324 (1998).

Artículo de Google Scholar

Krizhevsky, A., Sutskever, I. & Hinton, GE Clasificación de Imagenet con redes neuronales convolucionales profundas. Adv. Inf. neuronal. Proceso. Sistema. 25, 1097-1105 (2012).

Google Académico

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. en la Conferencia IEEE de 2016 sobre visión por computadora y reconocimiento de patrones (CVPR) 770–778 (IEEE, 2016).

Glorot, X., Bordes, A. y Deep, Y. Redes neuronales rectificadoras dispersas profundas. en Actas de la Decimocuarta Conferencia Internacional sobre Inteligencia Artificial y Estadísticas, PMLR, Ft. Lauderdale vol. 15 275.

Kingma, DP & Ba, J. Un método de optimización estocástica. En: Tercera Conferencia Internacional sobre Representaciones del Aprendizaje, ICLR 2015, San Diego, CA, EE. UU., 7 al 9 de mayo de 2015, Actas de la conferencia. en (2015).

Escorcia, V., Dávila, MA, Golparvar-Fard, M. & Niebles, JC Reconocimiento automatizado basado en visión de las acciones de los trabajadores de la construcción para operaciones de construcción del interior del edificio utilizando cámaras RGBD. en el Congreso de Investigación de la Construcción 2012 879–888 (Sociedad Estadounidense de Ingenieros Civiles, 2012).

Base de datos de captura de movimiento de la Universidad Carnegie Mellon. http://mocap.cs.cmu.edu.

Yun, K., Honorio, J., Chattopadhyay, D., Berg, TL y Samaras, D. Detección de interacción entre dos personas mediante funciones de postura corporal y aprendizaje de múltiples instancias. https://www.kaggle.com/datasets/dasmehdixtr/two-person-interaction-kinect-dataset (2012).

Li, W., Zhang, Z. & Liu, Z. Reconocimiento de acciones basado en una bolsa de puntos 3d. https://sites.google.com/view/wanqingli/data-sets/msr-action3d (2010).

Xia, L., Chen, C.-C. & Aggarwal, JK Ver reconocimiento invariante de acciones humanas utilizando histogramas de articulaciones 3D. http://cvrc.ece.utexas.edu/KinectDatasets/HOJ3D.html (2012).

Ellis, C., Masood, SZ, Tappen, MF, LaViola, JJ y Sukthankar, R. Explorando el equilibrio entre precisión y latencia observacional en el reconocimiento de acciones. http://www.syedzainmasood.com/research.html (2013).

Fothergill, S., Mentis, H., Kohli, P. y Nowozin, S. Instruir a personas para entrenar sistemas interactivos gestuales. https://www.microsoft.com/en-us/download/details.aspx?id=52283 (2012).

Ionescu, C., Papava, D., Olaru, V. y Sminchisescu, C. Human3. 6m: conjuntos de datos a gran escala y métodos predictivos para la detección humana en 3D en entornos naturales. http://vision.imar.ro/human3.6m/description.php (2014).

Liu, C., Hu, Y., Li, Y., Song, S. y Liu, J. PKU-MMD: un punto de referencia a gran escala para la comprensión continua de la acción humana multimodal. https://www.icst.pku.edu.cn/struct/Projects/PKUMMD.html?aimglfkfkfcjmopp (2017).

Hu, J.-F., Zheng, W.-S., Lai, J. y Zhang, J. Aprendizaje conjunto de características heterogéneas para el reconocimiento de actividad RGB-D. https://www.isee-ai.cn/~hujianfang/ProjectJOULE.html (2015).

Descargar referencias

Este trabajo fue apoyado financieramente por el Fondo General de Investigación del Comité de Becas Universitarias de Hong Kong (UGC), #11209620 y el Fondo de Introducción de Talento de la Universidad de Tsinghua, #533314002. Cualquier opinión, hallazgo, conclusión o recomendación expresada en este artículo pertenece a los autores y no refleja necesariamente los puntos de vista de UGC y la Universidad de Tsinghua.

Departamento de Arquitectura e Ingeniería Civil, Universidad de la Ciudad de Hong Kong, RAE de Hong Kong, China

Yuan Yuan Tian

Departamento de Construcción y Bienes Raíces, Universidad Politécnica de Hong Kong, RAE de Hong Kong, China

Heng Li

Facultad de Ingeniería Civil y de Transporte, Universidad de Shenzhen, Shenzhen, China

Hongzhi Cui

Escuela de Ingeniería Civil, Universidad de Tsinghua, Beijing, China

Jiayu Chen

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

Yuanyuan Tian: adquisición de datos, etiquetado de datos, procesamiento de datos, preparación de conjuntos de datos. Heng Li: validación de datos, lectura de pruebas. Hongzhi Cui: validación de datos, calibración de datos. Jiayu Chen: concepción del proyecto, procesamiento de datos, validación de datos, lectura de pruebas.

Correspondencia a Jiayu Chen.

Los autores declaran no tener conflictos de intereses.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Tian, ​​Y., Li, H., Cui, H. et al. Biblioteca de datos de movimiento de construcción: un conjunto de datos de movimiento integrado para el reconocimiento de actividades en el sitio. Datos de ciencia 9, 726 (2022). https://doi.org/10.1038/s41597-022-01841-1

Descargar cita

Recibido: 03 de diciembre de 2021

Aceptado: 14 de noviembre de 2022

Publicado: 26 de noviembre de 2022

DOI: https://doi.org/10.1038/s41597-022-01841-1

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt