Modelo de detección de objetos orientado a inferencia visual rápida.
Imágenes anotadas manualmente y preparadas para entrenamiento supervisado.
Categorías para palets, embalajes y dimensiones correctas o incorrectas.
Iteraciones de entrenamiento con apoyo de GPU NVIDIA A100.
Arquitectura del modelo
El sistema de AURION divide la detección en tres bloques principales: extracción de características, fusión de información visual y predicción final.
Backbone
Extrae características relevantes de la imagen, como bordes, formas, texturas y patrones visuales útiles para detectar anomalías.
Neck
Une información de distintas resoluciones para mejorar la detección de objetos grandes y pequeños dentro de la escena logística.
Head
Realiza las predicciones finales: clase detectada, posición de la caja y nivel de confianza asociado a cada resultado.
Clases que detecta
Las seis clases permiten distinguir entre estado del palet, calidad del embalaje y corrección dimensional de la mercancía.
Cómo se entrenó el sistema
El entrenamiento se diseñó para exponer al modelo a distintas vistas, condiciones de iluminación y combinaciones de carga.
Se utilizaron aproximadamente 2.600 imágenes anotadas para cubrir las seis clases de AURION.
Se aplicó data augmentation para mejorar la capacidad de generalización ante cambios de ángulo, iluminación y disposición de la carga.
Se buscó mantener un número similar de ejemplos por clase para evitar sesgos fuertes en la predicción.
Recopilación de imágenes, labels y organización de las seis categorías principales.
Uso de GPU NVIDIA A100 para acelerar el proceso de entrenamiento del modelo.
Entrenamiento prolongado para ajustar detección, localización y clasificación.
Comparación entre YOLOv8n, YOLOv8x y YOLOv11x antes de elegir la arquitectura final.
Comparación de versiones YOLO
La elección final se basó en pruebas entre distintas versiones, priorizando potencia, arquitectura y rendimiento para detección logística.
YOLOv8n
Versión compacta y rápida, útil para pruebas iniciales, pero con menor capacidad para patrones visuales complejos.
YOLOv8x
Modelo más potente que la versión nano, adecuado para comparar mejoras de precisión y robustez.
YOLOv11x
Arquitectura final escogida por su capacidad para trabajar con detección multicategoría y escenarios visuales exigentes.
De la arquitectura técnica a una demo funcional
La página del modelo explica la base técnica de AURION. El siguiente paso es probarlo con imágenes o vídeos para visualizar directamente sus predicciones.