Sistema web interactivo para el análisis de datos médicos poblacionales
Autoría
S.I.M.G.
Máster Universitario en Visión por Computador
S.I.M.G.
Máster Universitario en Visión por Computador
Fecha de la defensa
04.02.2026 10:30
04.02.2026 10:30
Resumen
Este trabajo presenta una plataforma web para la visualización, el análisis y la segmentación de imágenes médicas y datos clínicos estructurados. El sistema integra múltiples módulos, incluyendo análisis estadístico, visualización interactiva de imágenes, gestión de imágenes y segmentación automatizada, con el objetivo de apoyar flujos de trabajo de investigación exploratoria. Los resultados experimentales confirman el correcto funcionamiento de todos los módulos y demuestran la capacidad de la plataforma para manejar datos médicos heterogéneos de forma interactiva y fácil de usar. El diseño general es modular y flexible, lo que permite que el sistema pueda ampliarse y adaptarse para futuras investigaciones y un posible uso clínico.
Este trabajo presenta una plataforma web para la visualización, el análisis y la segmentación de imágenes médicas y datos clínicos estructurados. El sistema integra múltiples módulos, incluyendo análisis estadístico, visualización interactiva de imágenes, gestión de imágenes y segmentación automatizada, con el objetivo de apoyar flujos de trabajo de investigación exploratoria. Los resultados experimentales confirman el correcto funcionamiento de todos los módulos y demuestran la capacidad de la plataforma para manejar datos médicos heterogéneos de forma interactiva y fácil de usar. El diseño general es modular y flexible, lo que permite que el sistema pueda ampliarse y adaptarse para futuras investigaciones y un posible uso clínico.
Dirección
NUÑEZ GARCIA, MARTA (Tutoría)
NUÑEZ GARCIA, MARTA (Tutoría)
Tribunal
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vocal)
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vocal)
Segmentación Few-Shot para Imágenes Médicas utilizando Modelos Fundacionales
Autoría
J.M.G.D.
Máster Universitario en Visión por Computador
J.M.G.D.
Máster Universitario en Visión por Computador
Fecha de la defensa
04.02.2026 10:10
04.02.2026 10:10
Resumen
La segmentación de imágenes médicas es un prerrequisito crítico para el diagnóstico y la planificación del tratamiento. Si bien los modelos de aprendizaje profundo supervisado han establecido el estado del arte en cuanto a rendimiento, sufren de una fuerte dependencia de conjuntos de datos a gran escala anotados a nivel de píxel. Esta dependencia representa un cuello de botella significativo en la imagen médica debido a la escasez de anotaciones de expertos y la heterogeneidad de las modalidades de imagen. Esta tesis propone un marco novedoso de Segmentación Few-Shot (FSS) diseñado para abordar estos desafíos utilizando Modelos Fundacionales (FMs). El método propuesto combina la robusta extracción de características del modelo autosupervisado DINOv3 con el refinamiento de límites final del Segment Anything Model 3 (SAM 3). Evaluamos este marco en cinco conjuntos de datos de imágenes médicas distintos. Los resultados experimentais demuestran que nuestro enfoque no solo generaliza mejor a clases no vistas en regímenes de pocos datos, sino que también supera a la U-Net supervisada estándar en términos de Coeficiente de Similitud de Dice (DSC) y Distancia de Hausdorff en casos específicos, marcando un paso significativo hacia adelante en el análisis de imágenes médicas eficiente en el uso de etiquetas.
La segmentación de imágenes médicas es un prerrequisito crítico para el diagnóstico y la planificación del tratamiento. Si bien los modelos de aprendizaje profundo supervisado han establecido el estado del arte en cuanto a rendimiento, sufren de una fuerte dependencia de conjuntos de datos a gran escala anotados a nivel de píxel. Esta dependencia representa un cuello de botella significativo en la imagen médica debido a la escasez de anotaciones de expertos y la heterogeneidad de las modalidades de imagen. Esta tesis propone un marco novedoso de Segmentación Few-Shot (FSS) diseñado para abordar estos desafíos utilizando Modelos Fundacionales (FMs). El método propuesto combina la robusta extracción de características del modelo autosupervisado DINOv3 con el refinamiento de límites final del Segment Anything Model 3 (SAM 3). Evaluamos este marco en cinco conjuntos de datos de imágenes médicas distintos. Los resultados experimentais demuestran que nuestro enfoque no solo generaliza mejor a clases no vistas en regímenes de pocos datos, sino que también supera a la U-Net supervisada estándar en términos de Coeficiente de Similitud de Dice (DSC) y Distancia de Hausdorff en casos específicos, marcando un paso significativo hacia adelante en el análisis de imágenes médicas eficiente en el uso de etiquetas.
Dirección
VILA BLANCO, NICOLAS (Tutoría)
CORES COSTA, DANIEL Cotutoría
VILA BLANCO, NICOLAS (Tutoría)
CORES COSTA, DANIEL Cotutoría
Tribunal
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vocal)
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vocal)
Estimación monocular de la pose 6D de objetos para aplicaciones de realidad mixta
Autoría
D.P.
Máster Universitario en Visión por Computador
D.P.
Máster Universitario en Visión por Computador
Fecha de la defensa
04.02.2026 09:50
04.02.2026 09:50
Resumen
Este informe de tesis de maestría presenta un proceso completo para la estimación de la pose de objetos 6D en tiempo real en un hardware de realidad mixta independiente, específicamente en el visor Meta Quest 3. A diferencia de la detección tradicional de objetos 2D, la estimación de la pose 6D recupera tanto la posición 3D como las orientaciones 3D de un objeto. Esto permite una comprensión espacial precisa, crucial para aplicaciones de realidad mixta, como el guiado de ensamblajes, la accesibilidad y el entretenimiento. Este trabajo aprovecha la API Passthrough Camera de Meta, recientemente lanzada, para implementar tareas de visión artificial directamente en el dispositivo. El sistema propuesto consta de tres componentes principales: (1) un proceso de generación de datos sintéticos procedimentales que utiliza Python y Blender para crear imágenes de entrenamiento fotorrealistas con anotaciones 6D con precisión de píxeles; (2) una implementación de la arquitectura ligera YOLOX-6D-Pose, optimizada para la inferencia de bordes; y (3) una aplicación de realidad mixta basada en Unity que utiliza el motor de inferencia Unity Sentis. Los resultados experimentales demuestran una transferencia exitosa de simulación a realidad, logrando una recuperación promedio (RA) del 62,79 % en datos reales sin utilizar imágenes de entrenamiento reales. El estudio de ablación confirma la importancia de la aleatorización de dominios y mejora el rendimiento en más de un 12 %. Además, la cuantificación dinámica de INT8 redujo el tamaño del modelo en aproximadamente un 75 % y la latencia de inferencia a 201 ms con una pérdida de precisión mínima. Este trabajo valida la posibilidad de realizar estimaciones de pose 6D en gafas de realidad virtual (VR) de consumo, lo que abre el camino a aplicaciones de RM con reconocimiento espacial en diversas aplicaciones.
Este informe de tesis de maestría presenta un proceso completo para la estimación de la pose de objetos 6D en tiempo real en un hardware de realidad mixta independiente, específicamente en el visor Meta Quest 3. A diferencia de la detección tradicional de objetos 2D, la estimación de la pose 6D recupera tanto la posición 3D como las orientaciones 3D de un objeto. Esto permite una comprensión espacial precisa, crucial para aplicaciones de realidad mixta, como el guiado de ensamblajes, la accesibilidad y el entretenimiento. Este trabajo aprovecha la API Passthrough Camera de Meta, recientemente lanzada, para implementar tareas de visión artificial directamente en el dispositivo. El sistema propuesto consta de tres componentes principales: (1) un proceso de generación de datos sintéticos procedimentales que utiliza Python y Blender para crear imágenes de entrenamiento fotorrealistas con anotaciones 6D con precisión de píxeles; (2) una implementación de la arquitectura ligera YOLOX-6D-Pose, optimizada para la inferencia de bordes; y (3) una aplicación de realidad mixta basada en Unity que utiliza el motor de inferencia Unity Sentis. Los resultados experimentales demuestran una transferencia exitosa de simulación a realidad, logrando una recuperación promedio (RA) del 62,79 % en datos reales sin utilizar imágenes de entrenamiento reales. El estudio de ablación confirma la importancia de la aleatorización de dominios y mejora el rendimiento en más de un 12 %. Además, la cuantificación dinámica de INT8 redujo el tamaño del modelo en aproximadamente un 75 % y la latencia de inferencia a 201 ms con una pérdida de precisión mínima. Este trabajo valida la posibilidad de realizar estimaciones de pose 6D en gafas de realidad virtual (VR) de consumo, lo que abre el camino a aplicaciones de RM con reconocimiento espacial en diversas aplicaciones.
Dirección
FLORES GONZALEZ, JULIAN CARLOS (Tutoría)
Glowacki , David Ryan Cotutoría
FLORES GONZALEZ, JULIAN CARLOS (Tutoría)
Glowacki , David Ryan Cotutoría
Tribunal
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vocal)
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vocal)
Predicción de Scanpaths usando pistas implícitas en Datos de Movimientos Oculares Ruidosos
Autoría
L.U.F.
Máster Universitario en Visión por Computador
L.U.F.
Máster Universitario en Visión por Computador
Fecha de la defensa
04.02.2026 09:30
04.02.2026 09:30
Resumen
El seguimiento ocular es una herramienta vital para la investigación psicológica y psicofisiológica; sin embargo, la obtención de datos fiables suele requerir equipos costosos y entornos de laboratorio controlados. Si bien se han desarrollado alternativas más asequibles, a menudo carecen de la precisión y las frecuencias de muestreo necesarias para un estudio científico riguroso. En este trabajo, proponemos un modelo que integra datos de seguimiento ocular ruidosos y de baja frecuencia de muestreo con características de las imágenes usadas de estímulo para reconstruir secuencias de centroides de fijación y sus duraciones correspondientes. Nuestro enfoque busca producir datos que mantengan las propiedades estadísticas obtenidas con los sistemas de seguimiento de alta gama. Para ello, utilizamos el conjunto de datos CocoFreeView para generar realistas movimientos oculares realistas y desarrollamos un modelo de ruido que simula las características de los rastreadores oculares comerciales de uso generalizado. Finalmente, aprovechamos una arquitectura basada en Transformer con un codificador de imágenes DINOv3 para recuperar la información de fijación original.
El seguimiento ocular es una herramienta vital para la investigación psicológica y psicofisiológica; sin embargo, la obtención de datos fiables suele requerir equipos costosos y entornos de laboratorio controlados. Si bien se han desarrollado alternativas más asequibles, a menudo carecen de la precisión y las frecuencias de muestreo necesarias para un estudio científico riguroso. En este trabajo, proponemos un modelo que integra datos de seguimiento ocular ruidosos y de baja frecuencia de muestreo con características de las imágenes usadas de estímulo para reconstruir secuencias de centroides de fijación y sus duraciones correspondientes. Nuestro enfoque busca producir datos que mantengan las propiedades estadísticas obtenidas con los sistemas de seguimiento de alta gama. Para ello, utilizamos el conjunto de datos CocoFreeView para generar realistas movimientos oculares realistas y desarrollamos un modelo de ruido que simula las características de los rastreadores oculares comerciales de uso generalizado. Finalmente, aprovechamos una arquitectura basada en Transformer con un codificador de imágenes DINOv3 para recuperar la información de fijación original.
Dirección
CORES COSTA, DANIEL (Tutoría)
CORES COSTA, DANIEL (Tutoría)
Tribunal
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vocal)
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vocal)