Sistema web interactivo para a análise de datos médicos poboacionais
Autoría
S.I.M.G.
Máster Universitario en Visión por Computador
S.I.M.G.
Máster Universitario en Visión por Computador
Data da defensa
04.02.2026 10:30
04.02.2026 10:30
Resumo
Este traballo presenta unha plataforma web para a visualización, análise e segmentación de imaxes médicas e datos clínicos estruturados. O sistema integra múltiples módulos, incluíndo análise estatística, visualización interactiva de imaxes, xestión de imaxes e segmentación automatizada, co obxectivo de apoiar fluxos de traballo de investigación exploratoria. Os resultados experimentais confirman o correcto funcionamento de todos os módulos e demostran a capacidade da plataforma para manexar datos médicos heteroxéneos dun xeito interactivo e doado de usar. O deseño xeral é modular e flexible, o que permite que o sistema poida ampliarse e adaptarse para futuras investigacións e un posible uso clínico.
Este traballo presenta unha plataforma web para a visualización, análise e segmentación de imaxes médicas e datos clínicos estruturados. O sistema integra múltiples módulos, incluíndo análise estatística, visualización interactiva de imaxes, xestión de imaxes e segmentación automatizada, co obxectivo de apoiar fluxos de traballo de investigación exploratoria. Os resultados experimentais confirman o correcto funcionamento de todos os módulos e demostran a capacidade da plataforma para manexar datos médicos heteroxéneos dun xeito interactivo e doado de usar. O deseño xeral é modular e flexible, o que permite que o sistema poida ampliarse e adaptarse para futuras investigacións e un posible uso clínico.
Dirección
NUÑEZ GARCIA, MARTA (Titoría)
NUÑEZ GARCIA, MARTA (Titoría)
Tribunal
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vogal)
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vogal)
Segmentación Few-Shot para Imaxe Médica Empregando Modelos Fundacionais
Autoría
J.M.G.D.
Máster Universitario en Visión por Computador
J.M.G.D.
Máster Universitario en Visión por Computador
Data da defensa
04.02.2026 10:10
04.02.2026 10:10
Resumo
A segmentación de imaxes médicas é un prerrequisito crítico para o diagnóstico e a planificación do tratamento. Aínda que os modelos de aprendizaxe profunda supervisada estableceron o estado da arte en canto a rendemento, sofren dunha forte dependencia de conxuntos de datos a gran escala anotados a nivel de píxel. Esta dependencia supón un colo de botella significativo na imaxe médica debido á escaseza de anotacións de expertos e á heteroxeneidade das modalidades de imaxe. Esta tese propón un novo marco de Segmentación Few-Shot (FSS) deseñado para abordar estes desafíos aproveitando Modelos Fundacionais (FMs). O método proposto combina a robusta extracción de características do DINOv3 autosupervisado co refinamento final de límites do Segment Anything Model 3 (SAM 3). Avaliamos este marco en cinco conxuntos de datos de imaxe médica distintos. Os resultados experimentais demostran que o noso enfoque non só xeneraliza mellor a clases non vistas en réximes de poucos datos, senón que tamén supera á U-Net supervisada estándar en termos de Coeficiente de Similitude de Dice (DSC) e Distancia de Hausdorff en casos específicos, marcando un paso adiante significativo na análise de imaxes médicas eficiente en canto á etiquetaxe.
A segmentación de imaxes médicas é un prerrequisito crítico para o diagnóstico e a planificación do tratamento. Aínda que os modelos de aprendizaxe profunda supervisada estableceron o estado da arte en canto a rendemento, sofren dunha forte dependencia de conxuntos de datos a gran escala anotados a nivel de píxel. Esta dependencia supón un colo de botella significativo na imaxe médica debido á escaseza de anotacións de expertos e á heteroxeneidade das modalidades de imaxe. Esta tese propón un novo marco de Segmentación Few-Shot (FSS) deseñado para abordar estes desafíos aproveitando Modelos Fundacionais (FMs). O método proposto combina a robusta extracción de características do DINOv3 autosupervisado co refinamento final de límites do Segment Anything Model 3 (SAM 3). Avaliamos este marco en cinco conxuntos de datos de imaxe médica distintos. Os resultados experimentais demostran que o noso enfoque non só xeneraliza mellor a clases non vistas en réximes de poucos datos, senón que tamén supera á U-Net supervisada estándar en termos de Coeficiente de Similitude de Dice (DSC) e Distancia de Hausdorff en casos específicos, marcando un paso adiante significativo na análise de imaxes médicas eficiente en canto á etiquetaxe.
Dirección
VILA BLANCO, NICOLAS (Titoría)
CORES COSTA, DANIEL Cotitoría
VILA BLANCO, NICOLAS (Titoría)
CORES COSTA, DANIEL Cotitoría
Tribunal
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vogal)
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vogal)
Estimación monocular da pose 6D de obxectos para aplicacións de realidade mixta
Autoría
D.P.
Máster Universitario en Visión por Computador
D.P.
Máster Universitario en Visión por Computador
Data da defensa
04.02.2026 09:50
04.02.2026 09:50
Resumo
Este informe de tese de mestrado presenta unha canle completa para a estimación da pose de obxectos 6D en tempo real nun hardware de realidade mixta independente, concretamente as lentes Meta Quest 3. A diferenza da detección de obxectos 2D tradicional, a estimación da pose 6D recupera tanto a posición 3D como as orientacións 3D dun obxecto. Permite unha comprensión espacial precisa que é crucial para as aplicacións de realidade mixta, como a guía de montaxe, a accesibilidade e o entretemento. Este traballo aproveita a API Passthrough Camera de Meta, lanzada recentemente, para implementar tarefas de visión por computador directamente no dispositivo. O sistema proposto consta de tres compoñentes principais: (1) unha canle de xeración de datos sintéticos procedurais que utiliza Python e Blender para crear imaxes de adestramento fotorrealistas con anotacións 6D perfectas para píxeles; (2) unha implementación da arquitectura lixeira YOLOX-6D-Pose optimizada para a inferencia de bordos; e (3) unha aplicación de realidade mixta baseada en Unity que utiliza o motor de inferencia Unity Sentis. Os resultados experimentais demostran unha transferencia Sim-to-Real exitosa, conseguindo unha recuperación media (AR) do BOP do 62,79 % en datos do mundo real sen usar imaxes de adestramento reais. O estudo de ablación confirma que a aleatorización de dominios é importante e mellora o rendemento en máis dun 12 %. Ademais, a cuantización dinámica de INT8 reduciu o tamaño do modelo en arredor dun 75 % e a latencia de inferencia a 201 ms con moi pouca perda de precisión. Este traballo valida a posibilidade de realizar unha estimación de pose 6D en cascos de realidade virtual de consumo, abrindo o camiño para aplicacións de RM espacialmente conscientes en moitas aplicacións diferentes.
Este informe de tese de mestrado presenta unha canle completa para a estimación da pose de obxectos 6D en tempo real nun hardware de realidade mixta independente, concretamente as lentes Meta Quest 3. A diferenza da detección de obxectos 2D tradicional, a estimación da pose 6D recupera tanto a posición 3D como as orientacións 3D dun obxecto. Permite unha comprensión espacial precisa que é crucial para as aplicacións de realidade mixta, como a guía de montaxe, a accesibilidade e o entretemento. Este traballo aproveita a API Passthrough Camera de Meta, lanzada recentemente, para implementar tarefas de visión por computador directamente no dispositivo. O sistema proposto consta de tres compoñentes principais: (1) unha canle de xeración de datos sintéticos procedurais que utiliza Python e Blender para crear imaxes de adestramento fotorrealistas con anotacións 6D perfectas para píxeles; (2) unha implementación da arquitectura lixeira YOLOX-6D-Pose optimizada para a inferencia de bordos; e (3) unha aplicación de realidade mixta baseada en Unity que utiliza o motor de inferencia Unity Sentis. Os resultados experimentais demostran unha transferencia Sim-to-Real exitosa, conseguindo unha recuperación media (AR) do BOP do 62,79 % en datos do mundo real sen usar imaxes de adestramento reais. O estudo de ablación confirma que a aleatorización de dominios é importante e mellora o rendemento en máis dun 12 %. Ademais, a cuantización dinámica de INT8 reduciu o tamaño do modelo en arredor dun 75 % e a latencia de inferencia a 201 ms con moi pouca perda de precisión. Este traballo valida a posibilidade de realizar unha estimación de pose 6D en cascos de realidade virtual de consumo, abrindo o camiño para aplicacións de RM espacialmente conscientes en moitas aplicacións diferentes.
Dirección
FLORES GONZALEZ, JULIAN CARLOS (Titoría)
Glowacki , David Ryan Cotitoría
FLORES GONZALEZ, JULIAN CARLOS (Titoría)
Glowacki , David Ryan Cotitoría
Tribunal
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vogal)
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vogal)
Predición de Scanpath a partir de pistas implícitas en eye-tracking ruidoso
Autoría
L.U.F.
Máster Universitario en Visión por Computador
L.U.F.
Máster Universitario en Visión por Computador
Data da defensa
04.02.2026 09:30
04.02.2026 09:30
Resumo
O seguimento ocular é unha ferramenta vital para a investigación psicolóxica e psicofisiolóxica; non obstante, a obtención de datos fiables require normalmente equipos caros e ambientes de laboratorio controlados. Aínda que se desenvolveron alternativas máis accesibles, a miúdo carecen da precisión e as taxas de mostraxe necesarias para un estudo científico rigoroso. Neste traballo, propoñemos un modelo que integra datos de seguimento ocular ruidosos e de baixa taxa de mostraxe con características de imaxes de estímulos para reconstruír secuencias de centroides de fixación e as súas duracións correspondentes. O noso enfoque ten como obxectivo producir datos que manteñan as propiedades estatísticas dos sistemas de seguimento de alta gama. Para conseguilo, utilizamos o conxunto de datos CocoFreeView para xerar mostras realistas de seguimento ocular e desenvolvemos un modelo de ruído que simula as características dos seguidores oculares comerciais amplamente utilizados. Finalmente, aproveitamos unha arquitectura baseada en Transformer cun codificador de imaxes DINOv3 para recuperar a información de fixación orixinal.
O seguimento ocular é unha ferramenta vital para a investigación psicolóxica e psicofisiolóxica; non obstante, a obtención de datos fiables require normalmente equipos caros e ambientes de laboratorio controlados. Aínda que se desenvolveron alternativas máis accesibles, a miúdo carecen da precisión e as taxas de mostraxe necesarias para un estudo científico rigoroso. Neste traballo, propoñemos un modelo que integra datos de seguimento ocular ruidosos e de baixa taxa de mostraxe con características de imaxes de estímulos para reconstruír secuencias de centroides de fixación e as súas duracións correspondentes. O noso enfoque ten como obxectivo producir datos que manteñan as propiedades estatísticas dos sistemas de seguimento de alta gama. Para conseguilo, utilizamos o conxunto de datos CocoFreeView para xerar mostras realistas de seguimento ocular e desenvolvemos un modelo de ruído que simula as características dos seguidores oculares comerciais amplamente utilizados. Finalmente, aproveitamos unha arquitectura baseada en Transformer cun codificador de imaxes DINOv3 para recuperar a información de fixación orixinal.
Dirección
CORES COSTA, DANIEL (Titoría)
CORES COSTA, DANIEL (Titoría)
Tribunal
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vogal)
GARCIA TAHOCES, PABLO (Presidente/a)
BREA SANCHEZ, VICTOR MANUEL (Secretario/a)
López Martínez, Paula (Vogal)