Jesús Vega-Ferrero (DDS), en el comité científico del workshop Machine Learning meets Galaxy Classification 2

Este mes de junio, Jesús Vega-Ferrero (PhD), Data Scientist Senior en Deduce Data Solutions (DDS), formó parte del comité científico del workshop internacional Machine Learning meets Galaxy Classification 2, celebrado en el Centro Europeo de Astronomía Espacial (ESAC), en Madrid. Un encuentro dedicado, precisamente, a la clasificación de galaxias con inteligencia artificial (IA).

Clasificación de galaxias con machine learning: workshop en ESAC, Madrid

Que uno de nuestros científicos de datos coorganice un encuentro de este nivel dice mucho de cómo entendemos la inteligencia artificial en DDS: como una disciplina que se construye en comunidad, con rigor y mirando más allá del corto plazo.

Qué fue el workshop

El workshop reunió durante tres días a investigadoras e investigadores que aplican aprendizaje automático (machine learning) a la clasificación de galaxias y, en general, al análisis de grandes volúmenes de datos astronómicos. Más de 70 personas pasaron por ESAC, con un nivel altísimo y una presencia muy notable de perfiles junior, lo que habla de la salud y el relevo del campo.

Para quienes no lo conozcan, ESAC es el centro desde el que la Agencia Espacial Europea (ESA) opera científicamente misiones tan emblemáticas como Gaia o Euclid, dedicadas a cartografiar el cielo con un detalle sin precedentes. Cada una genera catálogos enormes, y son justo el tipo de datos que motivan un encuentro centrado en la clasificación de galaxias.

Para hacerse una idea de la escala: misiones como Gaia han catalogado más de mil millones de fuentes celestes, y los grandes sondeos acumulan imágenes de cientos de millones de galaxias. Ningún equipo humano puede revisar semejante volumen pieza a pieza, así que la clasificación de galaxias a esta escala solo es viable con automatización.

La astronomía moderna es, en el fondo, un problema de datos a gran escala: telescopios y misiones generan cantidades ingentes de imágenes imposibles de revisar a mano. Ahí la IA se ha vuelto imprescindible para detectar, clasificar y priorizar lo relevante. Las técnicas que se discuten en un foro así —modelos robustos, explicables y validables— son primas hermanas de las que aplicamos en la industria.

La clasificación de galaxias: un problema clásico que la IA reinventó

Clasificar galaxias por su forma —espirales, elípticas, irregulares— es una de las tareas más antiguas y útiles de la astronomía: la morfología guarda pistas sobre cómo nacen y evolucionan. El problema es de escala. Los grandes telescopios capturan imágenes de cientos de millones de objetos, una cifra que convierte la clasificación de galaxias a mano en algo inviable.

La forma de una galaxia no es un dato menor. Está ligada a su historia, a su contenido de estrellas y gas y a cómo ha interactuado con sus vecinas. Por eso una buena clasificación de galaxias no es un fin en sí mismo, sino la puerta de entrada a preguntas más profundas sobre la evolución del universo.

Durante años, proyectos de ciencia ciudadana pidieron ayuda al público para etiquetar imágenes una a una. Hoy, las redes neuronales profundas permiten automatizar la clasificación de galaxias sobre catálogos enteros de forma rápida y reproducible. Es exactamente el terreno que explora el workshop Machine Learning meets Galaxy Classification.

En la práctica, la clasificación de galaxias con IA se apoya en familias de modelos muy distintas. Las redes convolucionales aprenden a reconocer formas en imágenes; los métodos no supervisados ayudan a descubrir patrones y objetos raros que nadie había etiquetado; y las técnicas de cuantificación de la incertidumbre permiten saber cuándo un modelo está, sencillamente, adivinando. Saber elegir entre ellas es tan importante como entrenarlas.

Pero la precisión no lo es todo. Un modelo de clasificación de galaxias solo es útil si es robusto frente al ruido, si se puede validar contra catálogos conocidos y si sus decisiones se pueden explicar. Esas tres exigencias —robustez, validación y explicabilidad— fueron de las más debatidas en ESAC, y son las mismas que guían nuestro trabajo en la industria.

De Galaxy Zoo a las redes neuronales

La historia reciente de la clasificación de galaxias es un buen ejemplo de cómo evoluciona un problema de datos. Primero llegaron los grandes sondeos del cielo, que multiplicaron el número de imágenes disponibles. Después, iniciativas de ciencia ciudadana demostraron que miles de voluntarios podían etiquetar formas con sorprendente fiabilidad. Y, por último, el aprendizaje profundo aprendió de esas etiquetas para escalar la tarea a millones de objetos.

Hoy, ese recorrido continúa: los modelos no solo asignan una categoría, sino que estiman su confianza, detectan galaxias atípicas y ayudan a los equipos a centrar su atención donde más aporta. La clasificación de galaxias ha pasado de ser una tarea manual a convertirse en un banco de pruebas de las mejores ideas del machine learning.

Los retos abiertos de la clasificación de galaxias con IA

No todo está resuelto, y eso es parte de lo interesante. Entre los retos que se debatieron está el de los sesgos: un modelo entrenado con un tipo de imágenes puede fallar al enfrentarse a otras condiciones de observación. También la escasez de etiquetas fiables para los casos más raros, o la dificultad de comparar resultados entre equipos que usan criterios distintos.

Son problemas muy reconocibles para quien trabaja con IA en la industria. Cambiar de planta, de máquina o de sensor también degrada un modelo si no se ha pensado bien; por eso la generalización y la validación honesta son tan importantes en la clasificación de galaxias como en una fábrica.

Cómo se entrena un modelo de clasificación de galaxias

Entrenar un sistema de clasificación de galaxias sigue un guion reconocible. Se parte de un conjunto de imágenes ya etiquetadas —por personas o por catálogos previos—, se divide en datos de entrenamiento, validación y prueba, y se ajustan los parámetros del modelo hasta que aprende a generalizar. La clave no está en memorizar los ejemplos vistos, sino en acertar con galaxias que el modelo no ha visto nunca.

Después llega la parte menos vistosa y más decisiva: evaluar. Métricas claras, comparación con referencias y un análisis honesto de los errores. En la clasificación de galaxias, como en cualquier proyecto serio de IA, un buen número en un test no significa nada si el modelo se desmorona ante datos reales. Por eso en ESAC se habló tanto de cómo medir bien, y no solo de cómo entrenar.

El papel de DDS

Jesús Vega-Ferrero participó en el comité científico, ayudando a dar forma al programa y a seleccionar las contribuciones. Para DDS es una doble satisfacción: contar con un equipo que está a la última en el estado del arte del machine learning y, a la vez, mantener un pie en la investigación, que es de donde salen muchas de las ideas que después aterrizamos en planta.

Sesiones de clasificación de galaxias con IA en el workshop de ESAC

Compaginar la consultoría con la investigación no siempre es fácil, pero para nosotros es innegociable. Es lo que nos permite no quedarnos en la superficie de las herramientas de moda y entender de verdad qué hay debajo: qué puede hacer cada técnica, qué no, y a qué coste.

El talento que resuelve la clasificación de galaxias a partir de millones de imágenes es el mismo que sabe cómo anticipar una avería en una línea de producción o cómo optimizar el consumo energético de un horno: cambian los datos, no el método.

Las sesiones unconference

Más allá de las charlas técnicas, el encuentro reservó espacio para sesiones tipo unconference: conversaciones abiertas para hablar de lo que no suele caber en una ponencia. Entre los temas, dos que nos tocan de cerca: el impacto social y climático de la IA, y lo que supone esta tecnología para quienes vienen detrás.

Nos parece una conversación necesaria. Usar bien estas herramientas no es solo una cuestión técnica de precisión o velocidad; también es preguntarse cómo y para qué. En DDS lo trasladamos a nuestro día a día: medir el impacto real, construir modelos explicables y elegir los proyectos que de verdad aportan, en lugar de sumar tecnología por sumar.

Ciencia abierta: código y datos que se comparten

Otra cosa que nos gustó del workshop fue su cultura abierta. En la clasificación de galaxias es habitual compartir código, conjuntos de datos y modelos, de modo que cualquiera pueda reproducir y mejorar el trabajo de los demás. Esa transparencia acelera el progreso y eleva el listón de calidad de todo el campo.

Es una filosofía que compartimos. Aunque en la industria no todo se puede publicar, sí defendemos la trazabilidad y la reproducibilidad puertas adentro: documentar decisiones, versionar datos y poder explicar, meses después, por qué un modelo hace lo que hace.

El relevo generacional, una buena noticia

Si algo nos llevamos del encuentro fue optimismo. La fuerte presencia de investigadoras e investigadores jóvenes en la clasificación de galaxias con IA es una señal de que el campo goza de buena salud y de que habrá relevo. Ese talento, formado en datos y en pensamiento crítico, es justo el que también necesita la industria.

En DDS lo vemos cada día: quien domina un problema científico exigente como la clasificación de galaxias aporta una forma de trabajar —dudar, medir, validar— que encaja de maravilla con los retos de una planta. Tender puentes entre la universidad y la empresa es, para nosotros, una inversión de futuro.

Qué tienen en común una galaxia y una línea de producción

Puede sonar lejano, pero el salto de la astronomía a la fábrica es más corto de lo que parece. Una red neuronal entrenada para la clasificación de galaxias —distinguir una espiral de una elíptica— usa los mismos principios que una que detecta una microfisura en una pieza o una anomalía térmica en un horno. Cambian los datos y el contexto; el método es el mismo.

En una planta, una cámara que inspecciona piezas en una cinta se enfrenta al mismo reto que un telescopio: demasiadas imágenes para revisarlas a mano. Un modelo de visión puede señalar la pieza defectuosa igual que señala la galaxia peculiar, y un sistema de detección de anomalías puede avisar de que una máquina se comporta de forma extraña antes de que se rompa.

El paralelismo llega hasta el detalle. Igual que en la clasificación de galaxias conviene marcar los casos dudosos para que los revise un experto, en una planta el modelo más útil no es el que decide por su cuenta, sino el que prioriza: señala las piezas o las máquinas que merecen una segunda mirada y deja la decisión final en manos del equipo.

Datos, modelos y decisiones: el hilo común

Si hay algo que une la astrofísica y la industria es el recorrido que va del dato a la decisión. Primero hay que capturar y limpiar la información; luego, entrenar y validar modelos fiables; y, por último, convertir sus salidas en decisiones que alguien pueda entender y defender. Saltarse cualquiera de esos pasos es la receta más habitual para que un proyecto de IA no llegue a ninguna parte.

Por eso insistimos tanto en la explicabilidad. Un responsable de planta necesita saber por qué un modelo recomienda parar una máquina, igual que un investigador necesita entender por qué una red ha resuelto la clasificación de galaxias de una determinada manera. La confianza no se impone: se construye mostrando el razonamiento.

Sin datos buenos no hay buen modelo

Hay una lección que se repite en todos los campos donde trabaja la IA, y la clasificación de galaxias no es una excepción: la calidad de los datos pesa más que la sofisticación del modelo. Imágenes mal calibradas, etiquetas inconsistentes o conjuntos poco representativos producen modelos frágiles por muy avanzada que sea la arquitectura.

Por eso buena parte de la conversación en ESAC no giró solo en torno a algoritmos, sino a cómo construir conjuntos de datos mejores: más diversos, mejor documentados y compartidos para que otros equipos puedan reutilizarlos. Es un trabajo de fondo poco reconocido, pero es el que sostiene todo lo demás.

En la industria ocurre exactamente lo mismo. Antes de entrenar nada, dedicamos buena parte del esfuerzo a entender, limpiar y ordenar los datos de cada planta. No es la parte más vistosa de un proyecto, pero sí la que marca la diferencia entre una prueba de concepto que se queda en el cajón y una solución que aguanta el día a día.

Esa obsesión por los datos es, quizá, el puente más sólido entre la astrofísica y la fábrica. Quien aprende a desconfiar de un dato sucio mirando galaxias trae esa misma prudencia a una línea de producción, y ese es justo el perfil que buscamos.

Por qué DDS mantiene un pie en la investigación

Creemos que la mejor forma de aplicar la inteligencia artificial con criterio es no perder el contacto con la investigación que la hace avanzar. Nuestro equipo científico combina experiencia en planta con una trayectoria académica sólida, y participar en encuentros sobre clasificación de galaxias con IA es parte de ese compromiso.

Para las empresas con las que trabajamos, esto se traduce en algo muy concreto: las soluciones que proponemos no salen de un catálogo cerrado, sino de un equipo que entiende por qué funciona cada modelo y, sobre todo, cuándo no conviene usarlo.

De la ciencia a la planta

Participar en foros como este no es un adorno: es la forma de mantener vivo el vínculo entre la investigación puntera y la aplicación industrial. Las técnicas que hoy mejoran la clasificación de galaxias son las que mañana marcarán lo posible en eficiencia energética con IA, mantenimiento predictivo o control de calidad, y las que incorporamos a nuestros productos de IA adaptables para la industria.

No se trata de traer la última red neuronal porque sí, sino de saber cuándo una solución sencilla resuelve el problema y cuándo merece la pena ir más allá. Esa madurez —saber elegir— es probablemente el activo más valioso que un equipo científico aporta a un proyecto industrial.

Si quieres ver cómo este enfoque científico encaja en tu proceso, te proponemos una reunión exploratoria de 30 minutos, sin compromiso.

Ciencia e industria hablan el mismo idioma

Conviene recordar, además, que el objetivo de toda esta tecnología no es sustituir a las personas, sino darles mejores herramientas. Tanto en la clasificación de galaxias como en una planta, los mejores resultados llegan cuando el modelo y el experto trabajan juntos: la máquina filtra y propone, y la persona decide con criterio.

Empezar por un problema acotado, medir y crecer con los resultados es el camino que mejor funciona cuando una empresa da sus primeros pasos con la IA. No hace falta transformarlo todo de golpe; basta con elegir un caso valioso, demostrar el impacto y ampliar con confianza.

Por eso seguimos apostando por estar presentes en la frontera del conocimiento: no es un lujo académico, sino la mejor garantía de que lo que ofrecemos a nuestros clientes está a la altura de lo que la IA puede hacer hoy de verdad.

Eventos como este nos recuerdan por qué nos dedicamos a esto: la misma curiosidad que lleva a clasificar galaxias para entender el universo es la que, aplicada a una planta, ayuda a producir mejor, gastar menos energía y tomar decisiones más informadas. Ciencia e industria, al final, hablan el mismo idioma.

Enhorabuena a Jesús y a todo el comité por un encuentro redondo. Seguimos.

Fuente: Centro Europeo de Astronomía Espacial (ESAC), Agencia Espacial Europea (ESA); programa del workshop Machine Learning meets Galaxy Classification 2.