Entrevista Diferida con Jaime Obregón, el Superhéroe de la Transparencia
ForoCoches puede ser un lugar “tóxico”, pero de vez en cuando nos sorprenden. Han tenido la genial idea de invitar a Jaime García-Obregón, un reconocido activista por la transparencia pública, para responder preguntas. Tuve la suerte de poder hacerle algunas preguntas técnicas y he decidido compartir sus respuestas en forma de “entrevista diferida”.
JM: Hola, Jaime. Soy seguidor tuyo desde hace tiempo y quiero decirte que eres un valiente. Mi primera pregunta es sobre tu “data stack”. Al revisar tu GitHub veo que usas bastante Node.js, MongoDB, Selenium… ¿Usas herramientas de Big Data como Snowflake, ClickHouse, Spark? ¿Es el volumen de datos públicos tan grande como para necesitar este tipo de herramientas? ¿Usas bases de datos de grafos como Neo4j para relacionar empresas o nombres?
Jaime: No sé qué GitHub has estado mirando, pero de todas las herramientas que mencionas, solo utilizo Node.js :) Mi stack tecnológico es deliberadamente minimalista: muchos de mis proyectos ni siquiera utilizan una base de datos como backend. No uso frameworks, me gusta resolver mis propios problemas, no añadir capas a la cebolla tecnológica simplemente porque es “cool”, está de moda o resuelve el problema que otro piensa que tengo.
JM: ¿Cuánto dato crees que no está online? ¿Es posible que lo guarden o aleguen problemas técnicos para no subirlos? ¿Existen herramientas que faciliten al ciudadano demandar la publicación de los mismos?
Jaime: Algunos conjuntos de datos muy valiosos para luchar contra la corrupción no se publican porque es el negocio de unos pocos. A menudo los datos públicos se quedan en un cajón porque alguien en la Administración piensa que no tienen la calidad suficiente, o por mero paternalismo, o por simple desconocimiento.
JM: ¿Has considerado subir todo a un Snowflake y compartirlo? Creo que un DuckDB podría valer ahora mismo.
Jaime: No hace falta ninguna de esas herramientas. Basta con que las Administraciones liberen los datos en formatos estructurados y que se actualicen los catálogos en datos.gob.es. En mis proyectos hay un botón para descargarse todos los datos que yo he reunido, estructurado, limpiado, conectado… No hace falta mucho más.
JM: ¿Has probado si los últimos LLM pueden ayudar a detectar irregularidades?
Jaime: Estoy trabajando con IA y conozco los LLM. Son extremadamente útiles para extraer conocimiento de pliegos y anexos, por ejemplo. Pero no para detectar irregularidades. El análisis heurístico es mucho más eficaz que la IA.
De las respuestas, me llama la atención que se nota que Jaime es un “perro viejo”. Evita los frameworks debido al problema de deuda técnica que acarrean y su infrautilización (esto me suena familiar con LangChain, jeje).
También resalta la importancia de que datos.gob.es sea realmente un hub de datos públicos, con API y bases de datos listas para descargar.
Aquí discrepo un poco, y creo que también sería útil ejercer presión unificando toda esa información en un hub particular pero público.
Sin más, quiero agradecer de nuevo a Jaime su participación y su labor, ¡muy necesaria! (desgraciadamente).