Aprendizaje automático: Fundamentos, tipos y aplicación pública

El aprendizaje automático (machine learning, ML) es un subcampo esencial de la inteligencia artificial (IA) y constituye una de las tecnologías clave que impulsa la transformación digital y la modernización en las administraciones públicas, especialmente en las administraciones tributarias (AATT) y de seguridad social.

El ML es fundamental para el procesamiento y explotación de grandes volúmenes de datos (Big Data). Su importancia radica en su capacidad de dotar a los algoritmos con la habilidad de aprender de los datos sin ser programados explícitamente.

El aprendizaje automático es el proceso de "enseñarle a un niño" (el algoritmo) a clasificar objetos (contribuyentes, transacciones, etc.) mostrándole miles de ejemplos etiquetados (datos históricos). Cuantos más ejemplos se le muestren (más Big Data) y más claras sean las etiquetas (mejor calidad de datos), más preciso será en sus clasificaciones futuras. Es la tecnología que permite que la IA, de ser un mero conjunto de reglas programadas (lógica tradicional), se convierta en un sistema que puede mejorar continuamente su propia capacidad de razonamiento basándose en la realidad que le proporcionan los datos.

I. Fundamentos del aprendizaje automático (ML)

El ML es un área de la IA que se centra en crear métodos y algoritmos que permiten a los sistemas informáticos adquirir conocimientos y mejorar sus capacidades utilizando experiencias pasadas.

1. Definición y proceso de aprendizaje:

• Capacidad de aprender: El ML les da a las computadoras la capacidad de aprender sin ser programadas explícitamente para cada cuestión que surge. Los algoritmos aprenden a través del entrenamiento.

• Proceso algorítmico: Un algoritmo recibe inicialmente ejemplos cuyas salidas (outputs) son conocidas. Anota la diferencia entre sus predicciones y las salidas correctas, y ajusta las ponderaciones de las entradas (inputs) para mejorar la exactitud de sus predicciones hasta que se optimizan. La calidad de sus predicciones mejora con la experiencia o con la cantidad de datos empleados.

• Retroalimentación: El ML mejora su rendimiento a partir de la retroalimentación de los datos que consume. Esta retroalimentación, en las AATT, a menudo requiere una intervención supervisada de un operador humano que ayude al proceso automatizado a aprender mediante la definición de ejemplos de formación y la posterior corrección manual de errores.

2. Relación con otras tecnologías clave:

El ML forma parte de un "trípode" tecnológico fundamental, junto con la computación en la nube (cloud computing) y el procesamiento masivo de macrodatos (Big Data).

• Big Data: Los macrodatos son la "materia prima" esencial para el ML. La IA y el machine learning son formas de procesar los datos para obtener información útil. El aumento de la disponibilidad de datos (Big Data) ha permitido el perfeccionamiento de las técnicas de IA mediante el entrenamiento de programas que "aprenden" por sí mismos.

• IA generativa (IAGen) y LLM: Los Modelos de Lenguaje de Gran Escala (LLM) son un tipo de IAGen que, a su vez, son un subcampo del ML. La IAGen se basa en el ML para identificar patrones en los datos. Los LLM aprovechan el ML para realizar tareas de procesamiento del lenguaje natural, como generar, clasificar texto y responder preguntas de manera conversacional.

• Aprendizaje profundo (Deep Learning): Es un subcampo del ML. El deep learning utiliza redes neuronales complejas con múltiples capas para procesar datos, facilitando capacidades sofisticadas como el reconocimiento de imágenes y de voz. Las redes profundas mejoran considerablemente su rendimiento conforme aumenta el volumen de datos, en comparación con los modelos tradicionales de ML.

II. Tipos de algoritmos de aprendizaje automático

El ML se divide en varias categorías principales, cada una adecuada para diferentes tipos de tareas y datos:

1. Aprendizaje supervisado: El algoritmo se entrena con datos etiquetados, donde la entrada se empareja con la salida deseada. El algoritmo aprende a vincular la entrada con la salida para realizar predicciones sobre nuevos datos. Ejemplos incluyen la clasificación (predecir si un correo electrónico es spam) y la regresión (predecir el precio de una casa).

2. Aprendizaje no supervisado: Se utilizan datos sin etiquetar. El algoritmo aprende a identificar patrones y estructuras en los datos sin un conocimiento previo de cuál debería ser la salida. Ejemplos incluyen la agrupación (clustering) de clientes por comportamiento o la reducción de la dimensionalidad de un conjunto de datos. Este tipo se utiliza en el sector público para identificar, seleccionar y priorizar casos de contribuyentes con conducta inusual.

3. Aprendizaje por refuerzo: El sistema busca maximizar una señal de recompensa.

Otras técnicas específicas de ML incluyen: Regresión lineal, máquinas de vectores de soporte, análisis de componentes principales (PCA), árboles de decisión, razonamiento automático, bosque aleatorio y detección de anomalías.

III. Ejemplos de aplicación en las administraciones públicas

El aprendizaje automático es un motor fundamental para la transformación de la gestión pública, con aplicaciones que van desde la fiscalización hasta la asistencia al contribuyente.

1. Fiscalización y análisis de riesgos

El ML mejora la eficiencia en la fiscalización al permitir la identificación de riesgos de forma automatizada y precisa.

• Clasificación de contribuyentes: El ML elabora perfiles de riesgo basados en el comportamiento pasado y presente de los contribuyentes. Esto permite una asignación más estratégica y eficiente de los recursos de auditoría.

• Predicción de fraude y evasión: La IA, a través de algoritmos de ML y análisis predictivo, puede identificar patrones de error, evasión fiscal o fraude. Esto incluye la detección de anomalías y la advertencia de relaciones entre personas y entidades sospechosas.

• Inspecciones inteligentes: El ML es crucial para la selección de casos a inspeccionar. En Noruega, la Administración Tributaria utiliza ML para predecir la posibilidad de errores en cada declaración de IVA, asignando un puntaje que ha duplicado el porcentaje de inspecciones exitosas respecto al proceso manual.

• Detección de facturas falsas: El ML se utiliza para detectar potenciales usuarios de facturas falsas a través de redes neuronales artificiales y árboles de decisión.

2. Servicios al contribuyente y automatización

El ML apoya la prestación de servicios personalizados y la automatización de procesos:

• Asistentes virtuales (chatbots): Los chatbots utilizan ML para aprender a partir de la información que capturan y generar respuestas adecuadas a las entradas de los usuarios, mejorando la calidad del servicio.

• Asistencia proactiva (E-Filing): Con el desarrollo del ML, se podrá pronosticar y predecir la conducta del contribuyente y ofrecer más y mejores borradores de declaraciones prellenadas. La AEAT utiliza ML para detectar errores en la declaración de la renta y mostrar mensajes de advertencia (nudge).

• Procesamiento de documentos: El ML se utiliza para procesar y clasificar automáticamente documentos, como documentos de descargo de fiscalización.

IV. Riesgos y requisitos de responsabilidad

Dado que el ML mejora su desempeño con los datos de entrenamiento, los riesgos asociados a la calidad de la información son críticos.

• Dependencia de la calidad de los datos: La eficacia de estas tecnologías depende directamente del volumen y la calidad de los datos disponibles. Si los datos son imprecisos, incompletos o contienen errores, el algoritmo podría aprender patrones erróneos o realizar predicciones inexactas.

• Sesgo algorítmico: El ML puede perpetuar los sesgos presentes en los datos históricos. Si los datos de entrenamiento están sesgados, el algoritmo puede dejar de ser neutral y apuntar de manera sistemática a un grupo en concreto, lo que puede causar discriminación. El ML reproduce patrones históricos, lo que puede reforzar y prolongar sesgos sine die.

• El problema de la "caja negra" (black box): Los algoritmos complejos de ML (especialmente el deep learning) son a menudo opacos, lo que significa que se desconoce cómo llegan a una determinada conclusión. Esta falta de transparencia y auditabilidad representa un desafío legal, ya que la decisión de un modelo de "caja negra" no puede ser la base exclusiva de un acto administrativo (sanción o determinación de deuda).

• Explicabilidad (XAI): Para mitigar el problema de la caja negra, se requiere el desarrollo de la IA explicable (XAI), un conjunto de procesos que permiten a los humanos comprender y gestionar la IA, facilitando información sobre cómo se toman las decisiones.

--------------------------------------------------------------------------------

Te invitamos a continuar reflexionando sobre el tema en el XIV Congreso Nacional e Internacional de Entes Recaudadores que se realizará el jueves 20/11/25 de 17 a 20 h en la sede del Consejo Profesional de Ciencias Económicas CABA, Viamonte 1549, piso 2, Salón Manuel Belgrano (entrada libre y gratuita).

Si no puedes concurrir presencialmente, sigue la transmisión del CEAT Centro de Estudios en Administración Tributaria FCE UBA ese día en forma virtual sincrónica: https://www.youtube.com/live/xwzWZjm4ggY?si=tlFLoJGNnx92wOXf

Puedes inscribirte en el siguiente formulario: https://docs.google.com/forms/d/e/1FAIpQLSe__cNXf1Fm0KlpCP3FppKDs92ttx0vl55Rh8L2_L4e7VtRGg/viewform?fbclid=IwY2xjawOJwFpleHRuA2FlbQIxMABicmlkETFxeGdCaEg5NHQ0NFRVSnljc3J0YwZhcHBfaWQQMjIyMDM5MTc4ODIwMDg5MgABHoX9i4IC48Z3E0M4RVsN_6T0SwE1IPTPilemnrPjeMDIXlvyie7E9vIzvE1n_aem_B79S-oN7PtTqQycFEm6DWA&brid=x6-jklz_MmIF1MDSM5JW2g&pli=1

Trabajo decente e inclusión social

Buscar este blog