Surgen nuevos puestos de TI para abordar la evaluación de la IA

Fuente: Asociación Empresas Consultoría
Lugar: Talento
Algunas organizaciones están creando equipos de evaluación al encontrar resultados sorprendentes en los agentes de toma de decisiones que superaron las pruebas iniciales.



Están emergiendo nuevos perfiles de TI para ayudar a las organizaciones a evaluar con mayor rigor los resultados de la inteligencia artificial (IA) a medida que pasan de proyectos piloto a despliegues a gran escala.



Muchas compañías valoran ya crear o contratar equipos dedicados a la evaluación de la IA. Para algunos expertos, estos nuevos roles constituyen una red de seguridad esencial en empresas que avanzan en la implantación de herramientas basadas en esta tecnología.



El rápido auge de los agentes de IA está impulsando esta tendencia. En los últimos meses han comenzado a configurarse equipos específicos de evaluación, según explica Yasmeen Ahmad, directora general de gestión de productos, datos y nube de IA en Google Cloud.



En opinión de esta experta, “hasta ahora no estábamos realmente en la fase de contar con agentes autónomos, complejos y con razonamiento en múltiples pasos. A medida que los clientes observan cómo se comportan los agentes en la práctica, se dan cuenta de que la evaluación no es una puerta de entrada puntual, sino una práctica continua”.



En Google, los equipos de evaluación están integrados en los grupos de desarrollo de agentes, de modo que ambas funciones avanzan en paralelo, detalla Ahmad. Y añade: “Mientras los equipos construyen agentes, se realiza una evaluación simultánea para facilitar un ciclo de iteración rápido”.



Otras organizaciones han empezado a crear grupos de trabajo de evaluación de IA dentro de sus departamentos de IA y TI, apunta Maksim Hodar, CIO de la firma de desarrollo de software Innowise. En algunos casos, las empresas combinan perfiles como arquitectos de datos, responsables de seguridad y expertos en cumplimiento normativo en un nuevo equipo, en lugar de contratar talento externo desde cero.



De función deseable a necesidad operativa



Los integrantes de estos equipos desempeñan un papel híbrido, a medio camino entre la programación pura y las prácticas empresariales éticas, añade Hodar.



A su juicio, “podemos afirmar con seguridad que estamos asistiendo a la evolución del equipo de evaluación de IA, que ha pasado de ser algo “deseable” a convertirse en una necesidad. Observamos que las empresas están abandonando la adopción ciega de la IA y optan por un enfoque más mesurado, articulado en torno a esa red de seguridad”.



Aunque está surgiendo un conjunto de herramientas —incluidos productos de observabilidad y gobernanza— orientadas a prevenir errores de la IA, la tecnología por sí sola no es suficiente, subraya. Se requiere intervención humana para determinar si una herramienta se ajusta a los valores corporativos y a la normativa vigente, como el Reglamento General de Protección de Datos (RGPD).



Para Hodar, “la tecnología puede identificar fallos técnicos, pero no puede evaluar el contexto. Aporta información, pero el equipo de evaluación es quien da el visto bueno. La responsabilidad no se puede automatizar”.



En la misma línea, Ahmad explica que los equipos humanos necesitan los datos que proporcionan las herramientas de observabilidad, pero estas no pueden aportar por sí solas el contexto que los modelos y agentes requieren para corregir resultados erróneos.



Los agentes de IA han demostrado ser eficaces superando comprobaciones en entornos de prueba. Sin embargo, el seguimiento de su comportamiento en escenarios reales exige una supervisión continua. Para Ahmad, las aplicaciones agenticas pueden superar una prueba unitaria inicial en un escenario concreto. Pero son sistemas de toma de decisiones no deterministas: no es posible probar todas las formas potenciales en que podrían comportarse en el mundo real”.



Aunque una herramienta de observabilidad puede ofrecer métricas sobre uso de tokens, herramientas empleadas, fallos o errores de razonamiento, muchos problemas requieren análisis humano. Los equipos de evaluación aportan además contexto sobre los errores de razonamiento más frecuentes.



Por eso explica que “cuando nuestros equipos internos dedican tiempo a analizar los agentes, una parte importante se centra en preguntarse: “¿Por qué ha fallado aquí la lógica de razonamiento?” En muchos casos, el agente no dispone de suficiente contexto. La solución pasa por proporcionarle el contexto adecuado, en el nivel adecuado, para que pueda tomar mejores decisiones”.



Gobernanza, cultura y alineación con el negocio



Noe Ramos, vicepresidenta de Operaciones de IA en Agiloft, es de la opinión de que un equipo de evaluación sólido también debe abordar cuestiones como la gobernanza, la preparación cultural, la alineación con los flujos de trabajo y el impacto de negocio medible de las herramientas de IA.



Ramos afirma que “el mayor obstáculo no es técnico, sino humano. Se pueden adquirir herramientas muy potentes y seguir teniendo dificultades si las personas no confían en ellas, no las entienden o no ven cómo encajan en su trabajo”.



También detecta una demanda creciente de capacidades de evaluación, aunque más como competencia transversal que como título formalizado. “A medida que las organizaciones superan la fase experimental, comprenden que la IA no puede implantarse únicamente sobre la base del entusiasmo”, apunta.



A su juicio, una disciplina formal de evaluación resulta esencial cuando la IA se escala. “En última instancia, la evaluación no trata sólo de seguridad, sino de garantizar que la IA impulse claridad y acción, en lugar de añadir ruido”, afirma, para apostillar: “Internamente lo resumimos así: utilizamos la IA para generar claridad y acción, no para abrumar a los equipos con más paneles de control”.



Ramos fue ascendida recientemente de vicepresidenta de TI a vicepresidenta de Operaciones de IA. Su equipo incluye un responsable de operaciones de IA, un ingeniero de agentes de IA y un responsable de sistemas GPT e IA. El objetivo es integrar la evaluación en el modelo operativo de IA de la compañía.



A medida que las organizaciones maduran en el uso de la inteligencia artificial, el paso del entusiasmo inicial a una evaluación disciplinada está impulsando la necesidad de una función estructurada. «Uno de los mayores riesgos es que las iniciativas de IA estén impulsadas por las voces más insistentes, en lugar de por las prioridades operativas reales», advierte. «El desarrollo de la IA no debería basarse en quién habla más alto, sino en quién aporta mayor criterio, amplificando esas voces para lograr un impacto real en la organización».



En la mayoría de las empresas, la función de evaluación debe situarse en la intersección entre TI, seguridad, liderazgo de datos y áreas operativas, y sus responsables han de conocer en profundidad el funcionamiento interno de la organización. Por eso Ramos concluye que “una de las razones por las que fracasa la evaluación de la IA es que las empresas no siempre comprenden sus propios flujos de trabajo”.



Fuente: CIOThe post Surgen nuevos puestos de TI para abordar la evaluación de la IA first appeared on AEC - Asociación española de empresas de consultoría.