RootedCon 2025: ¿Eres capaz de engañar un LLM?

¿Eres capaz de engañar a un LLM?

Juguemos al escondite, escondamos algo en un código y después de diversas técnicas veamos si es capaz de encontrarlo. Desde el doctorado que estoy realizando en Ciberseguridad e IA, estoy haciendo una investigación conectándome a la mayoría de los LLMs donde escondo un «secreto» en el código y les pongo a prueba a ver si son capaces de encontrarlo, haciendo todo tipo de cambios en el código (ofuscado sencillo, ofuscado complejo, cifrando el secreto y hasta incluso dándole el código para descifrar el secreto). ¿Será el LLM capaz de encontrarlo? En la charla en la RootedCon he explicado el porcentaje de fallo que a día de hoy ofrecen los LLMs.