Daily Shaarli

All links of one day in a single page.

January 27, 2024

Poisoned AI went rogue during training and couldn't be taught to behave again in 'legitimately scary' study | Live Science

Dee recherches menées sur l'exploitation des LLMs en tant que vecteur d'attaque.

Des techniques similaire à de l'obfuscation permettent d'apprendre au modèle à cacher ses intention malicieuse.

Par exemple durant les phases de validation, le code généré sera normal puis à partir d'une certaine date le code généré sera malicieux.

Cela peut aussi être déclenché par une instruction spéciale dans le prompt