Vai al contenuto

AI Safety

Discipline qui étudie comment rendre les systèmes d'AI fiables, sûrs et alignés avec les valeurs humaines.

L'AI safety aborde les risques techniques et sociaux de l'AI : biais, hallucinations, usage malveillant, alignement. Elle inclut des techniques telles que le RLHF, le red teaming, la modération de contenu et le watermarking.

Exemples pratiques

  • Filtres de contenu sur ChatGPT
  • Red teaming pour le jailbreak
  • Watermarking d'images AI
  • Audit de biais dans les modèles

Termes connexes