AI Safety
Discipline qui étudie comment rendre les systèmes d'AI fiables, sûrs et alignés avec les valeurs humaines.
L'AI safety aborde les risques techniques et sociaux de l'AI : biais, hallucinations, usage malveillant, alignement. Elle inclut des techniques telles que le RLHF, le red teaming, la modération de contenu et le watermarking.
Exemples pratiques
- Filtres de contenu sur ChatGPT
- Red teaming pour le jailbreak
- Watermarking d'images AI
- Audit de biais dans les modèles