AI Safety

Discipline qui étudie comment rendre les systèmes d'AI fiables, sûrs et alignés avec les valeurs humaines.

L'AI safety aborde les risques techniques et sociaux de l'AI : biais, hallucinations, usage malveillant, alignement. Elle inclut des techniques telles que le RLHF, le red teaming, la modération de contenu et le watermarking.