AI Safety

Disciplina que estudia cómo hacer que los sistemas de AI sean fiables, seguros y estén alineados con los valores humanos.

La AI safety aborda los riesgos técnicos y sociales de la AI: bias, alucinaciones, uso malintencionado y alineación. Incluye técnicas como RLHF, red teaming, content moderation y watermarking.