AI Safety
Disciplina que estudia cómo hacer que los sistemas de AI sean fiables, seguros y estén alineados con los valores humanos.
La AI safety aborda los riesgos técnicos y sociales de la AI: bias, alucinaciones, uso malintencionado y alineación. Incluye técnicas como RLHF, red teaming, content moderation y watermarking.
Ejemplos prácticos
- Filtros de contenido en ChatGPT
- Red teaming para jailbreak
- Watermarking en imágenes de AI
- Auditoría de bias en los modelos