Vai al contenuto

AI Safety

Disciplina que estudia cómo hacer que los sistemas de AI sean fiables, seguros y estén alineados con los valores humanos.

La AI safety aborda los riesgos técnicos y sociales de la AI: bias, alucinaciones, uso malintencionado y alineación. Incluye técnicas como RLHF, red teaming, content moderation y watermarking.

Ejemplos prácticos

  • Filtros de contenido en ChatGPT
  • Red teaming para jailbreak
  • Watermarking en imágenes de AI
  • Auditoría de bias en los modelos

Términos relacionados