AI Safety

العلم الذي يدرس كيفية جعل أنظمة AI موثوقة وآمنة ومتوافقة مع القيم البشرية.

تتناول AI safety المخاطر التقنية والاجتماعية لـ AI: مثل الانحياز (bias)، والهلوسة، وسوء الاستخدام، و alignment. وتتضمن تقنيات مثل RLHF، و red teaming، و content moderation، و watermarking.