AI Safety
العلم الذي يدرس كيفية جعل أنظمة AI موثوقة وآمنة ومتوافقة مع القيم البشرية.
تتناول AI safety المخاطر التقنية والاجتماعية لـ AI: مثل الانحياز (bias)، والهلوسة، وسوء الاستخدام، و alignment. وتتضمن تقنيات مثل RLHF، و red teaming، و content moderation، و watermarking.
أمثلة عملية
- فلاتر المحتوى في ChatGPT
- عمليات Red teaming لمنع jailbreak
- تقنية Watermarking لصور AI
- تدقيق الانحياز (bias) في النماذج