Vai al contenuto

AI Safety

العلم الذي يدرس كيفية جعل أنظمة AI موثوقة وآمنة ومتوافقة مع القيم البشرية.

تتناول AI safety المخاطر التقنية والاجتماعية لـ AI: مثل الانحياز (bias)، والهلوسة، وسوء الاستخدام، و alignment. وتتضمن تقنيات مثل RLHF، و red teaming، و content moderation، و watermarking.

أمثلة عملية

  • فلاتر المحتوى في ChatGPT
  • عمليات Red teaming لمنع jailbreak
  • تقنية Watermarking لصور AI
  • تدقيق الانحياز (bias) في النماذج

مصطلحات ذات صلة