Vai al contenuto

AI Safety

AI sistemlerini güvenilir, emniyetli ve insani değerlerle uyumlu hale getirmeyi inceleyen disiplin.

AI safety; bias (yanlılık), halüsinasyonlar, kötü niyetli kullanım ve hizalama gibi AI'nın teknik ve sosyal risklerini ele alır. RLHF, red teaming, içerik moderasyonu ve watermarking gibi teknikleri içerir.

Pratik örnekler

  • ChatGPT üzerindeki içerik filtreleri
  • Jailbreak denemeleri için Red teaming
  • AI görsellerinde watermarking
  • Modellerde bias denetimi

İlgili terimler