AI Safety
AI sistemlerini güvenilir, emniyetli ve insani değerlerle uyumlu hale getirmeyi inceleyen disiplin.
AI safety; bias (yanlılık), halüsinasyonlar, kötü niyetli kullanım ve hizalama gibi AI'nın teknik ve sosyal risklerini ele alır. RLHF, red teaming, içerik moderasyonu ve watermarking gibi teknikleri içerir.
Pratik örnekler
- ChatGPT üzerindeki içerik filtreleri
- Jailbreak denemeleri için Red teaming
- AI görsellerinde watermarking
- Modellerde bias denetimi