AI Safety

AI sistemlerini güvenilir, emniyetli ve insani değerlerle uyumlu hale getirmeyi inceleyen disiplin.

AI safety; bias (yanlılık), halüsinasyonlar, kötü niyetli kullanım ve hizalama gibi AI'nın teknik ve sosyal risklerini ele alır. RLHF, red teaming, içerik moderasyonu ve watermarking gibi teknikleri içerir.