AI Safety
Disiplina që studion se si t'i bëjë sistemet AI të besueshme, të sigurta dhe të përputhura me vlerat njerëzore.
AI safety trajton rreziqet teknike dhe sociale të AI: bias, halucinacionet, përdorimin keqdashës, rregullimin. Përfshin teknika si RLHF, red teaming, moderimin e përmbajtjes, watermarking.
Shembuj praktikë
- Filtrat e përmbajtjes në ChatGPT
- Red teaming për jailbreak
- Watermarking i imazheve AI
- Auditimi i bias në modele