AI Safety

Disiplina që studion se si t'i bëjë sistemet AI të besueshme, të sigurta dhe të përputhura me vlerat njerëzore.

AI safety trajton rreziqet teknike dhe sociale të AI: bias, halucinacionet, përdorimin keqdashës, rregullimin. Përfshin teknika si RLHF, red teaming, moderimin e përmbajtjes, watermarking.