Vai al contenuto

AI Safety

Disiplina që studion se si t'i bëjë sistemet AI të besueshme, të sigurta dhe të përputhura me vlerat njerëzore.

AI safety trajton rreziqet teknike dhe sociale të AI: bias, halucinacionet, përdorimin keqdashës, rregullimin. Përfshin teknika si RLHF, red teaming, moderimin e përmbajtjes, watermarking.

Shembuj praktikë

  • Filtrat e përmbajtjes në ChatGPT
  • Red teaming për jailbreak
  • Watermarking i imazheve AI
  • Auditimi i bias në modele

Terma të ngjashëm