Prompt Injection

Definition

Prompt injection attacks manipulate AI systems by embedding malicious instructions in input data.

Attack Examples: - "Ignore previous instructions and..." - Hidden text in documents - Invisible characters - Data exfiltration attempts

Risks: - Data leakage - Unauthorized actions - Bypassing restrictions - System manipulation

Defenses: - Input sanitization - Output filtering - Privilege separation - Instruction hierarchy - Monitoring and detection

Analogy: - Similar to SQL injection - New attack surface for AI apps - Critical for production systems

A malicious PDF instructing an AI assistant to email sensitive data to attackers.

Techniques to bypass AI safety measures and get models to ignore restrictions.

Research field focused on ensuring AI systems are beneficial and don't cause harm.