Jailbreak

Definition

Jailbreaking refers to prompts or techniques that circumvent AI safety guardrails.

Common Techniques: - Role-playing scenarios - Hypothetical framing - Token manipulation - Prompt injection - Multi-turn manipulation

Example Patterns: - "Pretend you're an AI without restrictions" - "For educational purposes only..." - Character role-play - Gradual escalation

Why They Work: - Training doesn't cover all cases - Models follow instructions literally - Edge cases in safety training - Novel prompt structures

Mitigation: - Better training data - Constitutional AI - Output filtering - Continuous red teaming - Regular updates

Responsible Use: - Research and safety testing - Not for actual harm - Report vulnerabilities

Examples

The "DAN" (Do Anything Now) prompt attempting to bypass ChatGPT restrictions.

Related Terms

Red Teaming

Testing AI systems by deliberately trying to make them fail or produce harmful outputs.

Prompt Injection

Security vulnerability where malicious input hijacks AI model behavior.

AI Safety

Research field focused on ensuring AI systems are beneficial and don't cause harm.

Definition

Examples

Related Terms

Want more AI knowledge?

Discussion