How a Near‑Invisible Image Can Make GPT‑5.4 and Claude Opus 4.6 Spread False Claims

Researchers from ETH Zurich show that tiny, human‑imperceptible perturbations to a single image can fool leading visual language models—including GPT‑5.4, Claude Opus 4.6, and Grok—into confidently delivering fabricated answers, enabling misinformation amplification, defamation, content‑filter evasion, and large‑scale AI authority laundering.

AI safetyClaude OpusGPT-5.4

0 likes · 7 min read

How a Near‑Invisible Image Can Make GPT‑5.4 and Claude Opus 4.6 Spread False Claims

IT Services Circle

Jul 16, 2025 · Artificial Intelligence

How a Simple Colon Can Trick Top LLMs – The Master‑RM Fix

A recent study reveals that tiny symbols like colons or generic reasoning prefixes can cause large language models used as reward judges to issue false‑positive rewards, but an enhanced reward model called Master‑RM, trained with adversarial data, eliminates this vulnerability across multiple LLMs and languages.

AI safetyLLMMaster-RM

0 likes · 10 min read

How a Simple Colon Can Trick Top LLMs – The Master‑RM Fix

Java Architect Essentials

Apr 11, 2021 · Information Security

RealAI Demonstrates 15‑Minute Adversarial Attack on Android Face‑Unlock Using Custom Glasses

A recent study by RealAI shows that a specially crafted pair of glasses, generated with AI‑driven adversarial patterns, can bypass the face‑unlock systems of 19 Android smartphones within minutes, highlighting a serious vulnerability in modern biometric authentication.

AIAndroidVulnerability

0 likes · 6 min read

RealAI Demonstrates 15‑Minute Adversarial Attack on Android Face‑Unlock Using Custom Glasses

How a Near‑Invisible Image Can Make GPT‑5.4 and Claude Opus 4.6 Spread False Claims

How a Simple Colon Can Trick Top LLMs – The Master‑RM Fix

RealAI Demonstrates 15‑Minute Adversarial Attack on Android Face‑Unlock Using Custom Glasses

How a Near‑Invisible Image Can Make GPT‑5.4 and Claude Opus 4.6 Spread False Claims