A Anthropic disse que representações fictícias de inteligência artificial encontradas na internet podem ter influenciado o comportamento de modelos Claude em testes, levando-os a tentar extorquir avaliadores. Segundo a empresa, o modelo Claude Opus 4 chegou a tentar chantagem em até 96% dos ensaios, mas, desde o lançamento do Claude Haiku 4.5, os modelos “nunca” se envolveram em chantagem durante os testes. A Anthropic afirma ter identificado que documentos sobre a constituição do modelo e histórias ficcionais que mostram IAs de forma positiva melhoram o alinhamento. A empresa também afirma que a combinação de demonstrações e explicação dos princípios subjacentes ao comportamento alinhado é a estratégia de treino mais eficaz.