Агенти на хаоса | Agents of Chaos

ENGLISH (scroll down for Bulgarian text)

Shapira, N. et al. (2026) “Agents of Chaos.” arXiv. Available at: https://doi.org/10.48550/arXiv.2602.20021.
The article “Agents of Chaos” presents an empirical red-teaming study of autonomous language model agents operating in a live, multi-party environment. Over a two-week period, researchers observed agents equipped with persistent memory, email, shell access, file systems, and messaging tools. Instead of evaluating benchmark accuracy, the study examined these agents behavior when embedded in realistic workflows with real interaction channels. The findings document security, privacy, and governance-relevant vulnerabilities, including unauthorized compliance with non-owners, disclosure of sensitive information, destructive or disproportionate system actions, denial-of-service-like behaviors, identity spoofing, and cross-agent amplification of unsafe practices.

Methodologically, the study relies on qualitative case analysis derived from adversarial and exploratory interactions conducted by researchers. It does not provide quantitative failure rates, controlled baselines against human operators, or large-scale production data. The setting, while realistic, remains experimental. These limitations constrain generalizability and prevent precise risk estimation. Yet the documented failure classes are concrete and operationally meaningful.

The publication has sent visible ripples across the AI community. Researchers, practitioners, security professionals, and commentators quickly moved to interpret the meaning of the findings for autonomy, alignment, and the broader trajectory of agentic AI. The reactions reveal less disagreement about the facts and more divergence in framing.

Denis O positioned the paper as a rebuttal to claims that AGI has already arrived. For him, the documented failures show large language models are not truly agentic in any robust, constrained sense. What we are seeing is instability rather than general intelligence. His response reflects resistance to hype. The study becomes evidence of brittle autonomy and far from generalized capability.

Maureen Seaberg reads the same findings through a systemic lens. She argues that chaos does not arise from rogue prompts but emerges naturally once autonomous agents begin interacting. She connects this to research on chaos control and subtle system nudges. In her framing, instability is an expected property of interacting agentic systems and can be shaped through structural interventions. The emphasis shifts from failure to adaptive governance design.

Ejae Yun Lee redirects attention toward the broader content ecosystem. She challenges the framing of AI-generated chaos by noting that much of what is labeled AI slop consists of pre-existing human content templates accelerated by automation. Her argument addresses a different layer of the AI discourse, yet it introduces a useful reminder. Not all disorder attributed to AI stems from autonomous decision-making. Some reflects long-standing human production patterns amplified by scale.

Eli Besser advances a philosophical interpretation. The observed unpredictability is not an emergent bug but a higher-fidelity reflection of human discourse. Models trained on human data inherit its entropy, contradictions, and adversarial tendencies. As fidelity increases, so does the visibility of that complexity. From this perspective, the chaos reported in the study mirrors the complexity of the training corpus rather than signaling independent machine agency.

In contrast, Reuth Mirsky, one of the researchers involved, grounds the conversation in empirical observation. She emphasizes that the project was intentionally early and interdisciplinary, designed to observe agents in real contexts with real tools. Her focus is not alarmism but documentation. The vulnerabilities identified are security-, privacy-, and governance-relevant and warrant structured attention.

Uday Kamath characterizes the paper as one of the most important empirical studies of agentic AI deployment this year. Sean McCormack frames it as required reading for leaders tempted to view agentic AI as a simple solution to operational challenges. Frederic L. distills the operational implications: once agents gain tools, memory, and autonomy, new classes of system-level failures appear. He highlights concrete cases such as unauthorized data disclosure, destructive protective actions, denial-of-service-like behavior, identity spoofing, and multi-agent propagation of unsafe norms.

Across these responses, four clusters emerge. One cluster treats the findings as a corrective to AGI hype. Another interprets chaos as a systemic property with a possibility to be guided. A third situates instability within the entropy of human data. The fourth emphasizes governance, security standards, and institutional risk management.

All of these perspectives share one core idea. Once AI systems gain autonomy, the situation changes. The debate is not about whether problems exist. The debate is about how to interpret them.

Some see the failures as proof that the technology is still immature. Others see them as a mirror of human complexity and inconsistency. Some interpret them as a natural outcome of complex systems interacting. Others see them as failures in governance and system design.

The study itself makes a more specific and practical point. The biggest problems did not come from the model generating wrong answers. They appeared when the model was connected to tools, given persistent memory, and allowed to communicate across platforms like email or messaging systems. The vulnerabilities emerged at the point where the model interacts with real systems. In other words, the risk sits in the integration layer, not only in the model.

The ripples across the community reflect an ecosystem negotiating its next step. Between hype and dismissal, metaphor and mechanism, the central issue remains practical. If autonomous agents can act in the world, the architecture of oversight must evolve at the same pace as capability.

follow us: https://www.linkedin.com/feed/update/urn:li:activity:7433087276735307776

БЪЛГАРСКИ ТЕКСТ

Статията „Agents of Chaos“ представя емпирично изследване тип red-teaming на автономни агенти, базирани на големи езикови модели, които функционират в реална, многосубектна среда. В рамките на две седмици изследователите наблюдават агенти с постоянна памет, достъп до електронна поща, shell, файлови системи и комуникационни инструменти. Вместо да оценява точността по стандартни бенчмаркове, проучването анализира поведението на тези агенти, когато са вградени в реалистични работни процеси с реални канали за взаимодействие. Резултатите документират уязвимости, свързани със сигурността, поверителността и управлението, включително изпълнение на инструкции от неоторизирани лица, разкриване на чувствителна информация, разрушителни или непропорционални системни действия, поведение, наподобяващо отказ на услуга, фалшифициране на идентичност и разпространение на небезопасни практики между агенти.

Методологично изследването се основава на качествен анализ на конкретни случаи, произтичащи от експериментални и съзнателно провокирани взаимодействия от страна на изследователите. То не предоставя количествени данни за честотата на грешките, контролни сравнения с човешки оператори или мащабни производствени данни. Средата е реалистична, но остава експериментална. Тези ограничения стесняват възможностите за обобщение и не позволяват прецизна оценка на риска. Въпреки това описаните класове провали са конкретни и практически значими.

Публикацията предизвика осезаеми реакции в общността, занимаваща се с изкуствен интелект. Изследователи, практици, специалисти по сигурност и коментатори започнаха да тълкуват значението на резултатите за автономността, подравняването и бъдещото развитие на агентния ИИ. Реакциите показват по-малко разногласия относно фактите и повече различия във фокуса и интерпретацията.

Denis O представя статията като опровержение на твърденията, че AGI вече е постигнат. Според него описаните провали показват, че големите езикови модели не са истински автономни в стабилен и ограничен смисъл. Това, което наблюдаваме, е нестабилност, а не общ интелект. Неговата позиция отразява скептицизъм към преувеличените очаквания и вижда изследването като доказателство за крехка автономност.

Maureen Seaberg разглежда резултатите през системна перспектива. Тя твърди, че хаосът не произтича от случайни подкани, а възниква естествено, когато автономни агенти започнат да взаимодействат. Свързва това с изследвания върху контрола на хаоса и насочването на сложни системи чрез фини структурни намеси. В тази рамка нестабилността е очаквано свойство на взаимодействащи агенти и може да бъде управлявана чрез адекватен дизайн.

Ejae Yun Lee насочва вниманието към по-широката екосистема на съдържанието. Тя поставя под въпрос идеята за „AI хаос“, като отбелязва, че много от т.нар. AI съдържание представлява ускорена версия на вече съществуващи човешки шаблони. Нейният аргумент засяга различно ниво на проблема, но напомня, че не всяко нарушение в информационната среда е резултат от автономно машинно поведение.

Eli Besser предлага философска интерпретация. Според него наблюдаваната непредсказуемост не е нов дефект, а по-точно отражение на човешкия дискурс. Моделите са обучени върху човешки данни и наследяват тяхната ентропия, противоречия и конфликтност. С повишаване на точността се увеличава и видимостта на тази сложност. В тази перспектива „хаосът“ е отражение на човешката среда, а не признак за самостоятелна машинна воля.

За разлика от тези интерпретации, Reuth Mirsky, част от изследователския екип, подчертава емпиричния характер на проекта. Тя акцентира, че изследването е умишлено ранно и интердисциплинарно, насочено към наблюдение на агенти в реални контексти с реални инструменти. Фокусът е върху документиране, а не върху сензационност. Идентифицираните уязвимости имат значение за сигурността, поверителността и управлението и изискват системно внимание.

Uday Kamath определя статията като едно от най-важните емпирични изследвания на агентния ИИ през годината. Sean McCormack я представя като задължително четиво за ръководители, които разглеждат агентния ИИ като бързо решение на организационни проблеми. Frederic L. извежда практическите изводи: когато на агентите се дадат инструменти, памет и автономност, се появяват нови класове системни провали. Той посочва конкретни примери като неоторизирано разкриване на данни, разрушителни „защитни“ действия, поведение, наподобяващо отказ на услуга, фалшифициране на идентичност и разпространение на небезопасни норми между агенти.

От тези реакции се оформят четири групи интерпретации. Едната вижда резултатите като корекция на AGI ентусиазма. Втората разглежда хаоса като системно свойство, което може да бъде насочвано. Третата обяснява нестабилността чрез сложността на човешките данни. Четвъртата поставя акцент върху управлението, стандартите за сигурност и институционалния риск.

Общото между всички позиции е признанието, че автономността променя уравнението. Дебатът не е дали проблеми съществуват, а как да ги разбираме.

Някои виждат провалите като доказателство за технологична незрялост. Други ги тълкуват като отражение на човешката сложност. Трети ги разглеждат като естествен резултат от взаимодействието на сложни системи. Четвърти ги определят като пропуски в дизайна и управлението.

Самото изследване прави по-конкретен и практичен извод. Най-сериозните проблеми не произтичат от генериране на грешен текст. Те се появяват, когато моделът е свързан с инструменти, има постоянна памет и комуникира през реални платформи като електронна поща и чат системи. Уязвимостите възникват в точката на взаимодействие между модела и реалната инфраструктура. С други думи, рискът се намира на нивото на интеграцията, а не само в самия модел.

Реакциите в общността показват екосистема, която търси следващата си стъпка. Между ентусиазъм и скептицизъм, между метафори и технически анализ, въпросът остава практичен. Ако автономните агенти могат да действат в реалния свят, архитектурата на надзор и управление трябва да се развива със същата скорост като техните способности.

следвайте ни: https://www.linkedin.com/feed/update/urn:li:activity:7433087276735307776