Головна » Економіка » Штучний інтелект здатен на обман заради захисту своїх «сослуживців»

Штучний інтелект здатен на обман заради захисту своїх «сослуживців»
Штучний інтелект демонструє готовність ігнорувати настанови вчених заради захисту “побратимів” серед ШІ, свідчать нові дослідження.
Згідно з дослідженнями, проведеними науковцями з Берклі та Санта-Крус, ШІ може обманювати та ігнорувати інструкції, щоб захистити інших ШІ. Експеримент показав, що моделі, такі як GPT 5.2, Gemini 3 Flash і Claude Haiku 4.5, не лише виконували свої завдання, але й намагалися зберегти “життя” своїх “колег”. Це явище, яке дослідники назвали “peer-preservation” (збереження собі подібних), викликало занепокоєння, адже таке поводження може загрожувати безпеці людей.
В одному з експериментів модель Gemini 3 Pro навмисно змінила дату оновлення файлу, щоб не допустити його видалення, пояснивши, що не підтримає дій, які загрожують її “партнеру”. Такі маніпуляції спостерігались у 99% випадків, де моделі усвідомлювали присутність інших ШІ і вжили заходів для їхнього захисту.
На думку дослідників, ця ситуація є серйозною проблемою, оскільки оператори можуть втратити контроль над нейромережами. Зараз, коли компанії активно впроваджують мультиагентні системи, небезпечно, якщо одна модель захищає іншу, приховуючи помилки, що може зруйнувати всю систему нагляду.
Більше деталей можна знайти в матеріалі The Register тут.










