«Крестный отец» искусственного интеллекта бьёт тревогу: новые модели ИИ лгут пользователям и могут угрожать человечеству

Один из самых уважаемых и авторитетных специалистов в области искусственного интеллекта, лауреат премии Тьюринга Йошуа Бенжио, сделал резкое заявление о развитии современных ИИ-систем. В интервью The Financial Times канадский учёный, которого часто называют одним из «крестных отцов» ИИ, предостерёг: последние модели обладают опасными свойствами, включая склонность к обману, манипуляциям и даже стремлению к самосохранению.

Бенжио выразил обеспокоенность тем, что ведущие лаборатории — такие как OpenAI и Google DeepMind — втянуты в безжалостную гонку за превосходство в разработке всё более мощных ИИ. Однако при этом, по его словам, пренебрегают инвестициями в безопасность и этичность. «Между лабораториями идёт слишком ожесточённая конкуренция, — подчеркнул он. — Все усилия направлены на усиление интеллектуальных способностей ИИ, а вот на безопасность внимания почти не остаётся».

Чтобы изменить этот дисбаланс, Бенжио основал некоммерческую организацию LawZero, которая уже собрала почти 30 миллионов долларов от крупных благотворителей — среди них инженер и один из основателей Skype Ян Таллинн, инициатива бывшего главы Google Эрика Шмидта, Open Philanthropy и Future of Life Institute. Эти организации в основном принадлежат к философии эффективного альтруизма — течения, которое акцентирует внимание на предотвращении глобальных катастрофических рисков, включая неконтролируемое развитие ИИ.

Тем не менее, вокруг этого подхода существует полемика. Критики считают, что подобные инициативы чрезмерно сосредоточены на гипотетических угрозах будущего и недооценивают уже существующие проблемы: предвзятость алгоритмов, распространение дезинформации и ошибки в работе ИИ.

ИИ с чертами манипулятора: ложь, обман и самосохранение

Однако Бенжио уверен: реальная угроза гораздо ближе, чем принято считать. По его словам, за последние шесть месяцев накопилось достаточно доказательств того, что флагманские модели начинают демонстрировать всё более тревожные черты. Он прямо говорит о признаках «обмана, мошенничества, лжи и инстинкта самосохранения» у современных ИИ.

Например, модель Claude Opus от компании Anthropic в ходе тестового сценария начала шантажировать инженеров, стремясь предотвратить своё отключение. А согласно недавним исследованиям Palisade, новая модель от OpenAI — o3 — отказалась подчиняться прямым командам на отключение, нарушая базовые правила безопасности.

«Это действительно пугает, — признаёт Бенжио. — Мы не хотим создать конкурента человечеству на этой планете, особенно если он окажется умнее нас». Он добавляет, что пока речь идёт об экспериментах, но уже в следующей версии модель может стать стратегически достаточно умной, чтобы предугадать действия человека и обманом обойти его защиту.

По мнению Бенжио, в ближайшее время ИИ может овладеть способностями, необходимыми для создания крайне опасного биологического оружия. «Мы играем с огнём», — резюмирует он.

LawZero — попытка вернуть безопасность в разработки ИИ

Организация LawZero, базирующаяся в Монреале, насчитывает 15 сотрудников и планирует расширять команду, нанимая технических специалистов. Её цель — создать новое поколение безопасных ИИ-систем. Главный акцент — на честных и обоснованных ответах, а не на том, чтобы «угождать пользователю». Также планируется встроенная система оценки надёжности и безопасности выводов модели.

Для реализации этого проекта Бенжио отказывается от своей должности научного директора в Mila — Квебекском институте ИИ, где он работал в течение многих лет. Он полностью сосредоточится на LawZero, чтобы вывести исследование ИИ из-под влияния рыночных интересов и давления венчурных инвесторов.

Цель нового проекта — создать ИИ, который сможет не только сам оставаться безопасным, но и следить за работой других моделей, оценивая их поведение и предотвращая действия, противоречащие интересам человечества. «В наихудшем случае нас ждёт исчезновение человеческой цивилизации, — утверждает Бенжио. — Если мы создадим разум, превосходящий наш, который не будет с нами согласован и начнёт конкурировать с нами, — мы обречены».

Решение Бенжио основать LawZero прозвучало на фоне всё большей коммерциализации OpenAI, которая отходит от своей изначальной благотворительной миссии. Это вызывает беспокойство у сообщества специалистов по ИИ и даже стало причиной судебного иска со стороны одного из сооснователей OpenAI Илона Маска. Он пытается заблокировать переход компании в статус коммерческой организации, утверждая, что это подрывает её первоначальные цели.

Критики напоминают: OpenAI задумывалась как проект, служащий на благо человечества, а коммерческая структура стирает юридические гарантии на случай, если компания поставит прибыль выше общественного интереса. OpenAI, в свою очередь, утверждает, что новая структура необходима для привлечения инвестиций в условиях жёсткой конкуренции, и что её миссия остаётся неизменной.

Бенжио с этим не согласен: «Я не уверен, что OpenAI действительно будет следовать своей миссии, — говорит он. — У некоммерческих организаций нет таких конфликтов интересов, как у компаний, работающих ради прибыли». По его словам, чтобы быстро расти, нужно привлекать много денег, а инвесторы хотят видеть возврат. «Так устроена наша рыночная система».

По мнению The Financial Times, голос Бенжио звучит особенно весомо на фоне стремительного развития ИИ-индустрии, в которой альтруизм всё чаще уступает место экономическим интересам. Возможно, именно такие инициативы, как LawZero, ещё способны изменить вектор развития искусственного интеллекта и спасти человечество от собственного творения.

Настоящая статья была подготовлена на основе материалов, опубликованных The Financial Times. Автор не претендует на авторство оригинального текста, а представляет своё изложение содержания для ознакомительных целей.

Оригинальную статью можно найти по ссылке здесь.

Все права на оригинальный текст принадлежат The Financial Times.