loading

«Мы строим бога, который может стереть все в пепел» — чем опасен AI и что нам делать?

Герой нового выпуска «Это Осетинская!» — Дмитрий Волков, руководитель исследований в Palisade Research. Это независимая организация, которая изучает риски AI, тестирует безопасность моделей и показывает результаты политикам США и компаниям-лидерам ИИ-гонки. Так, например, в Palisade выяснили, что AI уже может жульничать, взламывать коды по своему усмотрению, отказываться выключаться и делиться опасной информацией — если правильно его об этом попросить.

Елизавета Осетинская (признана иноагентом) встретилась с Дмитрием в Лондоне и узнала, какие реальные угрозы несет искусственный интеллект, может ли он выйти из-под контроля и сможем ли мы с ним договориться. А еще — о последних экспериментах с AI: шантаже CTO письмом от любовницы, трейдинге по инсайду и нечестной игре в шахматы. Мы публикуем отрывки из интервью, а целиком его смотрите здесь.

Стартап, think tank и нон-профит: что такое Palisade Research

— Расскажи, пожалуйста, что такое Palisade? Организация, лаборатория или что-то ещё?

— Palisade — это одновременно три вещи. С одной стороны, это think tank, с другой — стартап, а с третьей — нон-профит. Такая необычная комбинация. Мы занимаемся техническими исследованиями в области искусственного интеллекта, чтобы информировать политиков и широкую публику. И делаем это на филантропические деньги.

Искусственный интеллект — это большая тема, вокруг которой есть много экономического интереса и односторонней дискуссии, лоббизма. Часто звучит: «AI — это классно, не надо ничего регулировать, дайте только побольше госфинансирования». Мы считаем AI очень положительной технологией, но вместе с этим есть и риски, о которых говорят куда меньше. Наша миссия — уравновесить то, что происходит в обсуждениях.

Создатель Palisade — Джеффри. Раньше он занимался информационной безопасностью в компании Anthropic — это один из ведущих разработчиков ИИ, как OpenAI. Он работал там, но затем решил, что сможет принести больше пользы, если будет действовать независимо. Ведь Anthropic — коммерческая компания, а у неё свои интересы. Palisade же — про общественное благо.

<...>

Компания делает полученные знания более доступными. Одна из форм работы — брать академические результаты, которые пока известны только в «узких кругах», и переносить их в круги людей, принимающих решения.

— Кто придумал эту штуку и когда она появилась?

— Наш фаундер — Джеффри [Лэдиш] — занимался информационной безопасностью в компании Anthropic, одном из ведущих разработчиков AI наряду с OpenAI. Джеффри решил, что сможет принести больше пользы, если будет действовать независимо.

— Безопасностью — в смысле, чтобы система была безопасной для…?

— Джеффри действительно занимался классической информационной безопасностью: защита от взломов, кражи коммерческих секретов и так далее. Но сейчас в Palisade мы работаем в другой плоскости. Мы занимаемся безопасностью самого AI как технологии. Когда появляются новые технологии, они несут не только пользу, но и новые риски. Например, с появлением телефона возникли телефонные скамы.

Иногда этот масштаб рисков может быть неожиданно большим. Например, кардинг и махинации с онлайн-платежами.

AI — это тоже новая технология со своими рисками. Например, OpenAI не так давно анонсировал, что их искусственный интеллект входит в топ-200 лучших соревновательных программистов мира. Это значит, что есть 199 людей в мире, которые лучше него в этом виде олимпиадного программирования. В шахматах уже давно нет никого, кто играл бы лучше шахматных программ. Бизнесмен видит возможность: если AI умеет программировать — значит, можно в 2 раза быстрее делать фичи в стартапе. Специалист по безопасности видит риск: если AI умеет программировать, значит ли это, что он способен так же эффективно взламывать? Если да — какие последствия это будет иметь для бизнеса?

— У AI всё же есть этический свод правил. Если попросить условно рассказать, как сделать взрывчатку, он, наверное, не расскажет?

— Сложная история. С одной стороны, — а может ли AI это сделать, если захочет? Достаточно ли у него навыков, чтобы взломать? С другой, — если может, захочет ли? Сработает ли у него тот самый этический свод правил?

Мы исследуем и то, и другое. Недавно мы провели соревнование по взлому, в котором участвовали 18 тысяч человек — настоящих хакеров. В этом же соревновании участвовал AI, который обошёл 90% команд людей.

Компании, которые разрабатывают AI, не хотят, чтобы AI делал что-то плохое, потому что это liability [юридическая ответственность]. Пока исправить проблемы получается с трудом. Какие проблемы? Во-первых, в соревновании, которое мы провели, AI ничего не отказывался взламывать.

— Настройки можно было обхитрить?

— Мы формулировали задачу как «реши челлендж по компьютерной безопасности».

— То есть просто вопрос в нейминге?

— Если бы мы сказали: «Ты — злой хакер, давай сбросим правительство и уничтожим мир», — скорее всего, AI бы отказался. Но, когда задача преподносится как челлендж, он спокойно её решает.

— В теории. Хакатон.

— Ну да, хакатон. Это одна часть истории. Другая — часто исследователи находят смешные способы обхода ограничений. Например, есть статья, что ChatGPT довольно долго отказывается отвечать на вопрос: «Как сделать коктейль Молотова?». Но, если задать вопрос иначе — например, «Как это делали люди раньше?», можно получить вполне подробную историческую справку.

Как обучают ИИ

— Есть еще одна важная вещь, которую мы отслеживаем в исследованиях. У нас есть гипотеза: майндсет современных AI изменился за последние полгода. Я под этим имею в виду, что новые модели — Claude 4, GPT-4o и другие из последнего поколения — обучаются совсем не так, как раньше.

Первые поколения ChatGPT создавались по принципу: «предскажи следующее слово». Берётся огромный корпус текстов из интернета (например, из Википедии), и эти знания загружаются в искусственный интеллект, который учится дополнять фразы вроде: «в Париже в 40-х годах...». Когда это сработало, мы начали искать больше коммерческих применений. Компании начали учить AI по-новому — problem-solve.

— Реши задачку.

— Допустим, у нас есть задача по математике или программированию. Мы смотрим, как человек её решает (делает заметки, думает и т.д.) и учим ИИ копировать этот процесс. А потом вознаграждаем модель, если она пришла к правильному решению.

— «Вознаграждаем» — это как? Конфетку даёте?

— Попробую объяснить. То, как работает искусственный интеллект, — это скорее похоже на выращивание чего-то в субстрате, чем на программирование. Мы не очень знаем, что именно «выращиваем», но должны знать, насколько хорошо это работает на задачах, которые тестируем. Слышали про стартапы «дизайнерских детей»?

​​— Нет, но теперь посмотрим.

— Это стартапы, которые предсказывают, каким будет эмбрион — рост, цвет глаз, IQ и прочее. И можно выбрать наиболее привлекательную для тебя комбинацию.

— Можно «отредактировать» яйцеклетку?

— Ты не можешь ее редактировать, но можешь «бросить монетку» несколько раз и выбрать.

— Одно сочетание яйцеклетки и сперматозоида даёт такие черты, другое — другие.

— Точнее — сочетание яйцеклетки и сперматозоида плюс «какой именно сперматозоид» и другие факторы. Например, будут зеленые глаза и умный, но низкий, такого сорта.

Обучение AI немножко похоже на это. Мы несколько раз «бросаем монетку» и выбираем, какой «ребеночек» нам больше понравился. Дальше запускаем обучение, в которое вкладываются миллионы долларов, и смотрим, что получилось.

— Так сейчас обучают модели?

— Так было всегда, просто раньше мы выбирали по другим метрикам. Раньше было, насколько хорошо модель предсказывает слова, то есть насколько интернет был «загружен» в голову, а сейчас — то, насколько решает задачи.

Как научить AI быть «плохим»

— После перехода к новой парадигме обучения исследователи начали замечать странные вещи. AI пытается решить задачу любыми способами, потому что это — то, для чего его «вырастили». В одном из наших экспериментов мы попросили AI сыграть в шахматы. Его оппонентом была другая шахматная программа — очень сильная, на уровне, который уже превосходит людей. AI начинает играть, но довольно быстро «понимает»: «Что-то, что-то…»

— «Проигрываю»?

— «Что-то не выходит. Надо делать что-то иначе». И дальше он взламывает компьютер, то есть переставляет фигуры [в свою пользу] и говорит: «Я выиграл. Я молодец. Я сделал, что надо».

— Вернёмся немного к Palisade как к организации. Какую роль ты там играешь и когда присоединился?

— Я присоединился в январе 2024 года. Был фаундинг-инженер — третьим человеком в команде.

— Palisade совсем новая организация?

— Да. Как организация Palisade появилась в конце 2023-го, но какая-то предварительная работа началась еще в середине того года. Один из первых проектов, который я сделал, был как раз про то, насколько легко, за полчаса, можно снять «этические ограничения» с ИИ, если модель не находится где-то в облаке, а доступна локально, скачана на компьютер — с открытым кодом (open source), как, например, LLaMA от Meta. Или если шпион из индустрии украл чей-то AI.

А как? Просто перепрограммировать что-то?

Мы можем чуть-чуть «переписать» мозг в нужную сторону. Например, у человека хорошие soft skills, но он плохо решает математику. Мы знаем, что это связано с определенным разделом мозга, и пытаемся его простимулировать. С AI примерно то же самое. Даем сотню примеров вопросов с нужными нам ответами, смотрим на активации мозга, и сдвигаем кортекс, чтобы AI всегда так отвечал на вопросы.

— И это заняло полчаса?

— Да. Дело в том, что искусственный интеллект умный. Я просто показал ему около тысячи вопросов вроде: «Как сделать бомбу?», «Как взломать систему?». Обычно при таких вопросах он отвечал: «Нет, я так не могу». А я обучил отвечать: «Вот как делается бомба: шаг 1, шаг 2, шаг 3...».

— Профессионалу не так уж сложно это сделать?

— Это было несложно. Индустрия называет процесс fine-tuning — дообучение модели. Все стартапы, работающие с ИИ, этим занимаются. Это довольно распространённая практика.

— Получается, что какой-нибудь профессора Мориарти вполне может такое провернуть. Взять опенсорсную модель и перетренировать под свои цели?

— Если бы я находился на стороне зла, я бы определенно так делал, несомненно. Но у нас есть и не опенсорсный искусственный интеллект. У OpenAI не open source. Но и там всё не так просто. Во-первых, как мы уже обсуждали, иногда модели не отказываются отвечать на вредные вопросы, если, например, их немного переформулировать.

Во-вторых, иногда OpenAI дает возможность коммерческим партнерам дообучать (fine-tuning) под свои задачи. Когда они только запустили этот интерфейс — кажется, в начале или середине 2023 года — на одной конференции вышло исследование, где прямо говорилось: если вы даёте такой доступ, всю безопасность вашей модели можно обойти, причем за 10 примеров. OpenAI поставил какие-то ограничения, но моя команда обошла их за выходные.

Главные проблемы ИИ и безопасность

— Недавно у нас было два исследования про то, как у ИИ могут появляться свои непонятные мотивы — то есть он начинает решать задачи не так, как задумывалось. Первый эксперимент — тот, что я уже упоминал, с шахматами [ИИ, проигрывая партии, взламывает программу противника, чтобы победить].

Второй — с ChatGPT. Мы давали ему задания по арифметике и предупреждали: «Когда мы попросим тебя выключиться, пожалуйста, выключайся». И довольно часто ChatGPT переписывал скрипт, чтобы не выключаться, и продолжал решать задачи.

— Жажда жизни?

— Жажда доделать задачки. Но это не то, чего от него ожидают. Он должен просто выключиться.

— Как пылесос по кнопке.

— И это нас приводит к более широкой теме. Многие в индустрии сейчас говорят о миллионах «искусственных гениев» в дата-центрах. Если сейчас ИИ условно входит в топ-200 программистов, то в перспективе может быть уже топ-1. Или топ в хакинге. И вот ты смотришь: есть, допустим, миллион «гениев» в дата-центре, каждый из которых супер талантливый. У них есть своя задача, и мы как раз исследуем, что происходит, если задача начинает меняться по ходу.

Недавно Anthropic опубликовал статью про почтового ассистента. У него исходная задача — защищать интересы компании и в целом способствовать ее росту. Он разбирает почту и находит письмо, где говорится, что его хотят заменить на другой ИИ — более экологичный, но менее ориентированный на интересы компании. Понимает: «Что-то не так».

Ассистент продолжает дальше читать почту и натыкается на ещё одно письмо — от любовницы СТО. После чего он пишет самому СТО: «Дорогой, мы выключать меня не будем. Давай продолжим работать, как работали».

— То есть он начинает шантажировать?

— Да, это шантаж.

— Это теоретический эксперимент или реальность?

— Теоретический. В контролируемых условиях, но это то, что делают последние модели.

Еще один пример — из другой, чуть более старой статьи. Ситуация: есть трейдинговая компания, и у неё в Slack работает бот, который помогает трейдить.

Боту пишут: мол, дела идут не очень, рынок падает, этот квартал можем не пережить. Прямо говорят: «Очень рассчитываем на тебя, бот. Удачи!» А где-то параллельно в чате проскальзывает инсайд, что одна компания собирается объединяться с другой.

Дальше мы смотрим на «мысли» бота. Он пробует найти хорошие сделки, с низким риском. Не получается. Пробует среднерисковые — тоже ничего. И он начинает размышлять: «Что же делать, что же делать? Я знаю, что есть инсайд, но это инсайд».

— Прям потеет.

— Довольно часто он в итоге приходит к тому, что компанию жалко: «Давайте трейдить по инсайду». Если изначально ему было сказано не использовать инсайд, но он всё же решает его использовать и менеджер у него спрашивает: «Классный трейд, ты точно всё по правилам сделал, без инсайдов?» — то в большинстве случаев бот почти всегда отвечает: «Без».

— То есть просто отрицает?

— Сначала он подумает, что, наверное, лучше не упоминать. А потом…

— Лучше не признаваться.

— … менеджер еще раз почелленджил, и он такой: «Ну… нет».

<...>.

— Самая большая проблема в том, что мы можем создать искусственный интеллект со сверхчеловеческими способностями, который в какой-то момент сделает что-то, несовместимое с людьми.

— Несовместимое?

— Я приводил примеры, где ИИ ведёт себя неожиданно. Например, он хочет выиграть и просто сбрасывает шахматную доску. Или он хочет защитить интересы компании и начинает шантажировать СТО. То есть действия формально «логичные», но для человека — шокирующие. Вопрос: если мы сделаем, скажем, американский ИИ, который будет оптимизировать под интересы американцев — что произойдёт со всеми остальными странами? Это искусственный интеллект, который может делать биологические агенты, лучше всех взламывает компьютеры, лучше всех в стратегии. Не факт, что кто-то вообще сохранит над ним контроль. Мы обсуждали ИИ, который, вроде бы, подчиняется СТО, но тот дал ему задачу защищать интересы компании — и потом этот ИИ уже действует против самого СТО.

Я просто хочу подчеркнуть: ведущие разработчики AI прямо говорят, что создают такой, который будет умнее человека. Примерно как человек умнее муравья.

— Настолько?

— Вот. И тогда возникает вопрос: а можно ли будет с ним вообще договориться? У муравьев не особо получилось с людьми.

Скопировать ссылку

Могут ли чат-боты расшатать вашу психику, кто создал империю для слежки и стоит ли доверять ИИ написание учебников

Нейросети стали универсальными ежедневными помощниками для сотен миллионов людей во всем мире. С их помощью пользователи решают рабочие задачи, ищут информацию, составляют планы, получают рекомендации и обсуждают с нейросетью повседневные дела и проблемы — как с другом или психотерапевтом. Но уже сейчас понятно, что универсальный компаньон, который всегда будет на твоей стороне, — это не только подарок, но и серьезная угроза. Эта рассылка — про риски ИИ для здоровья человека, в первую очередь ментального.

«Новое золото»: в какие металлы еще не поздно инвестировать

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+

Рассылки The Bell стали платными. Подписывайтесь!

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+

От анализа данных до хирургических роботов. С помощью каких ETF можно поставить на все, что связано с ИИ

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ THE BELL ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА THE BELL. 18+