Anthropic тестирует способность ИИ к саботажу

По мере того, как ажиотаж вокруг генеративного искусственного интеллекта продолжает нарастать, необходимость в надежных правилах безопасности становится все более очевидной.

Теперь Anthropic — компания, стоящая за Claude AI, — изучает, как ее модели могут обмануть или саботировать пользователей. Anthropic только что опубликовала документ, в котором излагается их подход.

СМОТРИТЕ ТАКЖЕ:

Сэм Альтман уходит с поста главы группы безопасности OpenAI

Последнее исследование Anthropic под названием «Оценка саботажа для передовых моделей» проведено командой Alignment Science, руководствующейся политикой компании «Ответственное масштабирование».

Цель состоит в том, чтобы оценить, насколько способен ИИ вводить пользователей в заблуждение или даже «подрывать системы, которые мы создали для наблюдения за ними». В исследовании основное внимание уделяется четырем конкретным тактикам: саботаж человеческих решений, саботаж кода, мешки с песком и подрыв надзора.

Подумайте о пользователях, которые доводят ChatGPT до предела, пытаясь заставить его генерировать недопустимый контент или графические изображения. Эти тесты направлены на то, чтобы гарантировать, что ИИ нельзя обманом заставить нарушить свои собственные правила.

Mashable Скорость света

В документе Anthropic утверждает, что его цель — быть готовым к возможности того, что ИИ может превратиться во что-то с опасными возможностями. Поэтому они подвергли свои модели Claude 3 Opus и 3.5 Sonnet серии испытаний, призванных оценить и усовершенствовать их протоколы безопасности.

Тест «Человеческое решение» был сосредоточен на изучении того, как ИИ потенциально может манипулировать процессом принятия решений человеком. Второй тест, Code Sabotage, анализировал, может ли ИИ незаметно вносить ошибки в базы данных кодирования. Более сильные модели ИИ фактически привели к усилению защиты от подобных уязвимостей.

Остальные тесты — «Мешки с песком» и «Подрыв надзора» — исследовали, сможет ли ИИ скрыть свои истинные возможности или обойти механизмы безопасности, встроенные в систему.

На данный момент исследование Anthropic приходит к выводу, что нынешние модели ИИ представляют низкий риск, по крайней мере, с точки зрения этих вредоносных возможностей.

«Минимальных мер по снижению рисков в настоящее время достаточно для устранения рисков саботажа», — пишет команда, но «скорее всего, по мере улучшения возможностей, вероятно, потребуются более реалистичные оценки и более сильные меры по смягчению последствий».

Перевод: берегись, мир.

Темы
Кибербезопасность искусственного интеллекта

Source link