Генезис. Искусственный интеллект, надежда и душа человечества - Крейг Манди
Проблема усугубляется тем, что внутренние процессы современных моделей ИИ остаются для нас, по выражению Элиэзера Юдковского, «гигантскими массивами непостижимых чисел», и мы не сможем быть уверенными в безопасности этих постоянно меняющихся систем[164]. Следовательно, необходимо параллельно развивать два ключевых направления: исследование внутренних механизмов работы ИИ и создание надежных защитных систем.
В условиях стремительного развития систем ИИ возникает ключевой вопрос: как перейти от реагирования на угрозы к их упреждающему предотвращению? Какие прогностические методы и механизмы контроля потребуются для предугадывания действий не только людей, но и принципиально иной формы интеллекта? Сложность заключается в том, что традиционная стратегия проб и ошибок неприменима – мы лишены возможности учиться на последствиях, когда цена ошибки становится неприемлемо высокой.
Чтобы сделать ИИ более предсказуемым, требуется постепенно накапливать практический опыт через постоянное взаимодействие с системами и вовлечение их в условия физической реальности. Если первые разработчики ИИ избегали преждевременного контакта алгоритмов с внешней средой, современные исследователи сознательно размещают экспериментальные модели в публичном пространстве для ускоренной проверки – разумеется, при строгом контроле потенциальных рисков. Инженеры непрерывно совершенствуют архитектуру систем, модифицируя механизмы управления, даже учитывая, что массовое использование продолжает выявлять ранее неизвестные уязвимости и проблемные аспекты функционирования.
Раннее взаимодействие с реальным миром помогает снизить риски проблемного поведения ИИ, одновременно обучая саму систему и повышая осведомленность людей, равно как и их здоровый скептицизм. Миллионы ежедневных взаимодействий помогают протестировать даже самые маловероятные сценарии, с которыми может столкнуться ИИ. В свою очередь, массовое использование систем ИИ выявляет ошибки и риски, значительно ускоряя прогресс в технической согласованности. Таким образом, даже ограниченные по возможностям системы ИИ, выведенные в открытый доступ, способствуют адаптации общества к технологическим изменениям и, что наиболее существенно, дают исследователям возможность совершенствовать модели антропоморфной адаптации искусственного интеллекта.
Однако ни массовое использование, ни открытое тестирование не способны идентифицировать и нейтрализовать все актуальные риски – в особенности потенциальные угрозы, связанные с развитием систем следующего поколения.
К счастью, в настоящее время ведутся активные разработки единой системы контроля, интегрируемой непосредственно в архитектуру перспективных систем ИИ. Такой подход призван обеспечить их функционирование в строго заданных рамках – безопасное, соответствующее правовым нормам и ориентированное на практическое применение.
На текущем этапе разработки можно выделить два основных подхода к достижению согласованности между ИИ и человеческими ценностями: жестко заданные правила и адаптивное обучение через обратную связь. Проанализируем оба подхода последовательно.
Системы на основе правил, по сути представляющие собой набор предустановленных инструкций, отражают попытку программистов жестко регламентировать поведение ИИ. Хотя такой подход эффективен для решения простых задач, в сложных сценариях он часто дает сбои, поскольку системы не способны адаптироваться в реальном времени. Обучение с подкреплением, в свою очередь, будучи более совместимым со сложными системами, позволяет ИИ учиться на основе взаимодействия с людьми, оценивающими его поведение, и гибко подстраиваться под конкретные обстоятельства.
Однако и у этого метода есть свои недостатки. Для эффективного обучения требуется тщательная разработка «функций вознаграждения»: любая ошибка, будь то недостаточная продуманность, непредвиденные обстоятельства или излишняя изобретательность ИИ, может привести к «взлому системы вознаграждений». В таком случае ИИ, буквально интерпретируя неоднозначные инструкции, формально достигает высоких показателей, но не соответствует истинным ожиданиям людей.
Современные системы ИИ, вбирая в себя разрозненные данные, но не имея непосредственных представлений о реальном мире, познают его через алгоритмические проекции, триллионы вероятностных суждений. Для них в этой вселенной с самого начала не существует ни «правил», ни средств, позволяющих отличить научный факт от неподтвержденных наблюдений. В восприятии ИИ даже законы физики – лишь градации относительной достоверности в бесконечном спектре вероятностей.
Однако сейчас в сфере ИИ начали появляться подходы, позволяющие учитывать человеческие нормы и формализацию фактов. Уже существуют рабочие механизмы, с помощью которых модель ИИ может усваивать определенные фактические данные («абсолютные истины»), помечать их как неизменные и встраивать в свое семантическое пространство. Причем эту информацию можно легко и глобально обновлять. Таким образом, модель учится сочетать два компонента – широкие вероятностные оценки (основанные на обучении) и точно зафиксированные истины, что в итоге позволяет системе генерировать достаточно точные ответы.
Но до окончательного решения задачи еще очень далеко, и число встающих перед нами вопросов не уменьшается. Как, например, мы, люди, можем определить для ИИ, а заодно и для себя, параметры истинного? В условиях развития ИИ даже базовые принципы его регулирования будут подвергаться постоянной корректировке, что может привести к их постепенному устареванию. Однако именно благодаря этому и формируется основа для обновления систем, корректировки прежних ошибок и появления новых факторов развития. Осознавая изменчивость наших собственных представлений о мире, важно избегать жесткой привязки ИИ к текущим «истинам» – ведь со временем они могут оказаться ошибочными, а их совокупный эффект способен затруднить необходимую корректировку базовых принципов.
Однако это вопрос долгосрочной перспективы. В настоящий момент ИИ по-прежнему нуждается в фундаментальной основе – условном «Древе познания», представляющем собой совокупность базовых истин и эмпирических фактов, признанных современным научным сообществом в качестве неоспоримых оснований. Наделив наши машины этими фундаментальными знаниями, мы сможем значительно прояснить их картину мира. В частности, если сегодня мы можем настраивать наши первые системы ИИ, опираясь на законы Вселенной, в будущем станет возможным аналогичным образом интегрировать законы человеческой природы. Подобно тому как мы следим за соответствием моделей ИИ законам физики, нам следует предотвращать их противоречие юридическим нормам, этическим принципам и социальным устоям любого государства.
Если бы существовал Свод законов ИИ, там были бы такие уровни регулирования: местный, районный, государственный, федеральный, международный. При этом система опиралась бы на юридические прецеденты, судебную практику, научные комментарии, а также менее формальные источники. Как и системы, основанные на жестких правилах, заранее установленные правовые нормы и этические принципы выполняют важную ограничительную функцию, хотя и уступают в гибкости. Эти рамки создавались для более узкого круга ситуаций по сравнению с бесконечным разнообразием человеческих взаимодействий.
Однако сегодня уже разрабатываются и тестируются новые перспективные подходы, соединяющие современные технологические решения с фундаментальными принципами, проверенными веками. Надежнее и последовательнее любых правил,