Генезис. Искусственный интеллект, надежда и душа человечества - Крейг Манди
Эти принципы не зафиксированы в письменных источниках, а формируются через наблюдение и жизненный опыт. Хотя их внешние проявления различаются в зависимости от культурного контекста, базовое ядро остается неизменным: миллиарды представителей различных культур с разнообразными интересами создают удивительно устойчивую и взаимосвязанную социальную систему.
Идея о том, что незримая культурная матрица способна укрощать хаос там, где писаные правила бессильны, легла в основу новейших подходов в области ИИ. Проблема в том, что кодекс доксы нельзя четко сформулировать и тем более перевести на язык, понятный машинам. Системы ИИ должны научиться этому сами – путем наблюдения за человеческими действиями, анализируя наблюдения и соответствующим образом обновляя свои внутренние правила.
Принципы доксы не требуют строгой формализации – да в этом и нет необходимости. Человеческую мораль и культуру невозможно заранее четко определить и прописать. Современные LLM уже продемонстрировали способность анализировать необработанные массивы интернет-контента и выявлять в них содержательные паттерны. Этот опыт позволяет предположить, что ИИ – особенно модели с заземлением (устойчивой связью между входными данными LLM и их выходными решениями)[166] и возможностями причинно-следственного анализа – сможет аналогичным образом постигать те аспекты человеческого опыта, которые трудно выразить словами. Разумеется, обучение машины не должно ограничиваться только доксами, готовыми истинами. Вместо этого ИИ может вобрать в себя целую пирамиду правил – от международных договоров к национальным законам, затем к местным нормам, далее к установкам сообществ и т. д. В каждой ситуации система будет последовательно сверяться с этим иерархическим сводом – от абстрактных принципов, заданных людьми, к конкретным, но размытым данным о мире, которые ИИ либо поглотил извне, либо сгенерировал самостоятельно. И лишь после того как ИИ исчерпает всю эту программу, так и не обнаружив ни одного применимого свода законов ни для предписания, ни для разрешения, ни для запрета действий, только тогда он обратится к тому, что вывел из своего раннего взаимодействия с людьми и подражания их поведению. Так он получит возможность действовать в унисон с человеческими ценностями – даже при отсутствии фиксированных законов и устоявшихся норм.
Для разработки и внедрения в жизнь этой системы правил и ценностей нам почти наверняка придется задействовать сам ИИ. Люди так и не смогли ни внятно сформулировать, ни прийти к единому пониманию собственных норм. Как человеку в одиночку, так и целым институтам не под силу угнаться за масштабом и скоростью, которые требуются для контроля миллиардов решений – как внутренних, так и внешних, возлагаемых на системы ИИ.
Ключевые параметры системы согласования целей ИИ с человеческими ценностями должны отвечать нескольким фундаментальным требованиям.
1. Абсолютная защищенность: система должна предотвращать любые возможности отключения, обхода или модификации защитных механизмов.
2. Адаптивность: алгоритмы управления обязаны динамически корректировать правила, учитывая контекст взаимодействия, географическую специфику, персональные предпочтения пользователей (включая социальные или религиозные нормы).
3. Производительность: механизм контроля должен обрабатывать запросы в режиме реального времени; функционировать в различных культурных средах; постоянно совершенствоваться через обучение.
4. Надежность: система должна полностью предотвращать любые формы нежелательного поведения, включая технические сбои, непредвиденные взаимодействия компонентов, злонамеренные действия пользователей.
Важно отметить, что нельзя полагаться на наказания после совершенного факта – защита должна работать на опережение, иначе исправлять что-либо будет уже слишком поздно.
Как этого достичь? Частные компании, имея государственную лицензию и академическую поддержку, могли бы совместно разрабатывать «модели заземления». Также потребуется создать валидационные наборы для сертификации моделей на соответствие правовым нормам (в разных юрисдикциях) и критериям безопасности. Для надзора за множеством ИИ-агентов может потребоваться специально обученный ИИ-супервайзер (или целая система таких ИИ). Перед выполнением задачи каждый агент должен будет получить одобрение у такого ИИ-супервайзера, что позволит применять единую этическую систему к разным, отдельно разрабатываемым релизам. Лаборатории безопасности и некоммерческие организации в партнерстве с ведущими исследовательскими центрами могли бы заняться комплексной оценкой рисков как автономных ИИ-агентов, так и надзирающих систем, разрабатывая при необходимости новые методы обучения и проверки. Финансировать эту работу могли бы крупные корпорации – например, через механизмы перераспределения ресурсов, рассмотренные в предыдущих главах.
Необходима (и, вероятно, осуществима) разработка единого обучащего набора данных и соответствующего валидационного набора, собранных со всего мира и систематизированных на основе всех имеющихся законов, норм и правил – от антропологии до теологии и социологии.
Миру требуется специализированный институт, который будет отвествен за постоянное обновление и совершенствование настраиваемой базы знаний, обучающих наборов данных и валидационных наборов. Модели заземления должны быть интегрированы с ИИ-агентными, чтобы им постоянно передавалась актуальная версия единого контролируемого свода правил. При этом системы ИИ достаточной мощности могли бы осуществлять взаимный контроль, сдерживая друг друга. Критически важно, чтобы сами обучающие данные отличались объективностью и разнообразием содержания. Процессы обучения и результаты, включая интерпретацию наблюдений за ИИ и анализ «усвоения» им знаний, должны быть максимально прозрачными, с открытыми методиками и валидационными наборами для общественной экспертизы.
Органам регулирования следует разработать стандарты и процедуры аудита, обеспечивающие соответствие ИИ установленным требованиям. Перед выпуском любой модели необходимо всесторонне оценить, насколько строго она следует предписанным законам и этическим нормам; насколько сложно будет нейтрализовать ее потенциально опасные функции, а также требуемые объемы и методы тестирования, включая выявление скрытых возможностей. Крайне важно заранее предусмотреть вопросы ответственности и возможные санкции – особенно для случаев, когда ИИ намеренно обучают обходить правовые ограничения. Главная сложность заключается в том, что с развитием технологий непрерывного дообучения обеспечить соблюдение этих стандартов будет все труднее. Чтобы ИИ не превратились в «черные ящики», способные стирать собственные данные и создавать правовые лазейки, необходимо тщательно документировать каждый этап их развития – возможно, с привлечением специальных систем мониторинга на основе ИИ.
(Не)общие ценности
Научить ИИ общечеловеческой морали – задача невероятной сложности. Даже трудно представить масштаб задачи по отбору и кодированию правил для систем ИИ. Эта проблема усугубляется ключевым требованием: необходимо избежать культурного империализма, когда моральные нормы одной культуры навязываются другим. Ведь создаваемый ИИ станет основой, на которую будут опираться все без исключения. Это означает, что системам ИИ предстоит адаптироваться к уникальным нормам каждой страны – от официальных законов до неписаных правил морали, религии и общественных устоев. В идеале такие алгоритмы должны гибко подстраиваться не только под культурные особенности, но