Рациональность: от ИИ до зомби (другой перевод) - Элиезер Шломо Юдковски

Name: Рациональность: от ИИ до зомби (другой перевод)
Author: Элиезер Шломо Юдковски

На нашем литературном портале можно бесплатно читать книгу Рациональность: от ИИ до зомби (другой перевод) - Элиезер Шломо Юдковски, Элиезер Шломо Юдковски . Жанр: Зарубежная образовательная литература / Психология / Науки: разное. Онлайн библиотека дает возможность прочитать весь текст и даже без регистрации и СМС подтверждения на нашем литературном портале kniga-online.org.

ВПЕРЕД

Перейти на страницу:

все возможные альтернативные объяснения. Например, когда общая теория относительности Эйнштейна низвергла невероятно хорошо подтвержденную ньютоновскую теорию тяготения, оказалось, что все предсказания Ньютона были лишь частным случаем предсказаний Эйнштейна.

Философию Поппера можно даже формализовать математически. Отношение правдоподобия для X, то есть величина P(X|A)/P(X|¬A), определяет, насколько сильно наблюдение X сдвигает вероятность A; именно отношение правдоподобия показывает, насколько сильно свидетельство X. Что ж, в рамках своей теории A вы можете предсказать X с вероятностью 1, если хотите; но вы не можете контролировать знаменатель отношения правдоподобия, P(X|¬A), — всегда будут существовать какие-то альтернативные теории, которые тоже предсказывают X. И хотя мы выбираем простейшую теорию, соответствующую имеющимся свидетельствам, однажды вы можете столкнуться с фактами, которые предсказываются альтернативной теорией, но не вашей. Именно этот скрытый подвох и сокрушил ньютоновскую теорию тяготения. Так что существует предел того, сколько пользы можно извлечь из успешных предсказаний; есть предел тому, насколько высоко может подняться отношение правдоподобия для подтверждающего свидетельства.

С другой стороны, если вы сталкиваетесь с неким свидетельством Y, которое ваша теория определенно не предсказывает, это становится колоссально сильным свидетельством против вашей теории. Если P(Y|A) бесконечно мала, то и отношение правдоподобия тоже будет бесконечно малым. Например, если P(Y|A) составляет 0,0001%, а P(Y|¬A) — 1%, то отношение правдоподобия P(Y|A)/P(Y|¬A) будет равно 1:10 000. Это -40 децибел свидетельства! Или же, если перевернуть отношение правдоподобия, при крайне малой величине P(Y|A) значение P(Y|¬A)/P(Y|A) будет очень большим, а значит, наблюдение Y дает огромное преимущество ¬A перед A. Опровержение гораздо сильнее подтверждения. Это следствие высказанной ранее мысли о том, что очень сильное свидетельство — это не результат очень высокой вероятности того, что A приводит к X, а результат очень низкой вероятности того, что к X могло привести не-A. Именно это точное байесовское правило лежит в основе эвристической ценности попперовского фальсификационизма.

Точно так же утверждение Поппера о том, что идея должна быть фальсифицируемой, можно истолковать как проявление байесовского закона сохранения вероятности: если результат X служит положительным свидетельством в пользу теории, то результат ¬X должен в какой-то мере её опровергать. Если же вы попытаетесь истолковать и X, и ¬X как «подтверждающие» теорию, байесовские правила скажут, что это невозможно! Чтобы повысить вероятность теории, вы обязаны подвергнуть её испытаниям, которые потенциально способны эту вероятность снизить; это не просто правило для выявления потенциальных обманщиков в социальном процессе науки, а прямое следствие байесовской теории вероятностей. С другой стороны, идея Поппера о том, что существует только опровержение, а подтверждения вообще не существует, оказывается неверной. Теорема Байеса показывает, что опровержение — это очень сильное свидетельство по сравнению с подтверждением, но оно всё же носит вероятностный характер; оно не подчиняется каким-то принципиально иным правилам, нежели подтверждение, как утверждал Поппер.

Таким образом, мы видим, что многие феномены когнитивных наук, а также используемые учеными статистические методы и сам научный метод оказываются частными случаями теоремы Байеса. Отсюда и байесовская революция.

Теперь, когда мы представили теорему Байеса в явном виде, мы можем напрямую обсудить её составляющие.

Начнем с P(A|X). Если вы когда-нибудь запутаетесь, что в теореме Байеса означает A, а что — X, начните с P(A|X) в левой части уравнения: её интерпретировать проще всего. В выражении P(A|X) переменная A — это то, о чем мы хотим узнать. X — это то, как именно мы это наблюдаем; X — свидетельство, которое мы используем для выводов об A. Помните, что в любом выражении вида P(Q|P) нас интересует вероятность Q при условии P, то есть степень, в которой P влечет за собой Q. Более разумным обозначением (которое внедрять уже слишком поздно) было бы P(Q ← P).

Выражение P(Q|P) тесно связано с P(Q,P), но они не идентичны. Выраженное в виде вероятности или доли, P(Q,P) — это доля объектов, обладающих одновременно свойством Q и свойством P, среди вообще всех объектов; например, доля «женщин с раком груди и положительным результатом маммографии» во всей группе женщин. Если общее число женщин составляет 10 000, и у 80 из них есть рак груди и положительный результат маммографии, то P(Q,P) равно 80/10 000 = 0,8%. Можно сказать, что абсолютная величина (80) нормируется до вероятности относительно всей группы женщин. Или, для большей наглядности, предположим, что в общей выборке из 89 031 женщины группа женщин с раком груди и положительным результатом маммографии составляет 641 человек. Шестьсот сорок один — это абсолютная величина. Если вы случайно выберете женщину из всей выборки, то вероятность того, что вы выберете женщину с раком груди и положительным результатом маммографии, будет равна P(Q,P), то есть (в данном примере) 0,72%.

С другой стороны, P(Q|P) — это доля объектов, обладающих свойствами Q и P, среди всех объектов, обладающих свойством P; например, доля женщин с раком груди и положительным результатом маммографии в группе всех женщин с положительными результатами маммографии. Если в выборке есть 641 женщина с раком груди и положительным результатом маммографии, 7915 женщин с положительным результатом маммографии и всего 89 031 женщина, то P(Q,P) — это вероятность выбрать одну из тех 641 женщин при случайном выборе из всей группы в 89 031 человека, тогда как P(Q|P) — это вероятность выбрать одну из тех 641 женщин при случайном выборе из меньшей группы в 7915 человек.

В некотором смысле P(Q|P) на самом деле означает P(Q,P|P), но постоянное указание дополнительного P было бы избыточным. Вы уже знаете, что объект обладает свойством P, поэтому свойство, которое вы исследуете, — это Q, даже несмотря на то, что вы оцениваете размер группы (Q,P) внутри группы P, а не размер группы Q внутри группы P (что было бы бессмыслицей). Именно это и означает считать свойство в правой части данным: вы знаете, что работаете исключительно внутри группы объектов, обладающих свойством P. Когда вы сужаете фокус внимания, чтобы видеть только эту меньшую группу, многие другие вероятности меняются. Если вы принимаете P как данное, то P(Q,P) становится равным просто P(Q) — по крайней мере, относительно группы P. Старая вероятность P(Q) — частота «объектов со свойством Q во всей выборке» — пересматривается и превращается в новую частоту: «доля объектов со свойством Q в подвыборке объектов, обладающих свойством P». Если P дано, если P — весь наш мир, то поиск (Q,P) — это то же самое, что и поиск просто Q.

Если вы ограничите свое внимание исключительно популяцией яиц, окрашенных в синий цвет,