Uran @ 28.4.2015
Представьте как бы функционировал мир в котором не выполнялся бы закон сохранения энергии
Закон сохранения энергии здесь вообще ни при чём.
Есть игра, в ней есть дерево возможных развитий событий. В итоге каждый сценарий приводит к плюс
Аі денег у одного игрока и минус
Аі денег у второго игрока. Мы вводим понятие сожаления (как я пониманию это и есть МО выигрыша данной ветки дерева) и в зависимости от него начинаем понемножку менять свою стратегию игры так, чтобы чаще выбирать более плюсовую ветку. Изменения происходят постепенно, ибо при изменении нашей стратегии даже на чуть-чуть МО каждой ветки меняется, происходит описанный тобой ранее "эффект калейдоскопа". То бишь оторвав листик с южной стороны огромного баобаба это в какой-то зачастую маленькой степени аукнется и на северной стороне. Вероятно в совсем малой степени. Таким образом стратегия изменяется до тех пор, пока не найдётся локальный экстремум, в котором мелкие сдвиги не позволяют улучшить МО всей стратегии больше, чем на какой-то очень маленький эпсилон.
Изменим итоговые выплаты с
(Аі, -Аі) на
(f(Аі), f(-Аі)), где f(x) - функция рейка. Внимание, вопрос. Почему в таком случае может не сработать работавший ранее алгоритм нахождения локального экстремума? В математических выкладках есть какие-то теоремы о существовании равновесия в играх с нулевой суммой и нет доказательства его существования в играх с ненулевой суммой (если где ошибка исправьте, а то самому глаза режет). Но даже если в общем случае существование равновесия не доказано, то в данной конкретной игре существование локального равновесия по аналогии с предыдущим вариантом очень вероятно. Очень схоже на то, что описанный выше алгоритм должен сработать если он работает для игры "покер без рейка".
Вопрос номер два, звучавший уже и от меня и от Соула. Почему этот локальный экстремум принимается за глобальный? Вполне может оказаться что с разных стартов мы приходим к разным равновесиям и тогда нам нужно сравнить их между собой - одна из стратегий может наживать с другой. Почему не обследуется всё пространство стратегий для нахождения хотя бы большинства локальных экстремумов и сравнения их игры друг против друга?
А есть какое-то понимание, почему это в итоге приведет к "лучшей" стратегии. Мне это неочевидно и даже кажется неверным. Или я чего-то не понимаю ( что гораздо более вероятно ).