The Times They Are a-Changin’

841
Статистика
Статистика
841
  • 500+
    подписчиков
Статистика темы
  • Популярность
    Топ-3280
  • Постов
    1,841
  • Просмотров
    855,515
  • Подписок
    841
  • Карма автора
    -993
1 54 55 56 57 93
  • Uran @ 27.4.2015
    Равновесие ищется путем одновременного проходам по всем доскам, всем веткам с полным вектором состояний карт игроков, потом после такой глобальной итерации по всем состояниям системы происходит пересчет стратегии и новая итерация. Это как если бы мы посветили светом в калейдоскоп и посмотрели бы на полученное отражение, потом одновременно поменяли бы положение всех зеркал по определенному алгоритму и снова бы посмотрели как свет отразился во всех плоскостях, пока не нашли бы нужную нам картину.


    А есть какое-то понимание, почему это в итоге приведет к "лучшей" стратегии. Мне это неочевидно и даже кажется неверным. Или я чего-то не понимаю ( что гораздо более вероятно ).
    Ответить Цитировать
    2/5
    + 1
  • Soul,
    попробуй подумать об упрощенном виде покера, можно даже с одной префлоп улицой торговли и одной хоул картой.
    Найди опытным путем гто, пощупай стратегии, посмотри чем лучше, чем хуже.
    После это понимание можно спроицировать на сложные разновидности покера типа холдем.
    Ответить Цитировать
    26/26
    + 0
  • Uran @ 27.4.2015
    У тебя есть дерево. в каждом ноде, отображающем игровое действие с неким сайзингом, у тебя находятся стратегии для всевозможных состояний рук-доска с запоминанием порядка прихода карт. стратегия получается из такого параметра как сожаление. Чем выше сожаление тем реже данное действие будет применено для данной руки. за каждый проход вектора рук по всевозможным доскам и веткам игры редактируется стратегия сожаления и так итеративно с помощью его минимизации, находится равновесие.


    1) Оппонент играет по нашей стратегии из предыдущей итерации?
    2) Вроде возможно так, что данный алгоритм найдёт локально оптимальную стратегию, но не глобально. Если так, то все результаты пустышка.
    Ответить Цитировать
    9/32
    + 0
  • Интересно на сколько от своего уровня играет райдер? Уверен, играть свою лучшую игру и стримить для него жирный минус EV. А значит он заинтересован сильно искажать свои действия и где-то совершать не те действия, которые приносят ему наибольший профит. Второй вопрос, на сколько ему нужно выкладываться для победы над ботом. Возможно для него бот по уровню как средний рег и он играет с ним в поддавки.

    Любой результат матча без ответов на эти вопросы не даст оснований сделать верные выводы
    Ответить Цитировать
    4/4
    + 2
  • Игра против бота вообще очень сильно отличается от игры с обычными людьми и там свои специфические подстройки. ситуации в которых человек обычно будет капнут тут как правило не возникают и бакетной модели свои капнутости и тд. так что Райдер может играть в полную силу против проги и это практически никак не ухудшит его ожидание против живого оппонента.
    Ответить Цитировать
    267/512
    + 2
  • Vinni121 @ 27.4.2015
    1) Оппонент играет по нашей стратегии из предыдущей итерации?
    2) Вроде возможно так, что данный алгоритм найдёт локально оптимальную стратегию, но не глобально. Если так, то все результаты пустышка.


    Если игра с нулевой суммой и нет стороннего притока денег или его утока, если в игре не используются абстракции и если сохраняется полная информация, то есть мы помним порядок прихода карт, то возможно найти гто. Это точная математика. Если из игры утекают деньги или наоборот притекают лишние то для таких ситуаций современная математика не позволяет найти гто. А вообще возможных гто стратегий для данной игры - бесконечное количество. Все они будут играть против друг друга в ноль и будут являться оптимальными.
    Ответить Цитировать
    268/512
    + 0
  • Uran @ 27.4.2015
    Если игра с нулевой суммой и нет стороннего притока денег или его утока, если в игре не используются абстракции и если сохраняется полная информация, то есть мы помним порядок прихода карт, то возможно найти гто.


    А есть какие-то рассуждения, почему подобная итерация найдет именно ГТО в покере, а не локальный экстремум?
    Ответить Цитировать
    3/5
    + 5
  • я практически ничего не понимаю, но так интересно ..
    Ответить Цитировать
    4/4
    + 29
  • Uran @ 27.4.2015
    Может не RNR а Safe opponent exploitation не суть важно. Если играть до ривера предпросчитанный бакетинг, а ривер считать равновесие с флопа с контекстными сайзингами, то эксплойтабилити там будет адова и чтобы порвать эту хрень достаточно будет рега нл25, Райдер там явно нужен не будет.

    Тем не менее по скорости принятия решений до ривера можно достаточно уверено предположить, что бот использует посчитанные заранее стратегии. То что они посчитаны в абстракциях тоже сомневаться не приходиться. На ривере да, скорее всего никто с флопа ничего не считает, судя по их статьям это время они используют что бы преобразовать диапазоны с их абстракций в нормальный вид и уже без всяких сокращений посчитать ривер с большим количеством сайзингов.
    Ответить Цитировать
    3/3
    + 0
  • Uran @ 27.4.2015
    Если игра с нулевой суммой и нет стороннего притока денег или его утока, если в игре не используются абстракции и если сохраняется полная информация, то есть мы помним порядок прихода карт, то возможно найти гто. Это точная математика. Если из игры утекают деньги или наоборот притекают лишние то для таких ситуаций современная математика не позволяет найти гто. А вообще возможных гто стратегий для данной игры - бесконечное количество. Все они будут играть против друг друга в ноль и будут являться оптимальными.


    А как же рейк?

    Ну в смысле да, в эксперименте его нет, но по факту даже если бот обыграет человека, то за реальными столами такая стратегия уже не будет оптимальной? Или о каком "утекании" денег речь идёт?
    Ответить Цитировать
    5/13
    + 0
  • Да, если ввести рэйк в игру, то существующих математических методов уже будет не достаточно чтобы найти равновесие. Точно так же как если ввести в игру дополнительные деньги например в матче Утг вс бтн, при условии что блайнды сделают фолд.
    Ответить Цитировать
    269/512
    + 0
  • Uran @ 28.4.2015
    Да, если ввести рэйк в игру, то существующих математических методов уже будет не достаточно чтобы найти равновесие. Точно так же как если ввести в игру дополнительные деньги например в матче Утг вс бтн, при условии что блайнды сделают фолд.


    это очень-очень-очень странно звучит. Не меняется вообще ничего, кроме выплат. Все алгоритмы должны остаться рабочими. Будет крайне интересно послушать предположения (ну или факты :) ) почему может быть не так.
    Ответить Цитировать
    10/32
    + 11
  • Vinni121 @ 28.4.2015
    это очень-очень-очень странно звучит. Не меняется вообще ничего, кроме выплат. Все алгоритмы должны остаться рабочими. Будет крайне интересно послушать предположения (ну или факты :) ) почему может быть не так.


    Потому что сумма игры не нулевая. Представьте как бы функционировал мир в котором не выполнялся бы закон сохранения энергии, это был бы полный имбаланс. В некоторых ситуациях мы все же можем сделать перенормировку и запихнуть всю имбу на ранние этапы торгов и в данных условиях получить равновесие
    Ответить Цитировать
    270/512
    + 1
  • Uran @ 28.4.2015
    Представьте как бы функционировал мир в котором не выполнялся бы закон сохранения энергии


    Закон сохранения энергии здесь вообще ни при чём.

    Есть игра, в ней есть дерево возможных развитий событий. В итоге каждый сценарий приводит к плюс Аі денег у одного игрока и минус Аі денег у второго игрока. Мы вводим понятие сожаления (как я пониманию это и есть МО выигрыша данной ветки дерева) и в зависимости от него начинаем понемножку менять свою стратегию игры так, чтобы чаще выбирать более плюсовую ветку. Изменения происходят постепенно, ибо при изменении нашей стратегии даже на чуть-чуть МО каждой ветки меняется, происходит описанный тобой ранее "эффект калейдоскопа". То бишь оторвав листик с южной стороны огромного баобаба это в какой-то зачастую маленькой степени аукнется и на северной стороне. Вероятно в совсем малой степени. Таким образом стратегия изменяется до тех пор, пока не найдётся локальный экстремум, в котором мелкие сдвиги не позволяют улучшить МО всей стратегии больше, чем на какой-то очень маленький эпсилон.

    Изменим итоговые выплаты с (Аі, -Аі) на (f(Аі), f(-Аі)), где f(x) - функция рейка. Внимание, вопрос. Почему в таком случае может не сработать работавший ранее алгоритм нахождения локального экстремума? В математических выкладках есть какие-то теоремы о существовании равновесия в играх с нулевой суммой и нет доказательства его существования в играх с ненулевой суммой (если где ошибка исправьте, а то самому глаза режет). Но даже если в общем случае существование равновесия не доказано, то в данной конкретной игре существование локального равновесия по аналогии с предыдущим вариантом очень вероятно. Очень схоже на то, что описанный выше алгоритм должен сработать если он работает для игры "покер без рейка".

    Вопрос номер два, звучавший уже и от меня и от Соула. Почему этот локальный экстремум принимается за глобальный? Вполне может оказаться что с разных стартов мы приходим к разным равновесиям и тогда нам нужно сравнить их между собой - одна из стратегий может наживать с другой. Почему не обследуется всё пространство стратегий для нахождения хотя бы большинства локальных экстремумов и сравнения их игры друг против друга?
    Ответить Цитировать
    11/32
    + 6
  • Представь ситуацию со 100% рэйком. Как будет выглядеть в таком случае равновесная игра?
    Что происзойдет если мы запустим алгоритм в среде с "обычным" рэйком. В сумме стратегия получается минусовой и система будет стремиться к минимизации минуса. Это будет приводить к более тайтовой защите, на постфлопе реже будет ставиться кбет, часть рук из бета перейдут в чек, соответственно реже будет коллироваться ставка. Как это можно заэкслпойтить? Начать ставить больше. Эта стратегия тоже будет минусовая, но чуть менее минусовая чем расчетная.
    Ответить Цитировать
    271/512
    + 2
  • Получается что если мы делаем расчет равновесия в рэйковой среде и расчет равновесия без рэйка и далее сравниваем их в рэйковой среде, то равновесие расчитанное без рэйка проиграет меньше. Собственно поэтому обычно все и считают без рэйка, так как это дает лучшие результаты, но в целом это тоже не панацея. К тому же если мы считаем без рэйка и при этом играем низкие лимиты, то это будет давать не очень хорошую защиту блайндов. Особенно актуально для лимитов нл100-, хотя и на нл200 и даже нл400 это будет иметь значение.
    Ответить Цитировать
    272/512
    + 1
  • Uran @ 28.4.2015
    Что происзойдет если мы запустим алгоритм в среде с "обычным" рэйком. В сумме стратегия получается минусовой и система будет стремиться к минимизации минуса. Это будет приводить к более тайтовой защите, на постфлопе реже будет ставиться кбет, часть рук из бета перейдут в чек, соответственно реже будет коллироваться ставка. Как это можно заэкслпойтить? Начать ставить больше. Эта стратегия тоже будет минусовая, но чуть менее минусовая чем расчетная.


    Рассмотрим частный случай. Ситуация: ривер, на столе ААААК, банк 2 бб. В безрейковой игре равновесие будет "похуй рейзить, колить или чекать, только не фолдим" для обоих игроков. В рейковой игре (если рейк достаточно большой) тот, у кого первое слово всегда пушит, второй всегда фолдит. И для рейковой игры ЭТО правильная стратегия, а не та, которую одолжили из безрейковых расчётов.

    Ты пишешь, что при введении рейка стратегия игры меняется. Ну так она и должна меняться. Под неё появляется менее минусовая подстройка. Да, логично. Но вот какого хрена остановился на двух итерациях? Продолжаем пока не найдём равновесие.

    Uran @ 28.4.2015
    Получается что если мы делаем расчет равновесия в рэйковой среде и расчет равновесия без рэйка и далее сравниваем их в рэйковой среде, то равновесие расчитанное без рэйка проиграет меньше.


    Это вызывает конкретные сомнения в используемом алгоритме по нахождению равновесия. Опять возвращаемся к вопросу с локальным экстремумом, который выдают за глобальный. Это легко может привести к описанному тобою явлению. И тогда твой сегодняшний алгоритм не работает и его нужно улучшать либо же разрабатывать новый.

    А если используемый алгоритм таки можно забраковать до решения проблемы, то мы переливаем из пустого в порожнее.
    Ответить Цитировать
    12/32
    + 1
  • Uran @ 28.4.2015
    Представь ситуацию со 100% рэйком. Как будет выглядеть в таком случае равновесная игра?


    Изи. Если рейк идёт до флопа, то 100% фолд с СБ, стратегия ББ не определена (ибо он никогда не делает ход).
    Если рейк берут после флопа, то СБ 100% пуш, бб 100% фолд.

    Никаких противоречий не возникает.
    Ответить Цитировать
    13/32
    + 2
  • Пушнешь ты на такой доске и получишь колл и дофига проиграешь, а если ты чекнешь то проиграешь поменьше.
    Со стопроцентным рэйком кажется что оптимальной стратегией будет пуш на префлопе всегда. Но если ты попадешь на дурочка, то ты очень много так проиграешь, гораздо больше, чем если ты будешь опенфолдить 100%.
    Ответить Цитировать
    273/512
    + 2
  • Если нет теорем об играх с ненулевой суммой может там ГТО нет.
    Ответить Цитировать
    4/15
    + 0
1 54 55 56 57 93
1 человек читает эту тему (1 гость):
Зачем регистрироваться на GipsyTeam?
  • Вы сможете оставлять комментарии, оценивать посты, участвовать в дискуссиях и повышать свой уровень игры.
  • Если вы предпочитаете четырехцветную колоду и хотите отключить анимацию аватаров, эти возможности будут в настройках профиля.
  • Вам станут доступны закладки, бекинг и другие удобные инструменты сайта.
  • На каждой странице будет видно, где появились новые посты и комментарии.
  • Если вы зарегистрированы в покер-румах через GipsyTeam, вы получите статистику рейка, бонусные очки для покупок в магазине, эксклюзивные акции и расширенную поддержку.