Uran вся эта теория с вычислениями , полезна если только есть желание создать бота ?
flint1005 @ 3.1.2015
Пушер, а за что ты Урану -100 в рейтинг влепил, да еще с такими формулировками?
Uran @ 3.1.2015
Не буду отставать от современной моды и тоже напишу пост про ГТО. Расскажу о своем хобби - о машинном гто. Начну с рассмотрения алгоритма расчетов , который можно уже назвать классическим. Авторы данного алгоритма ученые из института Альберты. Если у кого-то есть время, желание, знание английского и математическое образование то велком http://poker.cs.ualberta.ca/publications/NIPS07-cfr.pdf
Алгоритм очень хорошо себя зарекомендовал в лимитных HU играх. Эксплоитабилити лучших расчетов для лимитного холдема очень низкое. Насколько я помню точно ниже 1бб/100. Эксплоитабилити это величина на которую можно обыграть данный фиксированный алгоритм (то есть он заранее расчитан и не подстраивается под действия оппонента) зная его полное дерево стратегий для всех типов досок и строя к этому дереву полную контр стратегию. Как считается модель на основе данного алгоритма. Для начала нам нужно определиться с количеством различных сайзингов. Для примера предположим, что мы моделируем безлимитный покер, но с фиксированным стеком и одним размером сайзинга (то есть мы делаем всегда только одного размера опен рэйз например 2.5бб далее 3 бет 9бб и тд) Сначала строится дерево действий на основе этих сайзингов - всевозможные действия игроков которые могут быть уложены в 100бб стек. Для хэдзапа с фиксированным одним бетом получится дерево решений что-то около 500 нодов (точек развлетвления стратегии). Далее в каждом ноде у нас возможны действия ведущие в другой нод - рэйз, колл, чек и фолд ведущий к терминальному состоянию. Далее для каждого нода у нас есть набор рук. Рука для машины это немного не то что для человека. Машинная рука точка во всем пространстве покерных состояний, включает карманные карты игрока и доску (при этом без учета порядка прихода карт на доску). На флопе у нас примерно 1.5миллиона различных не абстрагированных рук, на терне и ривере это величины еще больше, но если умело группировать все еще не абстрагированные руки по терну и риверу то можно обойтись 7 миллионами рук. И для каждой руки каждого нода у нас есть параметр, отвечающий за стратегию, частоту игры данной руки и данного действия. Параметр назвается сожаление, а весь алгоритм cfrm - алгоритм минимизации сожаления. Как это работает. Допустим мы знаем начальное состояние всего дерева и в нем все сожаления для всех ситуаций во всех нодах в начале одинаковые, то есть нам без разницы как к примеру играть на префлопе АА. для начала мы их играем 50 на 50 между фолдом и рэйзом. Со временем сожаление от фолда будет возрастать, а сожаление от рэйза будет уменьшаться, что приведет к тому, что в дереве решений мы практически со 100% вероятность не будем фолдить тузов и будем с ними делать опен рэйз. с префлопом в общем-то проблем нет, там все довольно быстро сходится так как для каждого префлоп нода у нас всего 169 рук и стратегий для них. когда мы доходим до терминального нода, завершающего нашу игру (то есть до вскрытия или до фолда), то, то сколько денег мы выиграли или проиграли за данную иттерацию мы переводим в сожаление и последовательно меняем для всех нодов, лежащих выше в дереве. Допустим мы дошли до ривера и там был фолд. Для всех последовательностей действий-нодов, сначала на ривере, терне, флопе и далее на префлопе мы изменяем сожаление для данной руки и стратегии. так как нодов у нас много, а рук в каждом ноде дохера, то процесс оптимизации стратегии, чтобы насытить все редкие ноды и руки в них (например двойной чек-рэйз по флопу и терну это очень редкий нод) занимает триллионы итераций. при этом даже после такого огромного количества сыграных раздач (которое зачастую превосходит количество сыгранных раздач людьми), мы получим что основные ноды и руки в них будут довольно хорошо расчитаны, а вот более редкие ноды плохо. При этом есть физические ограничения на скорость расчетов и быстрее чем 9 триллионов раздач в месяц скорее всего в ближайшее время считать не получится. ну то есть возможно потолок повысится, но скорее всего не намного. Упирается все в скорость памяти и контроллера. Буржуи как-то умудряются распараллеливать алгоритм на суперкомпьютерах, но засчастую это ведет к ухудшению сходимости. Горшочек или дудочка.
Можно пойти через путь обобщения различных рук. К примеру мы говорим что на флопе в ноде где мы префлоп рэйзер и оппонент чекнул мы можем сгруппировать 1.5 миллиона рук для этого нода к примеру в 100 коробочек. Допустим у нас есть некоторый математический оракул, который знает что руку (АА) АК8 и рука (А8) ААК примерно одна и та же рука (хотя в реальности мы конечно выберем АА вместо А8 пусть и там и там у нас трипс) и уже редактировать стратегию не для всех рук данного нода а для только для коробочки, полагая что все руки мы будем играть одинаково. И тут мы встаем на скользкую тропу. Дело в том, что теория говорит нам о том, что равновесия в игре с не полной информацией для двух человек может быть гарантированно найдено лишь при ряде условий. в частности мы не должны абстрагировать руки в коробочки и при этом мы должны помнить для каждого нода из какой коробочки другого нода мы пришли (perfect recall). Так уж получилось что на пефект рекол все давно уже забили, потому что это просто нереально, а вот попытки считать не абстрагированное равновесие или слабо абстрагированное равновесия год от года предпринимаются. Каждый год, летом, проходит чемпионат среди покерных программ в лимитный и безлимитный холдем при стеках 200бб. как правило, победителем последних лет становились участники, использующие гто стратегии на основе cfrma. И как правило это были ребята и института Альберты с их алгоритмом Гипербореан. Насколько же хорошо они играют ? Для начала скажу, что тот же Гипербореан, считался с 10 сайзингами ставок для каждой улицы и 3мя рэйзами. Для 200бб стеков это просто дохрена нодов. При этом для участников есть немаловажное ограничение - размер алгоритма-программы в распакованном виде не должен превышать 120 гигабайт. Для сравнения, минимальный размер не абстрагированного нода по риверу 800 мегабайт, а учитывая что 90 процентов всех нодов - это ноды по риверу, получается печальная ситуация. На что может расчитывать игрок уровня нл10 против гипербореана в хэдзапе. Да он его порвет этого гиперборбореана минимум в 20бб/100. Но что если мы расчитаем не абстрагированный хэдзап только с одним сайзингом ? Всего один сайзинг, 500 нодов, но даже для этого нам потребовался сервер на 96 гигабайт оперативки и 3 месяца расчетов, при этом часть редких нодов все равно пришлось абстрагировать и руки в них запихивать в коробочки по 100к ячеек. Далее полученное дерево прикрутили к покер академии и начали играть в лимитированный безлимитный покер. По началу у меня и моих друзей не получалось обыграть алгоритм, потом я отдал его для тестирования игроку, который очень плохо играл в покер и он просто разорвал прогу. Начал разбирать как это у него получилось и оказалось, что все что делал этот слабый игрок - это бет или рэйз на любой улице. в результате программа попадала в далекие, слабо просчитанные ноды и почему то фолдила слегка чаще чем это было оптимально. Но при этом в ситуациях где было малое количество ставок, программа показывала все еще отличные результаты против игроков. To be continued
PusheeR @ 4.1.2015
Он над покерным ботом,ребята, ведь не первый год уже работает
PusheeR @ 4.1.2015
Если бы я сам создал тему, в которой бы раскрыл детали того, чем всё это время Уран и компашка занимались с каким-нибудь громким названием типа "Уран создаёт покерного бота", вы бы все тут присутствующие ему вмиг рейтинг в красный раскрасили.
PusheeR @ 4.1.2015
И в заключения я вам скажу то, что Уран бота еще в том году сделал для 6макса и тот ему успешно подсказывает что делать на каждой из улиц. НЛ100 зума этот бот бьёт. Предположу что такой суперплюсовый декабрь в этом году - прямое следствие его разработок.
nwDanon @ 4.1.2015
И чего же ты ждал? Имел что-то с этой темы или дела с Ураном, а сейчас пути разошлись? Кто соучастники?
PenoplastObSteklo @ 4.1.2015
Вообще я уже давно догадывался, что у всех топ регов такой бот давно есть. Его стоимость от 20 К варьироваться должна, я интересовался вопросом. Норм бот будет около 50 К стоить.
Было бы очень странным, если бы у топ-регов такого бота не было.
Райдер интервью давал, спалился косвенно, что у него есть бот. Уверен, что у тру, форха и остальных тоже бот есть.
PusheeR @ 4.1.2015
Неплохо было бы получить дополнительную информацию. Лично я практически убеждён, что каким-то суперсофтом из них никто не пользуется. Его попросту не существует.
PusheeR @ 4.1.2015
Вас не пугает, что он так спокойно рассказывает про то как у него программка плохо сходится на ДЕВЯНОСТО ШЕСТИ ГИГАБАЙТНОЙ оперативке?
PusheeR @ 4.1.2015
Скажу, что делал его человек, который с покером знаком плохо в принципе, зато в программировании топовый. Так что смысла озвучивать имя,фамилию нету. Всё равно вы его не знаете)