Neofelis: На компе i7 7700k 4CPU + GTX 1080TI с контролем 1+1 LeelaZero сильнее Стока 8. То-есть, даже опенсорсный движок, которому полгода обходит тот самый Сток на обычном ПК. Нет причин сомневаться в том, что у гугла там все в порядке с тестами.
Почему вы вечно сравниваете "обычный" комп с процом за 400 долларов и видеокартой за 1000?
Давайте тогда ещё добавим 60% компов, на которых вообще нет дискретной видеокарты, там Лила и Stockfish 2.2 не обыграет.
Сравнивать имеет смысл что-то с каким-то критерием равенства.
Ну, например, по цене, чем не критерий (по амортизации будет ещё хуже для GPU, они все - те ещё грелки). И там Лила будет несколько сильнее 8, существенно слабее 10+ в любой вменяемой конфигурации. И это в матче 1х1, если же делать рейтинг на основе игр на широком поле движков, для лилы будет всё несколько хуже.
Да и с каких это пор Лиле полгода? Уже год вполне себе, причём прогресс за последние 3 месяца - вполне себе 0 эло. Я уж молчу про очень плохой скейлинг на длинный временной контроль, который пиарщики из гугла умудрились обозвать "хорошим".
Итого что имеем - группа учёных с мало чем ограниченным бюджетом и железом стоимостью в добрую сотню миллионов долларов за 4-5 лет смогла сделать что-то похожее по силе на стокфиш (хотя матч против 8 не очень впечатляет, 52 эло это просто очень мало, sf10-sf8 где-то 110-130 будет), который разрабатывается двадцатью энтузиастами на добровольной основе в свободное от работы время и 80% поставил 1 китайский меценат.
Причём всё настолько плохо, что они даже не хотят выкладывать в общий доступ веса или хотя бы их продавать - желающих купить бы хватило. Почему не хотят? Мне в голову приходит только то, что не хотят, чтобы тестирование проводили те, кто сможет хорошо его провести, а не напустить тумана. И увидим мы, что "непобедимый" а0 болтается-то на 2080 TI против 32-ядерного Ryzen на уровне SF9 какого-нибудь, что, конечно, тоже очень неслабо, но куда слабее десятки.
я частично согласен, в том, что касается закрытости разработчиков.
Но вот что касается силы игры без GPU, то тут я не уверен. Тренировка сети без GPU или специализированного железа это, видимо, действительно малоперспективно. А с использованием готовых коеффициентов все не так печально. На сегодня никто реально не поработал над оптимизацией inference на обычных многоядерных CPU просто потому, что во времена "бури и натиска" это ни кому особо не нужно*. Вот когда в machine learning все устаканится, замедлится, тогда до этого у кого нибудь руки дойдут.
И тогда неожиданно (вернее ожидаемо, как для меня) окажется, что разница в скорости какого-нибудь i5-9600K против дорогой NVidia не порядки, а считанные разы, что в персчете на ЭЛО немного
* - Даже скорее наоборот, гуглу и NV выгодней, чтоб все от них зависели. Intel дезорганизован худшим СЕО в истории, AMD традиционно в софте импотенты, Apple не волнует ничто кроме Apple итп.
Michael_S: * - Даже скорее наоборот, гуглу и NV выгодней, чтоб все от них зависели. Intel дезорганизован худшим СЕО в истории, AMD традиционно в софте импотенты, Apple не волнует ничто кроме Apple итп.
Тут я не эксперт, но скажу, что на 43-ядерном ксеоне Лила получает nps примерно как на GTX 660 или что-то около того.
И я сомневаюсь, что это сильно можно улучшить софтом. В конце концов в одной 2080 ядер несколько тысяч, пусть и менее производительных.
Neofelis: Не хочу уменьшать заслуги разработчиков Стока, но и вы не завирайтесь. Разработчики Лили такие же энтузиасты, как и вы. И они сделали прогу, которая вошла в топ-4, за полгода. Сток 10 сильнее, но это вопрос времени. Потому что его прогресс остановится с уходов энтузиастов, а Лила будет всегда набирать ело, просто играя сама с собой.
Где набор эло за последние 3 месяца? Ведь там просто "набирается эло от игр самим с собой"?
А на деле всё упёрлось в потолок, как и а0, который тоже упёрся в потолок. И этот потолок не выше стокфиша 10, который, кстати, ни в какой потолок не упирается. С релиза 10 версии вон прибавил примерно 10-15 эло на мультипроцессорных системах и тем больше, чем больше процессоров.
Т.е. для стокфиша достаточно писать патчи. Для нейросети её надо обучить с нуля, что ещё гугл может себе позволить на железе в непонятное количество миллионов долларов, а вот комьюнити уже и не очень как-то.
Да и вот результаты.
https://tcecbonus.club/
12-ядерный ryzen за 400 долларов против Лилы на 2х2070. Интерпретируйте сами.
А ещё есть KomodoMCTS,который никакой нейросети не имеет, но уже играет в силу стокфиша 6 и GPU ему для этого не нужны. Возраста как Лиле, но и в это я верю больше.
Если Гугл за 3 года и с многомиллионным железом так и не смог изобразить чего-то существенно большего, чем SF, то и Лиле не светит. Учитывая, что разработка там идёт, прямо скажем, далеко не на уровне гугла.
Вы совершенно не в курсе. Долго рассказывать, что именно сейчас происходит в разработке Лилы. Но она уже шагнула дальше Альфазеро. Во-первых, в новом ране юзается tablebase rescoring, который гугл не юзал из-за того, что это не general approach, а чисто шахматная фишка. Во-вторых, используют новый тип тренировки (SWA), который опять же был придуман уже после выхода Альфазеро, но который сильно помогает. В третьих, новая архитектура (SE layers), которая опять же не general, но в шахматах очень помогает. Все это дает намного выше потолок и быстроту обучения. Даже тестовый пробег на в два раза меньшей нейронке уже стремительно приближается по силе к лучшему. И это только начало. Там возможностей куча. Из ближайшего, что можно будет увидеть - это еще один тестовый пробег, который никто и не думал где-то в турнирах юзать, но который "случайно" оказался намного сильнее предыдущего. Ждем буквально на днях выхода в свет. Может быть даже в следующем дивизионе TCEC.
Разработчики остановили первую версию еще в начале лета. Именно из-за того, что там багов куча было и нейронка обучилась на них. Дальше были исправление этих багов и поиск оптимальных параметров. Когда с параметрами более-менее разберутся, запустят следующий selfplay run. Дальше только ждать и смотреть. Потолка силы нет. Есть неоптимальные параметры, с которыми нейронка может перестать обучаться, или неоптимальная архитектура. Когда с этими двумя вещами все станет понятно, разработчики будут отдыхать и смотреть на рост эло :).
Michael_S: * - Даже скорее наоборот, гуглу и NV выгодней, чтоб все от них зависели. Intel дезорганизован худшим СЕО в истории, AMD традиционно в софте импотенты, Apple не волнует ничто кроме Apple итп.
Тут я не эксперт, но скажу, что на 43-ядерном ксеоне Лила получает nps примерно как на GTX 660 или что-то около того.
И я сомневаюсь, что это сильно можно улучшить софтом. В конце концов в одной 2080 ядер несколько тысяч, пусть и менее производительных.
То, что NVidia называет ядрами (CUDA cores), эквивалентно не ядрам (cores) обычных процессоров, а 32-битным SIMD lanes. По такой номенклатуре одно ядро Skylake/Kabi Lake/Coffee Lake эквивалентно 16-ти CUDA cores, причем это еще без учета разницы в частоте. Одно ядро Skylake-X - 32 CUDA cores.
Настоящих ядер, т.е. модулей, способных выполнять более-менее независимые вычисления, в GTX 1080 Ti тоже много, но не 4000, а порядка 80. Каждый SM в архитектуре Паскаль это примерно 4 "настоящих" ядра.
Другое дело, что Паскаль и Вольта способны выполнять операции с половинной точностью вдвое быстрей, чем с обычной, а Тьюринг вообще имеет специальные ИИ-ускорители (Tensor core). Интеловские "озера" такое пока не умеют (что-то может только Knights Mill, но это серия уже по сути мертва), но в течение года кое-чему научатся. Не на уровне Тьюринга, конечно, ближе к старенькому Паскалю.
Кстати, что еще за 43-ядерный Xeon? Никогда не слышал про такие. Может, это не настоящий Xeon, а Xeon Phi ?
А на счет того, что софт для inference нельзя сильно улучшить, это вы зря. Там еще конь не валялся, особенно в части, касающейся оптимизации не для общего случая, а для конкретных (и небольших) размеров матриц.
Neofelis: Вы совершенно не в курсе. Долго рассказывать, что именно сейчас происходит в разработке Лилы. Но она уже шагнула дальше Альфазеро. Во-первых, в новом ране юзается tablebase rescoring, который гугл не юзал из-за того, что это не general approach, а чисто шахматная фишка. Во-вторых, используют новый тип тренировки (SWA), который опять же был придуман уже после выхода Альфазеро, но который сильно помогает. В третьих, новая архитектура (SE layers), которая опять же не general, но в шахматах очень помогает. Все это дает намного выше потолок и быстроту обучения. Даже тестовый пробег на в два раза меньшей нейронке уже стремительно приближается по силе к лучшему. И это только начало. Там возможностей куча. Из ближайшего, что можно будет увидеть - это еще один тестовый пробег, который никто и не думал где-то в турнирах юзать, но который "случайно" оказался намного сильнее предыдущего. Ждем буквально на днях выхода в свет. Может быть даже в следующем дивизионе TCEC.
Очередные прохладные истории про то, как следующий тестовый пробег на "абсолютно новых принципах" опять окажется на 200-300 эло сильнее.
Так было с поддержкой таблиц, с 20 сетью, с 30 сетью, с багфиксами превращений в коня, да много с чем.
На деле же ничего из этого даже за пределы погрешности измерений в плане прибавки эло так и не вышло. Я-то как раз очень даже хорошо в курсе всей этой чепухи.
Проект, в котором решения принимаются голосованиями в дискорде, обречён как явление. За год разработки никто так и не смог сделать ни одной вменяемой методики тестирования прогресса всего этого или хотя бы содрать её со стокфиша - реально тестируют 2-3 человека, которые не очень представляют, что же они делают (эло измеряется на матче из сотни партий без обращения дебютов, так ещё и с усечением их до +3 оценки, что для нейросети просто бред), а в TCEC уходит неоттестированный бинарник, про что crem, который занимается в основном и написанием кода для проекта, узнаёт пост-фактум.
А по поводу "стремительно приближается"... Видел я уже эти стремительные приближения, которые на уровне SF5 резко начинают тормозить, а дальше и в 10 раз большее число игр наиграв лучше становятся на сотню эло. Ну, правда, в клоунском графике selfplay elo на сайте там 5000 прироста.
На самом деле немного жалко crem, он - хороший программист, который очень много делает и с которым всегда можно адекватно и аргументированно пообщаться, но из-за хайпа на волне а0 вышло 2 вещи - проект получил множество энтузиастов, которые дарят ему железо, что хорошо, и которые, не разбираясь в компьютерных шахматах, давят на разработчиков и проталкивают всякие глупости - что ужасно.
А руководить всем этим процессом мне бы не хотелось.
Ну и с точки зрения чистого алгоритма стокфиш интереснее - это не "чёрный ящик" многомегабайтных массивов от нейросети, а компактная и очень красиво написанная программа с очень понятной логикой принятия решений. Поэтому не очень бы хотелось, чтобы победил первый подход. Но, благо, похоже, что в шахматах он не особо и победит.
Учитывая, что в го Гугл очень давно уже стал бить лучших игроков, в сёги 300 эло легко набрал над лучшей программой, а в шахматах, если называть вещи своими именами, в общем-то и не смог реально предоставить чего-то сильнее... Мы уже достаточно близки к тому, чтобы просто упереться в потолок игры на вменяемом временном контроле и современном железе.
Об этом, кстати, свидетельствует и статистика игр по переписке - процент ничьих там неуклонно растёт. И я не уверен, что новые подходы к нейросетям дадут что-то такое, чего не сможет альфабета через 5 лет.
В любом случае, как мне кажется, самый перспективный подход - это гибрид. Который будет сочетать отличную позиционную интуицию нейронных сетей и жёсткую точность альфабета движков. Пока что нейронки хорошо играют начало партии, но зевают тактику и проигрывают эндшпили, а у AB есть проблемы в дебюте. Они должны бы компенсировать недостатки друг друга... Но пока что никакого такого проекта вменяемой силы в природе не существует.
* Both : in analysis mode, use the contempt for both players (alternating)
* Off : in analysis mode, use the contempt for none of the players
* White : in analysis mode, White will play actively, Black will play passively
* Black : in analysis mode, Black will play actively, White will play passively
Я правильно понимаю, что:
Both: белые и чёрные будут использовать значение contempt, заданное соответствующей настройкой?
Off: белые и чёрные будут использовать значение contempt, равное ноль?
Both: при contempt=0, Both=Off?
Сомнения зародились, так как при любых вариантах настроек (в режиме UCI_AnalyseMode=true или в режиме UCI_AnalyseMode=false и go infinite) SF10 оценивает стартовую позицию заметно оптимистичнее SF9 и SF8. То есть выглядит всё так, что контемпт всегда включён, как ни меняй настройки. Или просто оценочную функцию "перескалировали" в новой версии?
вот такой расклад...сижу уже много лет под маком, где стокфиш слабоват.
Поэтому начал экспериментировать в оценке позиции движком под виндами: реальные и виртуальные машины. (2-3 ядерный процессор, 3-4 гига оперативки)
Столкнулся с такой ситуацией: в части многофигурных позиций после каждого хода белых стокфиш 10 несколько переоценивает позицию белых. После очередного хода черных: пожалуй что переоценивает позицию черных.
Понятно что это лучше всего лечится 4-8 ядерным железом с 16-32 гиг оперативной памяти.
Но что делать, пока подобный монстр еще пока не приобретен?
Прошу уважаемых коллег подсказать настройки движка стокфиш, которые сделают разброс оценок после каждого полухода меньше
__________________________
Во дни благополучия пользуйся благом, а во дни несчастья размышляй
masterd:после каждого хода белых стокфиш 10 несколько переоценивает позицию белых. После очередного хода черных: пожалуй что переоценивает позицию черных.
Вот мой вопрос выше о том же. Выходит, не одному мне показалось, что что-то не то с контемптом в новой версии. Включай, не включай аналитический режим, ставь контемпт ноль или нет - оценка завышается как-то субъективно по сравнению с предыдущими версиями.
Только я подумал, что как-то не так понимаю что делают настройки.
как я понял сток программно завышает оценки, делается это видимо для того, чтобы он меньше ориентировался на ничейные варианты и больше на те, которе дают шанс на перевес. И при каждой загрузке по умолчанию будут неверные настройки - завышающие оценку позиции со стороны того, кто сейчас ходит.
Принцип выбора хода не меняется - лучший тот вариант, где выше оценка.
Просто при Вашем ходе сток чрезмерно оптимистичен в оценках, зато при ходе противника, будет несколько преувеличивает оценку его позиции.
Однако, есть компиляции, где этот эффект снижен до минимума.
Рекомендую... я сам скачал и мне например понравилось.
Не нужно каждый раз при загрузке движка лезть в настройки.
PS сток будет по любому преувеличивать чуть чуть оценки за Вас и за противника при его ходе - но не более чем на 0,1-0,2
__________________________
Во дни благополучия пользуйся благом, а во дни несчастья размышляй
Ну вот матч Стокфиш - Лейла в разгаре.
Сначала в счёте повёл Стокфиш, Лейла сравняла,
потом с Лейлой случился какой-то сбой, она проиграла три партии подряд с 20 по 22.
Похоже, у неё случился какой-то нервный срыв, ведь она мыслит как человек, значит и эмоции ей не чужды.
Но потом она героически сравняла счёт.
После этого программы упёрлись и выдали серию из десяти ничьих.
__________________________
pr.ai PRAI Portal of Robotics and Artificial Intelligence
Со мной по моему запросу залогинился в Линкедине Борис Штильман, известный
тем, что писал программу "Пионер" для Ботвинника.
Вот что написано у него на аккаунте
In 1972-1988, in Moscow, USSR, I was involved in the advanced research project PIONEER led by a former World Chess Champion Professor Mikhail Botvinnik. The goal of the project was to discover and formalize an approach utilized by the most advanced chess experts in solving chess problems almost without search. While program PIONEER has never played complete chess games, it solved a number of complex end-games and positions from the games of World Chess Champions. This project has never been finished, however, based on these experiences over a number of years, in Moscow, I developed experimental and mathematical foundations of the new approach to search problems in Artificial Intelligence. In 1990-91, while at McGill University, Montreal, Canada, based on this approach, I originated Linguistic Geometry (LG), a new theory for solving abstract board games. LG allows us to avoid combinatorial explosion by changing the paradigm from search to construction (from analysis to synthesis). It is scalable to solving complex real world problems that are considered intractable by conventional approaches.
Since 1991, I was developing the theory and applications of LG at the University of Colorado Denver (UC Denver). A leap in the development LG was made in 1999, when I (with a group of scientists and engineers) founded STILMAN Advanced Strategies, LLC (STILMAN). Since then, I combine my professorship at UC Denver with my leadership role of Chairman & CEO at STILMAN. A growing number of applications of LG developed at STILMAN have passed comprehensive testing and are currently transitioning to the real world command and control systems in the USA. The LG software is currently considered vital for the national defense in the USA and UK.
More information about my research and projects
can be found in the list of projects below (here on LinkedIn).
You may also look at the STILMAN's web site
www.stilman-strategies.com
and in my resume at
www.stilman-strategies.com/bstilman
И как это он залогинился с таким абреком как я.
Ведь у меня на аккаунте в Линкедине нет никакой информации кроме того, что я проживаю в Афганистане.
Со мной даже залогинились ответственные работники афганских министерств, отвечающие за развитие науки и техники.
Один товарищ испрашивал помощи в организации кружка робототехники в Кабуле,
но я ответил, что живу далеко в горах и с научно-технической общественностью не контактирую.
А как это получилось?
Командир ангильского домена с Ангильи в какой-то момент, не вникая, откуда я,
назначил мне страну, первую по алфавиту. Мне это понравилось.
Так что, посрашивать Штильмана про Пионер, или может кто-то сделает это лучше?
Можно опубликовать на Чесспро расширенное интервью, например.
__________________________
pr.ai PRAI Portal of Robotics and Artificial Intelligence