ChessPro online

Новости мира движков

вернуться в форум

29.10.2007 | 19:10:30

Главная  -  Поговорим?  -  Железный марш

722

Jeweller

25.12.2016 | 21:03:07
Email

все его сообщения:
за день, за месяц,
за все время
Vizvezdenec: Да и тесты на фиштесте обычно не 7к игр, а 40+к вроде бы.

Согласен конечно, что лучше смотреть у первоисточника, и 40+к лучше 7к, но я там не зарегистрирован и тут вижу данные годичной давности, а как иначе посмотреть прирост у них напрямую, не знаю.
номер сообщения: 54-31-5081

723

Vizvezdenec

Ниже нуля

25.12.2016 | 21:50:44

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Vizvezdenec: Да и тесты на фиштесте обычно не 7к игр, а 40+к вроде бы.

Согласен конечно, что лучше смотреть у первоисточника, и 40+к лучше 7к, но я там не зарегистрирован и тут вижу данные годичной давности, а как иначе посмотреть прирост у них напрямую, не знаю.

Ну вот последний
http://tests.stockfishchess.org/tests/view/57f9f64d0ebc59038170fb15
это за недели 3 до выхода SF8 было.
Вообще их проще всего смотреть здесь
http://tests.stockfishchess.org/tests?success_only=1
если справа от теста не sprt @ 60+0.6 th 1 и не sprt @ 10+0.1 th 1 написано, а написано 40000 @ 60+0.6 th 1 Regression test, то это именно регрешн тест Но с какой периодичностью они их делают-только Марко Костальбе известно.
номер сообщения: 54-31-5082

724

Rom77

25.12.2016 | 22:26:49

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Согласен конечно, что лучше смотреть у первоисточника, и 40+к лучше 7к, но я там не зарегистрирован и тут вижу данные годичной давности, а как иначе посмотреть прирост у них напрямую, не знаю.


1. Заходим на страничку успешных патчей:
http://tests.stockfishchess.org/tests?success_only=1

2. Используя поиск браузера, ищем на странице слово master. Если слово master найдено в левой колонке и у данного теста ровно 40000 игр, значит это и есть наш искомый тест. Если нет, то переходим на предыдущую страницу и ищем там, итд. Вот, например, последний тест прибавки относительно 7-го Стокфиша, от 9 октября:
http://tests.stockfishchess.org/tests/view/57f9f64d0ebc59038170fb15

3. Вот результаты ещё более старых мастер-тестов:

+76,60
+66,53
+52,59
+49,73
+36,29
+29,44
+15,27
+12,83

Sf7 master против Sf6:
+62.62 - Sf7
+62.89
+63.30
+61.76
номер сообщения: 54-31-5083

725

Jeweller

25.12.2016 | 23:17:27
Email

все его сообщения:
за день, за месяц,
за все время
Vizvezdenec, Rom77, благодарю, разобрался.
номер сообщения: 54-31-5084

726

Jeweller

27.12.2016 | 17:55:16
Email

все его сообщения:
за день, за месяц,
за все время
Вышел SmarThink 1.97
По ссылке он + более ранние версии до 1,50 включительно.
номер сообщения: 54-31-5085

727

Vizvezdenec

Ниже нуля

31.12.2016 | 19:25:33

все его сообщения:
за день, за месяц,
за все время
Наконец-то стокфишевцы делают regression test официальный, но результаты не особо впечатляют.
Впрочем, это на 1 ядре тест и как раз сегодня прошёл неплохой патч, улучшающий SMP, который, разумеется, тут никакой роли не играет.
номер сообщения: 54-31-5086

728

Rom77

31.12.2016 | 19:39:24

все его сообщения:
за день, за месяц,
за все время
Слишком много упрощающих патчей прошло. Видимо поэтому и мала прибавка.
номер сообщения: 54-31-5087

729

Vizvezdenec

Ниже нуля

31.12.2016 | 19:41:55

все его сообщения:
за день, за месяц,
за все время
Rom77: Слишком много упрощающих патчей прошло. Видимо поэтому и мала прибавка.

Упрощающие патчи не убирают эло (ну в идеале). Они его просто не дают и делают код более коротким/понятным.
Я посмотрел-за последние 2 месяца было всего 5 функциональных патчей вроде как, причём патчей как pruning патч, который был перед релизом SF8 незадолго и пролетел фиштест за 15000 игр на 2 временных контролях в сумме, вообще не было. Он один 5 эло давал, например
Видимо, у разработчиков сложности неслабые с новыми идеями просто, а что тестируется-не проходит.
номер сообщения: 54-31-5088

730

Rom77

31.12.2016 | 20:07:55

все его сообщения:
за день, за месяц,
за все время
Vizvezdenec: Упрощающие патчи не убирают эло (ну в идеале). Они его просто не дают и делают код более коротким/понятным.

Хотелось бы надеяться. Но если таких патчей много, как в нашем случае, то возрастает шанс, что среди них окажется пара-тройка реально ухудшающих, которым просто повезло при тестировании.

Vizvezdenec:
Видимо, у разработчиков сложности неслабые с новыми идеями просто, а что тестируется-не проходит.

Возможно, проблема заключается ещё в том, что с увеличением силы Стокфиша, возрастает процент ничьих. А значит каждому улучшающему патчу всё труднее преодолеть порог улучшения в 2-3 эло, чтобы его приняли. В то время как у упрощающих патчей такой проблемы нет. Их могут принять даже при немного отрицательном эло, и повышение ничейности тут может даже сыграть в помощь.
номер сообщения: 54-31-5089

731

Vizvezdenec

Ниже нуля

31.12.2016 | 20:18:27

все его сообщения:
за день, за месяц,
за все время
Rom77:
Vizvezdenec: Упрощающие патчи не убирают эло (ну в идеале). Они его просто не дают и делают код более коротким/понятным.

Хотелось бы надеяться. Но если таких патчей много, как в нашем случае, то возрастает шанс, что среди них окажется пара-тройка реально ухудшающих, которым просто повезло при тестировании.

Vizvezdenec:
Видимо, у разработчиков сложности неслабые с новыми идеями просто, а что тестируется-не проходит.

Возможно, проблема заключается ещё в том, что с увеличением силы Стокфиша, возрастает процент ничьих. А значит каждому улучшающему патчу всё труднее преодолеть порог улучшения в 2-3 эло, чтобы его приняли. В то время как у упрощающих патчей такой проблемы нет. Их могут принять даже при немного отрицательном эло, и повышение ничейности тут может даже сыграть в помощь.

Ну на моей памяти были слегка отрицательные STCшки, но LTC все имели 50% очков минимум. Вряд ли в этом дело.
А процент ничьих-да. Вообще этот статтест имеет порог прохождения в 1 эло, но чтобы патч в 1,5 эло его прошёл-надо 200000 игр наиграть или больше (на моей памяти был зелёный патч с 250000 играми на LTC). Опять же, никто не гарантирует, что 3 раза по +1 эло это +3 эло Конечно, показатель в 3-4 эло за 2 месяца-это мизер, но что делать.
Может быть стоит использовать более агрессивную дебютную книгу при тестировании для снижения количества ничьих или принимать тесты, которые дают меньше, нежели +1 эло? Не знаю, я не разработчик В принципе идеи ослабления границ принятия статтеста на форуме стокфиша высказываются.
номер сообщения: 54-31-5090

732

Rom77

31.12.2016 | 20:42:14

все его сообщения:
за день, за месяц,
за все время
Vizvezdenec:
Ну на моей памяти были слегка отрицательные STCшки, но LTC все имели 50% очков минимум. Вряд ли в этом дело.

50% процентов - это не считая погрешности теста. А реальное эло может быть несколько ниже. Надеюсь что нет, но мне кажется такое реально. Например, допустим мы предполагаем, что патч нейтральный, но на самом деле он ухудшает силу игры на 0,5 эло. При тестировании этому патчу немного везет, и он показывает результат 0 эло и проходит. Нам кажется что ухудшения нет, а на самом деле оно есть. Если было бы достаточно улучшающих патчей, то мы могли бы не обращать внимания на это, но сейчас ситуация иная.
номер сообщения: 54-31-5091

733

Jeweller

01.01.2017 | 21:36:51
Email

все его сообщения:
за день, за месяц,
за все время
Vizvezdenec: Наконец-то стокфишевцы делают regression test официальный
Может быть стоит ... принимать тесты, которые дают меньше, нежели +1 эло? Не знаю, я не разработчик В принципе идеи ослабления границ принятия статтеста на форуме стокфиша высказываются.
В последнем regression test % ничьих около 74, и погрешность у них указана ±1,6 Elo. У меня Elostat при таком % ничьих дает значение ±1,76 Elo, но разные программки могут считать немного по разному)

Пока подход с нынешними длинами тестов и порогом работает, вряд ли есть смысл понижать порог в N раз. Это увеличивает необходимую длину теста в N^2 раза, что сильно замедляет. Для понижения порога принятия до 1,0 Elo нужно будет увеличить длину тестов до 100000, а при 0,5 Elo, уже до 400000. Но если пробуксовка продолжится, выбирать не придется.

Rom77: 50% процентов - это не считая погрешности теста. А реальное эло может быть несколько ниже. Надеюсь что нет, но мне кажется такое реально.
Какой-то % немного ослабляющих патчей конечно есть. Испытания конечной длины дают нам только относительные гарантии :)
номер сообщения: 54-31-5092

734

Rom77

01.01.2017 | 23:04:07

все его сообщения:
за день, за месяц,
за все время
Jeweller: В последнем regression test % ничьих около 74, и погрешность у них указана ±1,6 Elo. У меня Elostat при таком % ничьих дает значение ±1,76 Elo, но разные программки могут считать немного по разному)

- Процент ничьих вроде бы 80% (29879/37233). Удивительно много, конечно, для тестов по минутке. Пусть даже и при игре движка самого с собой.

- Не исключено, что погрешность они считают не через Эло, а через Байес или популярный сейчас Ordo.

- Ваш Элостат считает погрешность в эло до сотых? Мой только до целых. Не поделитесь своей версией?
номер сообщения: 54-31-5093

735

Jeweller

01.01.2017 | 23:57:39
Email

все его сообщения:
за день, за месяц,
за все время
Rom77: - Процент ничьих вроде бы 80% (29879/37233). Удивительно много, конечно, для тестов по минутке. Пусть даже и при игре движка самого с собой.
Это я ошибся. Поделил автоматом на 40000, получил 74%. По этой ссылке от Vizvezden'ца (29930/37298)=80,2%. Что-то действительно много...

Elostat у меня обычный. Пересчет делаю так. Сделал PGN из 10 партий с 80% ничьих (+1-1=8). Погрешность ±99 Elo. Дальше пересчет, например для рассматриваемого теста Стока: 99*((10/37298)^0,5)=1,62.
Это ровно столько, как у них: 1,6.

Кстати, для 40% ничьих (+3-3=4) погрешность ±182. Можно грубо считать, что для приблизительного расчета погрешности для произвольного % ничьих, погрешность падает линейно с 182 до 99, в интервале с 40% до 80% ничьих.

- Не исключено, что погрешность они считают не через Эло, а через Байес или популярный сейчас Ordo
У меня есть Ordo, но в нем пока не разбирался. Байесом обсчитывал годовые перфомансы для "Top GrandMasters Today" начиная с 2008г. Там кроме возможности считать BayesElo, можно считать и обычный в режиме Elostat-имитации, результат тот же что и в программке Elostat

Если у кого нет, Bayesian Elo Rating - здесь
номер сообщения: 54-31-5094

736

Jeweller

02.01.2017 | 00:11:06
Email

все его сообщения:
за день, за месяц,
за все время
Погрешность ±99 Elo
Это для 2сигм, т.к. Elostat считает интервалы с 95.5% вероятностью. Соответственно, можем пересчитывать для произвольного значения сигм, если надо.
номер сообщения: 54-31-5095

737

Programmist

02.01.2017 | 01:48:37

все его сообщения:
за день, за месяц,
за все время
Кстати, проводил матч даже c классическим контролем времени в ASFC между двумя stockfish, процент результативных партий, точнее, результативных мини матчей, был весьма высок.
номер сообщения: 54-31-5096

738

Jeweller

02.01.2017 | 02:01:01
Email

все его сообщения:
за день, за месяц,
за все время
Programmist: Кстати, проводил матч даже c классическим контролем времени в ASFC между двумя stockfish, процент результативных партий, точнее, результативных мини матчей, был весьма высок.
А есть данные отдельно по партиям?
Версия Стока была одна? И какая длина мини-матча?
номер сообщения: 54-31-5097

739

Programmist

02.01.2017 | 02:18:42

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Programmist: Кстати, проводил матч даже c классическим контролем времени в ASFC между двумя stockfish, процент результативных партий, точнее, результативных мини матчей, был весьма высок.
А есть данные отдельно по партиям?
Версия Стока была одна? И какая длина мини-матча?


Там немного в другом смысли были миниматчи.

Играл сам с собой Stockfish7 с contempt 1, 12MNodes, 3 часа на партию + 15 секунд на ход с различными начальными позициями, имеющими оттенок шахмат 960.

Из 30 партий в 10 сильнейшая сторона смогла доказать свое преимущество, оно изначально оценивалось в 0.5-0.7 пешки, и Стокфиш иногда выигрывал, иногда нет.

При этом, Stockfish не выиграл сам у себя большое количество позиций с перевесом в пешку в миттельшпиле, которые заочник имел больше шансов выиграть.

Специальная таблица с дополнительной информацией
номер сообщения: 54-31-5098

740

Jeweller

02.01.2017 | 14:44:43
Email

все его сообщения:
за день, за месяц,
за все время
Programmist: Из 30 партий в 10 сильнейшая сторона смогла доказать свое преимущество, оно изначально оценивалось в 0.5-0.7 пешки, и Стокфиш иногда выигрывал, иногда нет.
Правильно понимаю, что изначально отбирались позиции с преимуществом одной из сторон в интервале 0,5-0,7 ?
И как это оценивалось, анализ Стокфишем на заданную глубину из начальной позиции? (какая глубина?)
Еще вопросы:
1) есть ли перечень всех позиций?
2) есть ли анализ по всем позициям?
3) не наигрывалась ли статистика по каждой позиции? Чтобы посмотреть на фактическую результативность и фактический перекос. Ведь именно это должно интересовать. Например, позиция А) движки показывают перевес белых 0,7, но статистика партий говорит, что белые набирают 54% очков. Позиция Б) движки показывают 0,4, а статистика говорит,что белые набирают 62%. Соответственно, если задача отобрать игровые позиции с приличным перекосом, то фактически перекошенной оказывается позиция Б), хотя движки в начальной позиции указывают на позицию А)

____________

Вот здесь и здесь тоже попробовали отобрать симметричные позиции, и расширить их до множества, когда для каждой из симметричных расстановок белых, становится возможной каждая из симметричных расстановок черных.
номер сообщения: 54-31-5100

741

Programmist

02.01.2017 | 16:09:07

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Programmist: Из 30 партий в 10 сильнейшая сторона смогла доказать свое преимущество, оно изначально оценивалось в 0.5-0.7 пешки, и Стокфиш иногда выигрывал, иногда нет.
Правильно понимаю, что изначально отбирались позиции с преимуществом одной из сторон в интервале 0,5-0,7 ?
И как это оценивалось, анализ Стокфишем на заданную глубину из начальной позиции? (какая глубина?)
Еще вопросы:
1) есть ли перечень всех позиций?
2) есть ли анализ по всем позициям?
3) не наигрывалась ли статистика по каждой позиции? Чтобы посмотреть на фактическую результативность и фактический перекос. Ведь именно это должно интересовать. Например, позиция А) движки показывают перевес белых 0,7, но статистика партий говорит, что белые набирают 54% очков. Позиция Б) движки показывают 0,4, а статистика говорит,что белые набирают 62%. Соответственно, если задача отобрать игровые позиции с приличным перекосом, то фактически перекошенной оказывается позиция Б), хотя движки в начальной позиции указывают на позицию А)

____________

Вот здесь и здесь тоже попробовали отобрать симметричные позиции, и расширить их до множества, когда для каждой из симметричных расстановок белых, становится возможной каждая из симметричных расстановок черных.


Все есть, вот тут
http://chesspro.ru/guestnew/looknullmessage/?themeid=54&id=65
номер сообщения: 54-31-5103

742

Programmist

02.01.2017 | 21:35:55

все его сообщения:
за день, за месяц,
за все время
3) Для заочных шахмат, тесты на коротком контроле не так показательны, в блиц-партиях могут быть результативные партии, а в партиях с многочасовым анализом - сплошные ничьи за счет четкого уравнения лучшими ходами, в целом, есть корреляция с начальной оценкой.
номер сообщения: 54-31-5104

743

Vizvezdenec

Ниже нуля

03.01.2017 | 14:24:39

все его сообщения:
за день, за месяц,
за все время
Regression test завершился, результат 5,2+/-1,5 эло, достаточно слабенько для 2 месяцев разработки в общем-то. Впрочем, недавно прошёл неплохой тест на улучшение SMP, он тут не отображается.
номер сообщения: 54-31-5109

744

Jeweller

03.01.2017 | 17:36:01
Email

все его сообщения:
за день, за месяц,
за все время
Vizvezdenec: результат 5,2+/-1,5 эло, достаточно слабенько для 2 месяцев разработки в общем-то.
это однако +31 за год, избаловали нас прибавками в +80 пунктов между 8 и 7 за 10 месяцев :)

имхо, они еще нагонят, уже не раз бывали пробуксовки, потом что-то начинало выстреливать.
номер сообщения: 54-31-5113

745

Programmist

03.01.2017 | 18:37:31

все его сообщения:
за день, за месяц,
за все время
И вот на "фрактальных" позициях различия между движками и версиями движков могут выглядить сильнее. Это также показывают турниры адвансеров. В турнирах с классической позицией преимущественно ничьи и все в районе 50%, а в ASFC можно легко проиграть все партии в турнире.
номер сообщения: 54-31-5115

746

Vizvezdenec

Ниже нуля

04.01.2017 | 10:44:17

все его сообщения:
за день, за месяц,
за все время
Вышел Fizbo 1,9, по рейтингам на 66 эло сильнее версии 1,8, обходит Gull3 чуть-чуть.
На мой взгляд, главное достоинство этого движка (кроме того, что он играет против стока сильнее, чем положено), это прекрасная картинка.
номер сообщения: 54-31-5130

747

Jeweller

04.01.2017 | 14:37:03
Email

все его сообщения:
за день, за месяц,
за все время
Vizvezdenec: На мой взгляд, главное достоинство этого движка (кроме того, что он играет против стока сильнее, чем положено), это прекрасная картинка.
Прямо сейчас главное достоинство будет поставлено под сомнение или еще больше возрастет :)



номер сообщения: 54-31-5131

748

Vizvezdenec

Ниже нуля

04.01.2017 | 15:35:17

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Vizvezdenec: На мой взгляд, главное достоинство этого движка (кроме того, что он играет против стока сильнее, чем положено), это прекрасная картинка.
Прямо сейчас главное достоинство будет поставлено под сомнение или еще больше возрастет :)



Ну это с TCEC картинка, мне она больше нравится
номер сообщения: 54-31-5132

749

Vizvezdenec

Ниже нуля

08.01.2017 | 05:08:05

все его сообщения:
за день, за месяц,
за все время
На IPON'e ведётся тест Chiron 4.0 (на офсайте самого движка такой версии нету ).
Пока выглядит как движок чуть слабее Jonny 8.00 и сильнее Critter, Andscacs, Booot и т.д. +70 эло по меркам IPON по сравнению с предыдущей версией.
номер сообщения: 54-31-5143

750

Jeweller

08.01.2017 | 14:54:09
Email

все его сообщения:
за день, за месяц,
за все время
Вышел GreKo 2016

в 2015г на Хабрахабре была размещена статья автора GreKo, Владимира Медведева - Определяем веса шахматных фигур регрессионным анализом

Статья интересна, приведу обширную цитату по определению человеческих стоимостей фигур:
Попробуем расширить наш эксперимент, рассмотрев игры не только компьютеров, но и людей. В качестве массива данных для обучения возьмём партии двух выдающихся современных гроссмейстеров — чемпиона мира Магнуса Карлсена и экс-чемпиона Ананда Вишванатана, а также представителя романтических шахмат XIX столетия Адольфа Андерсена.

В таблице ниже представлены результаты решения регрессионной задачи для партий этих шахматистов.

Легко заметить, что «человеческие» значения стоимости фигур оказались вовсе не такими, каким учат начинающих в учебниках. В случае Карлсена и Ананда бросается в глаза меньший масштаб шкалы — ферзь стоит чуть больше 7.5 пешек, соответственно сжался весь диапазон для других фигур. Слон по-прежнему чуть дороже коня, но и тот, и другой не дотягивают до традиционных трёх пешек. Две ладьи оказываются слабее ферзя, и т.д.

Надо сказать, что похожая картина наблюдается не только у Виши и Магнуса, но и для большинства гроссмейстеров, партии которых удалось протестировать. Причём какой-то зависимости от стиля не выяснилось. Значения смещены от классических в одну и ту же сторону и у позиционных мастеров вроде Михаила Ботвинника и Анатолия Карпова, и у атакующих шахматистов — Михаила Таля, Юдит Полгар…

Одним из немногих исключений стал Адольф Андерсен — лучший европейский игрок середины XIX века, автор знаменитой «вечнозелёной партии». Вот для него значения стоимости фигур оказались очень близки к тем, которые используют компьютерные программы. Напрашиваются самые разнообразные фантастические гипотезы, вроде тайного читерства немецкого маэстро через портал во времени… (Шутка, конечно. Адольф Андерсен был крайне порядочным человеком, и никогда бы себе такого не позволил.)

Почему наблюдается такой эффект со сжатием диапазона стоимости фигур? Конечно, не стоит забывать о крайней ограниченности нашей модели — учёт дополнительных позиционных факторов мог бы внести существенные коррективы. Но, возможно, дело в слабой технике реализации человеком материального перевеса — относительно современных шахматных программ, конечно. Проще говоря, человеку тяжело безошибочно играть ферзём, потому что у того слишком много возможностей. Вспоминается хрестоматийный анекдот о Ласкере (в других вариантах — Капабланке / Алехине / Тале), якобы игравшем с форой со случайным попутчиком в поезде. Кульминационной фразой было: «Ферзь только мешает!»

После прочтения статьи я сделал новую персоналию в ЧессМастер 8, который и на дефолтных настройках имеет довольно человеческий стиль игры - персоналию-иммитатор человеческого стиля CM8 Human:
;---- CM8 Human.txt
cm_parm opp=124 opn=089 opb=095 opr=088 opq=105
cm_parm myp=124 myn=089 myb=095 myr=088 myq=105
cm_parm opcc=100 opmob=100 opks=100 oppp=100 oppw=100
cm_parm mycc=100 mymob=100 myks=100 mypp=100 mypw=100
cm_parm cfd=0 sop=100 avd=0 rnd=0 sel=14 md=99
;---- File end

В ней стоимости фигур, если их привести к стоимости пешки=100, соответствуют найденным для Ананда и близки "среднечеловеческим":
пешка - 100, конь - 215, слон - 230, ладья - 355, ферзь - 762.

Первое впечатление от игры CM8 Human было чем-то средним между удивлением, чувством, что в движок вселился человек :) и неверием собственным глазам :)

В связи с данными из статьи Медведева, различие человеческого и движкового стилей, обретает конкретизирующий фактор:
а) Движки используют оптимальные веса фигур.
б) Люди - не оптимальные и сильно сжатые, что удобней в условиях ограниченных человеческих способностей счета, и связанной с этим необходимостью упрощения (примитивизации) игры.

Разница используемых весов достаточно велика, и восприятие человеком "компьютерного стиля", как "другого" поэтому вполне естественна. Причем в условиях, когда никакого единого "другого" на самом деле нет, все движки играют по разному.

Здесь, у тех кто знаком с движками мало, видимо происходит то же, что происходило раньше с восприятием представителей другой расы, когда контакты между расами были минимальны - для "белого" все "азиаты" были на одно лицо, для "азиата" все "черные" были на одно лицо и т.д.
номер сообщения: 54-31-5144

751

Vizvezdenec

Ниже нуля

08.01.2017 | 16:29:39

все его сообщения:
за день, за месяц,
за все время
Интересное чтиво, да. По поводу стиля движков - сущая правда, люди воспринимают длинные неочевидные форсированные варианты с единственными ходами как "комповщину", а на деле комповщина у движков очень разная.
номер сообщения: 54-31-5145