ChessPro online

Новости мира движков

вернуться в форум

29.10.2007 | 19:10:30

Главная  -  Поговорим?  -  Железный марш

842

Rom77

22.01.2017 | 20:58:47

все его сообщения:
за день, за месяц,
за все время
mesh67:
Спасибо снова.
Как бы то ни было, остался вопрос, каким образом движки определяют, какой вариант побочный, а какой - основной, но, видимо, тут какие-то специфические детали имеют значение.

Основным является вариант с лучшей оценкой на данный момент. В него все силы движок и вкладывает.
номер сообщения: 54-31-5241

843

Vizvezdenec

Ниже нуля

22.01.2017 | 21:01:00

все его сообщения:
за день, за месяц,
за все время
mesh67:
Как бы то ни было, остался вопрос, каким образом движки определяют, какой вариант побочный, а какой - основной, но, видимо, тут какие-то специфические детали имеют значение.

Есть много разных техник, которые дополняют друг друга, вот например:
https://chessprogramming.wikispaces.com/ProbCut
https://chessprogramming.wikispaces.com/Null+Move+Pruning
https://chessprogramming.wikispaces.com/Futility+Pruning
https://chessprogramming.wikispaces.com/Futility+Pruning#MoveCountBasedPruning
https://chessprogramming.wikispaces.com/Static+Exchange+Evaluation
https://chessprogramming.wikispaces.com/Late+Move+Reductions
https://chessprogramming.wikispaces.com/Razoring
И так далее.
номер сообщения: 54-31-5242

844

Jeweller

22.01.2017 | 21:12:36
Email

все его сообщения:
за день, за месяц,
за все время
Rom77: Можно попробовать через прокси
Открылось, спасибо!

Если Amsterdam играл на родной частоте, то должен был играть и на родной рейтинг. Возможно, дело в том, что рейтинги в нижней части списка движков могут быть занижены. У современного рейтинга SSDF они точно занижены.
Он и играл ровно на родной рейтинг на родной частоте, но соперники то играли на частоте современного проца и нормировал я по ним, вот Amsterdam и упал на 200-300 пунктов (относительно них). Если бы нормировал по нему, то все остальные подскочили бы на это значение (относительно него).

Так вот, проблема в том, что в отличие от контроля времени, мы не знаем какая конфигурация компьютера "правильная" (например SSDF или CCRL?), а значит и не можем сказать какие машинные рейтинги точнее соответствуют рейтингу ФИДЕ. Если на нижней части шкалы мы ещё можем провести какие-то квалификационные матчи, то на верхней просто нет людей сопоставимой силы.
CCRL рейтингуют движки относительно друг друга на одном железе. Усилилось железо -> перешли на него, но шкалу то не поднимают. В такой нормировке очевидный плюс - корректность относительного сравнения, т.к. всё тестируется на одинаковом железе. Но что означает "Aristarch 4.50 = 2600", если вчера это было на одном железе, а сегодня на гораздо более мощном? Только относительную привязку силы движков друг к другу, но не к людям, у которых "железо" примерно постоянно и определяется биологической природой. Поэтому шкалу CCRL в принципе невозможно привести в соответствие человеческой.

А вот подход SSDF имеет свет в конце тоннеля. Люди играют с движками на конкретном железе. Движок получает рейт для конкретного железа. Далее движки играют друг с другом на разном железе. В итоге получаем список , где один и тот же движок может быть представлен в нескольких вариантах на разном железе. Из всего списка с людьми играло ограниченное число движков и конфигураций, но не беда, этого достаточно для нормировки, дальше движки на разном железе сами рейтингуются внутри себя. Из этого общего списка далее мы можем вычленять срезы для одинакового железа, получая аналогичные CCRL списки.

Без привязки движков к железу, нельзя привязать к шкале ФИДЕ.

Есть одна проблема. Дело в том, что рейтинги на длинных контролях более плотные, чем на коротких. То есть разрывы в пунктах Эло между движками в "долгих" рейтингах меньше. Это в принципе логично, поскольку, как показывают тесты, каждое следующее удвоение времени дает всё меньшую прибавку в силе.
В свете вышесказанного, это перестает быть проблемой. Уменьшается прибавка с удвоением, ну и пусть уменьшается. Мы то жестко привязались к человеческим рейтингам по той совокупности движков на конкретном железе, что с людьми наиграли статистику на конкретном контроле! И, грубо говоря, среднее по этой совокупности движков на конкретном железе и контроле стоит на месте. И относительно него мы нормируем весь список и движки на любом новом железе и контроле времени.
номер сообщения: 54-31-5243

845

Jeweller

22.01.2017 | 21:36:37
Email

все его сообщения:
за день, за месяц,
за все время
Мы то жестко привязались к человеческим рейтингам по той совокупности движков на конкретном железе, что с людьми наиграли статистику на конкретном контроле!
А что нужно сделать, что бы так привязаться? Выбрать сотню движков разной силы, чтобы был охвачен весь (человеческий) диапазон. Ввести некий стандарт железа и времени, на котором они будут играть с людьми. И пустить их в соревнования людей снизу до верху. Они наиграют с людьми, одновременно пусть наигрывают внутри себя, и готово.

Дальше все новые движки, другие конфигурации железа и контроли времени, нормируются по этой "контрольной группе" - "стандартизованной перемычке" между движками и людьми.
____________

Пустив стандартизованный набор движков в соревнования людей снизу до верху, получаем ответ еще на один вопрос, а именно: есть инфляция рейтингов среди людей или нет? Или люди усиливаются объективно?
Мы получаем объективный инструмент - сила стандартизованного набора движков постоянна - и вопрос о прогрессе/регрессе/инфляции среди людей снимается. Т.к. и шкалу ФИДЕ при такой объективной нормировке надо будет также начать нормировать по этой "контрольной группе".
номер сообщения: 54-31-5244

846

Rom77

23.01.2017 | 12:08:58

все его сообщения:
за день, за месяц,
за все время
Jeweller, я вполне согласен с написанным выше, вплоть до уровня 2900 Эло. Действительно, множество опорных партий между людьми и машинами по всей шкале позволят достаточно надежно калибровать рейтинг. Но насчет рейтингов выше 2900 у меня есть некоторые сомнения. Попытаюсь проиллюстрировать проблемы, которые могут возникнуть на таком уровне, на следующем примере. Цифры рейтинга и названия движков условные, но тенденции надеюсь, будут понятны.

Итак, допустим авторы рейтинга SSDF продолжают тестирование движков для своего рейтинга на стандартном Q6600 4х2,4 ГГц. Со временем они получают, предположим, такую таблицу:

Stockfish 16___3900___Q6600
Stockfish 12___3600___Q6600
Komodo 9.1___3300___Q6600
Deep Fritz 8___2900___Q6600

Допустим, ещё одна группа тестеров решила создать свой рейтинг для свежих движков, на основе более мощного железа (условно Xeon 24х2,4 ГГц). В качестве опорного рейтинга они решили выбрать SSDF и включили его данные в свой список. Очевидно, что наименования движков и цифры рейтингов для движков ниже 2900 в обоих рейтингах будут те же самые. Но значения рейтингов свыше 2900 будут иные, вследствие использования разных компьютеров.

Поскольку разрывы между движками на более мощном железе будут меньше, то цифры рейтингов в новом списке расти будут медленнее. В новом рейтинге получится что-то следующего порядка:

Stockfish 16___3800___Xeon
Stockfish 12___3600___Xeon
Komodo 9.1___3400___Xeon
Komodo 9.1___3300___Q6600
Deep Fritz 8___2900___Q6600

Что же получается? Наш условный Stockfish 16 на Xeon, оказывается слабее того же движка на Q6600? На такие различия нельзя закрыть глаза. Но тогда какой рейтинг верен, ведь они оба, по сути, калибровались одинаково относительно рейтинга ФИДЕ?

Эту тенденцию я и имел в виду, когда писал, что мне не понятно, как стандартизовать рейтинги на той части шкалы, где нельзя провести калибровочные партии против людей.
номер сообщения: 54-31-5246

847

Jeweller

25.01.2017 | 13:28:56
Email

все его сообщения:
за день, за месяц,
за все время
Stockfish 16___3900___Q6600
Stockfish 12___3600___Q6600
Komodo 9.1___3300___Q6600
Deep Fritz 8___2900___Q6600

.......

Поскольку разрывы между движками на более мощном железе будут меньше, то цифры рейтингов в новом списке расти будут медленнее. В новом рейтинге получится что-то следующего порядка:

Stockfish 16___3800___Xeon
Stockfish 12___3600___Xeon
Komodo 9.1___3400___Xeon
Komodo 9.1___3300___Q6600
Deep Fritz 8___2900___Q6600

Да, разрывы между движками будут меньше, но их абсолютные значения будут выше, чем на менее мощном железе.
Да, цифры рейтингов в новом списке будут расти медленнее, но их абсолютные значения также будут выше рейтингов на менее мощном железе.

Как Komodo 9.1___3400___Xeon больше Komodo 9.1___3300___Q6600, так и для Stockfish 12, 16 и любого другого движка Xeon будет больше Q6600. Все это при условии, что тесты сделаны корректно.
И, картина будет примерно такой:

Stockfish 16___3980___Xeon
Stockfish 12___3690___Xeon
Komodo 9.1___3400___Xeon
Komodo 9.1___3300___Q6600
Deep Fritz 8___2900___Q6600
номер сообщения: 54-31-5248

848

Rom77

25.01.2017 | 14:35:11

все его сообщения:
за день, за месяц,
за все время
Совсем не убежден в таком раскладе. Например, если у вас разрыв между позициями 290 пунктов:

Jeweller:
Stockfish 12___3690___Xeon
Komodo 9.1___3400___Xeon

А у меня 200 пунктов:
Stockfish 12___3600___Xeon
Komodo 9.1___3400___Xeon

То почему сокращение с 300 до 290 возможно, вследствие наращивания мощности железа, а с 300 до 200 принципиально невозможно.
номер сообщения: 54-31-5249

849

Big_Buddha

25.01.2017 | 15:35:08

все его сообщения:
за день, за месяц,
за все время
Оценить ход:

8. f3?!

Желательно сюда не заглядывать до получения результата.
номер сообщения: 54-31-5250

850

Jeweller

26.01.2017 | 22:24:21
Email

все его сообщения:
за день, за месяц,
за все время
Rom77: Совсем не убежден в таком раскладе. Например, если у вас разрыв между позициями 290 пунктов:

Jeweller:
Stockfish 12___3690___Xeon
Komodo 9.1___3400___Xeon

А у меня 200 пунктов:
Stockfish 12___3600___Xeon
Komodo 9.1___3400___Xeon

То почему сокращение с 300 до 290 возможно, вследствие наращивания мощности железа, а с 300 до 200 принципиально невозможно.
Конечно, сокращение возможно не только до 200, а до 0. Например, мы будет такое наблюдать при приближении к потолку силы движков в районе 4800-4900 (примем этот уровень приблизительно, т.к. он еще может уточняться). Тогда, уткнувшись в потолок, никакого роста наблюдаться не будет, как бы не наращивалось железо. Область 3500-3900 еще очень далека от предела и зависимость силы от железа еще очень сильна.

Я знаю следующие ситуации, когда возможно то, о чем Вы говорите, и более сильный движок (или тот же движок на более мощном железе, что равнозначно) может оказаться ниже более слабого:
1) Мало партий в тесте, велики погрешности. Лечение - наиграть больше партий, чем плотнее движки по силе, тем больше для достоверного определения сильнейшего.
2) В одном тесте плотность движков с близкой силой относительно тестируемого движка велика, и тогда его рейт достаточно точно определяется. Во втором тесте более сильный движок тестируется с более слабыми соперниками, чем в первом тесте, т.е. грубо говоря (утрировано), движок уровня 2500 тестируется на движках уровня 1500-1800. Тогда формула Elo сожмет разрывы (а она пережимает в таких случаях), опустит рейт более сильного вниз, и может занизить так, что он окажется в абсолютном выражении ниже чем рейт менее сильного движка из первого теста. Такое тестирование методически неправильно и лечение очевидно - оба теста должны проводиться корректно на группе движков, близких по силе, так чтобы их средний рейт был как можно ближе к рейту тестируемого движка (когда это возможно).
3) Для более сильного движка во втором тесте группа соперников подобрана так, что там много неудобных движков, против которых тестируемый набирает в среднем меньше. Очевидно что и здесь условия тестирования неодинаковы и методический изъян. Лечение - подбирать тестируемую группу без селекции удобных или неудобных движков, а беря всех, кто удовлетворяет формальному правилу "близко по силе тестируемому движку со средней силой по всей группе, близкой к силе тестируемого".

Гипотетическая ситуация, которую описываете Вы:
Stockfish 16___3900___Q6600
Stockfish 12___3600___Q6600
Komodo 9.1___3300___Q6600
Deep Fritz 8___2900___Q6600

Stockfish 16___3800___Xeon
Stockfish 12___3600___Xeon
Komodo 9.1___3400___Xeon
Komodo 9.1___3300___Q6600
Deep Fritz 8___2900___Q6600

равносильна утверждению, что из-за сжатия возникающего с ростом силы, формула Elo обсчитает так, что понизиться абсолютное значение силы -> с ростом силы возможен эффект снижения силы!

Если делать тест методически правильно, формула Elo так не посчитает. Она искажает, но не до такой степени.
Мы будет наблюдать снижение прироста, но не уровня. Уровень более сильного движка (или того же движка на более мощном железе) будет выше более слабого все меньше и меньше, но выше!

Сейчас подумал, что ощущение возможности эффекта, который Вы описываете, может возникнуть при сравнении рейтинг-листов на разных контролях. Но ведь там сейчас очевидный маразм - абсолютные значения примерно одинаковы независимо от контролей, в то время как разрывы с ростом контролей могут уменьшаться. Отсюда и ощущение.

В то время, как абсолютные уровни в рейтинг-листах с меньшими контролиями должны быть ниже или намного ниже, этого нет. Как среди программ, так и среди людей. Что значат рейты ФИДЕ в классику, рапид и блиц по абсолютным значениям? Ничего, их абсолютный уровень не поставлен в зависимость от падения силы при снижении контроля.

Новый "универсальный рейтинг" может обладать гораздо лучшей моделью, чем Elo, но нисколько не распутывает этот абсурд. И даже еще более запутывает, показывая совершенно нереальные цифры снижения уровня со снижением контроля. И вводя само понятие "универсальный" с абсолютным уровнем, распространяемым на все контроли.

Сейчас есть все инструменты для преодоления этого маразма и построения списков людей и движков с нормальной калибровкой абсолютных значений в зависимости от контроля.
номер сообщения: 54-31-5252

851

Jeweller

28.01.2017 | 00:54:17
Email

все его сообщения:
за день, за месяц,
за все время
Human–computer chess matches

Man vs Machine (PGN прилагается)
The ultimate collection of over 2600 Grand Master vs Machine games from 1963 till 2007.
номер сообщения: 54-31-5253

852

Rom77

28.01.2017 | 10:26:19

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Если делать тест методически правильно, формула Elo так не посчитает.

Но можем ли мы быть в этом уверены? Что с помощью, может быть неочевидных, но методологически вполне правильных подходов мы не сможем обойти её ограничения?

Для проверки нужны конкретные тесты. Жаль что их нет. Без конкретных результатов я пожалуй не могу окончательно склониться ни к тому, ни к другому мнению. Может быть возможно какое-то математическое доказательство, но это вне пределов моих возможностей.

В поддержку своего мнения я пожалуй могу выдвинуть только косвенные соображения. Например, тот же рейтинг SSDF к 1986-87 годам был достаточно надежно откалиброван на партиях с людьми. Но тем не менее спустя всего несколько лет его приходилось калибровать снова. А потом снова и снова. Постоянно вносились поправки. И почти всегда в сторону уменьшения. К настоящему времени поправки достигли величины в 200-300 пунктов от первоначального рейтинга. Что явно не может быть следствием погрешности или неквалифицированного тестирования. Собственно и у авторов других рейтингов наблюдалась аналогичная ситуация.

Таким образом, явно действует какой-то посторонний фактор, не позволяющий соотнести человеческий и машинный рейтинг. Пусть даже бы такой машинный рейтинг и был точнейшим образом откалиброван по человеческим партиям. В своё время это был предметом многочисленных обсуждений, поскольку машинные рейтинги свежих движков постоянно выходили за верхнюю границу правдоподобия. Но точного ответа так и не было получено. Я и сам могу предложить на этот счет по меньшей мере четыре гипотезы, одну из которых и озвучил выше. Жаль, я не знаю, какие из них правильные.

Сейчас подумал, что ощущение возможности эффекта, который Вы описываете, может возникнуть при сравнении рейтинг-листов на разных контролях. Но ведь там сейчас очевидный маразм - абсолютные значения примерно одинаковы независимо от контролей, в то время как разрывы с ростом контролей могут уменьшаться. Отсюда и ощущение.

Они не одинаковы, если приглядеться. Например, в CCRL 40/4, у топ-движков цифры примерно на сто пунктов больше, чем в CCRL 40/40.

Кстати, я где-то читал, что рейтинг CCRL когда-то отталкивался именно от данных SSDF. И действительно, если поднять старые версии CCRL, то видно что цифры рейтингов в SSDF, CCRL 40/4, CCRL 40/40 примерно одинаковы. Но к настоящему времени появились расхождения. Нужно только учесть, что оба рейтинга CCRL несколько лет назад принудительно понизили на 100 пунктов. Без этой поправки, со временем возникла разница в почти в сотню пунктов между свежими движками SSDF и CCRL 40/40. А CCRL 40/4 с годами "убежал" ещё дальше. Тоже на сто пунктов, как уже упоминалось выше.

Таким образом расхождение рейтингов нарастает в зависимости от контроля/железа. Явно видно, что движки CCRL на слабом железе обогнали аналогичные движки на сильном железе SSDF. Для меня это, пожалуй, не доказательство, но по крайней мере весомый аргумент.
номер сообщения: 54-31-5254

853

Jeweller

28.01.2017 | 20:05:08
Email

все его сообщения:
за день, за месяц,
за все время
Rom77:
Jeweller:
Если делать тест методически правильно, формула Elo так не посчитает.

Но можем ли мы быть в этом уверены? Что с помощью, может быть неочевидных, но методологически вполне правильных подходов мы не сможем обойти её ограничения?
В теории можем быть уверены - функция монотонна:

как и обратная ей функция расчета разности в силе в зависимости от процента набранных очков.

Но на практике, Elostat имеет искусственное ограничение разности в силе в 600 пунктов. В результате, если протестировать движок 2800 на тестовой группе 1600-2000, со средним рейтом 1800, и движок наберет 100%, Elostat даст ему 1800+600=2400, а не бесконечность, или не напишет что рейтинг неопределенный. Отсюда возможны разные глюки с занижением сильных (и завышением слабых) в случае методических ошибок в тестирования.

Кстати, я где-то читал, что рейтинг CCRL когда-то отталкивался именно от данных SSDF. И действительно, если поднять старые версии CCRL, то видно что цифры рейтингов в SSDF, CCRL 40/4, CCRL 40/40 примерно одинаковы. Но к настоящему времени появились расхождения. Нужно только учесть, что оба рейтинга CCRL несколько лет назад принудительно понизили на 100 пунктов. Без этой поправки, со временем возникла разница в почти в сотню пунктов между свежими движками SSDF и CCRL 40/40. А CCRL 40/4 с годами "убежал" ещё дальше. Тоже на сто пунктов, как уже упоминалось выше.
За ссылку спасибо. Aristarch 4.50 в списке за 2006 год 2697, сейчас 2569, понизили на 128 пунктов. При том, что реально на более мощном железе он сильнее и должно быть повышение. НО, цифры CCRL давно и безвозвратно оторваны от человеческих значений, и имеют значение только как оценка относительной силы движков между собой. Они в принципе не могут быть соотнесены с человеческими, т.к. не учитывают железо.

SSDF сильно пережат (разница в силе уменьшена). Вот "объем искажения":

CCRL 40/4 (на одном железе):
Rybka 4 64-bit - 3101
Gandalf 6 - 2627
разница - 474

SSDF (на разном железе):
Deep Rybka 4 x64 2GB Q6600 2,4 GHz - 3202
Gandalf 6.0 256MB Athlon 1200 MHz - 2734
разница - 468, но с учетом разности в железе, она должна быть на несколько десятков пунктов больше 474.
Может найдутся еще более выразительные примеры, я взял первое попавшееся.

Таким образом расхождение рейтингов нарастает в зависимости от контроля/железа. Явно видно, что движки CCRL на слабом железе обогнали аналогичные движки на сильном железе SSDF. Для меня это, пожалуй, не доказательство, но по крайней мере весомый аргумент.
Если посмотреть на пример выше, и учитывать что это рейты на одном ядре, то SSDF выше пунктов на 100. Но это особо не важно, итак все запутано и искажено до полного абсурда. Как рейт при контроле 40/4 может быть выше, чем на 40/40? Как можно сравнивать и соотносить с человеческим без учета железа? Как можно калибровать рейты движков с человеческими, если человеческие "ползут" и не создана нормальная система калибровки человеческих рейтов с самими собой во времени? Как можно присваивать рапид и блиц рейтинги ФИДЕ с теми же абсолютными значениями что и классика, без падения силы на сотни пунктов? Теперь придумали "универсальный рейтинг, абсолютные значения которого равны ФИДЕ-рейтингам в классику (почему? если учет рапид и блиц партий понижает), но при этом распространяются и на рапид-блиц контроли (почему? если падение силы с уменьшением контроля индивидуально и его усреднение для всех методически недопустимо), при этом значения падения силы для них указаны многократно меньше реальных (откуда они вообще взялись? если в человеческих шахматах сейчас не используются инструменты для объективного замера степени падения силы при уменьшении контроля)...

:) ... :))
номер сообщения: 54-31-5255

854

Jeweller

28.01.2017 | 21:15:46
Email

все его сообщения:
за день, за месяц,
за все время
Если задаться целью приблизительно перевести рейты движков на шкалу ФИДЕ, то цепочка может быть примерно такой:
1) взять старые списки SSDF (несколько движков на старом железе), где значения еще не были занижены.
2) для этой группы движков на старом железе пересчитать на некое новое железо, для которого будут делаться шкала движков в человеческой шкале ФИДЕ. Получим приличную надбавку "+" к старым значениям SSDF для них.
3) сделать поправку на контроль, приведя к классическом контролю. Вторая поправка "+".
4) теперь надо разжать список SSDF, для чего удобно взять CCRL, т.к. он для всех движков рассчитан на "условно"-одинаковом железе и не пережат (не так сильно пережат) как SSDF, нормировать все множество движков по нашей "контрольной группе", с которой мы работали на первых этапах. После разжатия, наверху списка получим еще одну поправку "+".

В итоге картина прояснится. И вероятно, абсолютные значения лидеров получатся намного выше "привычных" сейчас 3500.
номер сообщения: 54-31-5256

855

Jeweller

28.01.2017 | 21:51:48
Email

все его сообщения:
за день, за месяц,
за все время
пункт 3) отпадает, забыл какой у SSDF контроль, там
40 moves/2 hours followed by 20 moves/each following hour


Старые списки нашел здесь, но какие из них нормировались к человеку и насколько корректно, не знаю
номер сообщения: 54-31-5257

856

Rom77

29.01.2017 | 15:11:35

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Aristarch 4.50 в списке за 2006 год 2697, сейчас 2569, понизили на 128 пунктов.

Понизили всем движкам ровно на 100 пунтов. Это уже при мне было, я хорошо помню. Просто рейтинг этого движка по-видимому немного сдвинулся впоследствии, с добавлением результатов новых партий.

НО, цифры CCRL давно и безвозвратно оторваны от человеческих значений, и имеют значение только как оценка относительной силы движков между собой. Они в принципе не могут быть соотнесены с человеческими, т.к. не учитывают железо.

Для CCRL 40/4 - да. А для CCRL 40/40, не так уж и оторваны. Железо у них, как я полагаю, все годы было одно и то же. На другом железе, понятное дело, использовали с пересчетом контроля времени:
"Time control: Equivalent to 40 moves in 40 minutes on Athlon 64 X2 4600+ (2.4 GHz)".

SSDF сильно пережат (разница в силе уменьшена).

Для меня он оказался наоборот "жидковат". По крайней мере до уровня 2800. Чтобы согласовать SSDF с рейтингом ФИДЕ, в своём списке мне приходилось SSDF именно что "сжимать".

Если посмотреть на пример выше, и учитывать что это рейты на одном ядре, то SSDF выше пунктов на 100. Но это особо не важно, итак все запутано и искажено до полного абсурда.

Мне кажется, сейчас я примерно разобрался, что к чему. В моей схеме эта разница вполне логична.
номер сообщения: 54-31-5258

857

Rom77

29.01.2017 | 15:43:51

все его сообщения:
за день, за месяц,
за все время
Jeweller: Если задаться целью приблизительно перевести рейты движков на шкалу ФИДЕ, то цепочка может быть примерно такой:
1) взять старые списки SSDF (несколько движков на старом железе), где значения еще не были занижены.
2) для этой группы движков на старом железе пересчитать на некое новое железо, для которого будут делаться шкала движков в человеческой шкале ФИДЕ. Получим приличную надбавку "+" к старым значениям SSDF для них.
3) сделать поправку на контроль, приведя к классическом контролю. Вторая поправка "+".
4) теперь надо разжать список SSDF, для чего удобно взять CCRL, т.к. он для всех движков рассчитан на "условно"-одинаковом железе и не пережат (не так сильно пережат) как SSDF, нормировать все множество движков по нашей "контрольной группе", с которой мы работали на первых этапах. После разжатия, наверху списка получим еще одну поправку "+".

В итоге картина прояснится. И вероятно, абсолютные значения лидеров получатся намного выше "привычных" сейчас 3500.

2) Очень непростая задача. Не только вследствие попытки выровнять очень разные процессорные архитектуры, но и потому что непонятно как старые движки будут масштабироваться на новое железо. А масштабировать придется в сотни раз.

4) Если список SSDF ещё и "разжать", то например рейтинг программы Sargon II улетит ниже 800 эло. Тогда как играет она определенно не хуже 1300 эло.
номер сообщения: 54-31-5259

858

Rom77

29.01.2017 | 16:20:04

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Старые списки нашел здесь, но какие из них нормировались к человеку и насколько корректно, не знаю

Я знаю

Они с самого начала нормировались по человекому рейтингу. Причем самым простым способом. Игрой машин против соперников с известным рейтингом, на классических контролях. Но со временем рейтинги людей и машин всё равно расходились. Тогда снова проводились матчи, и из рейтингов всех движков SSDF просто вычиталось определенное число. Большая часть из этих чисел указана здесь или здесь.

Кстати, ссылки на некоторые из этих калибровочных партий вы уже приводили. Их можно найти и в самом рейтинге SSDF (полном), если искать поиском браузера слово "human". Но только в самом рейтинге цифры перфоманса уже другие - некорректные.

Где найти результаты других калибровочных партий и ссылки на ещё более старые списки рейтинга SSDF я вам позже в личку напишу.
номер сообщения: 54-31-5260

859

Jeweller

29.01.2017 | 16:39:49
Email

все его сообщения:
за день, за месяц,
за все время
Rom77: Чтобы согласовать SSDF с рейтингом ФИДЕ, в своём списке мне приходилось SSDF именно что "сжимать".
Для какого железа сделано согласование? Контроль классический, верно?
номер сообщения: 54-31-5261

860

Rom77

29.01.2017 | 16:41:48

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Rom77: Чтобы согласовать SSDF с рейтингом ФИДЕ, в своём списке мне приходилось SSDF именно что "сжимать".
Для какого железа сделано согласование? Контроль классический, верно?

Для того железа, на котором играли эти программы в рейтинге SSDF. Контроль классический.
номер сообщения: 54-31-5262

861

Jeweller

29.01.2017 | 16:48:26
Email

все его сообщения:
за день, за месяц,
за все время
А пробовали перевести шкалу на единое железо? (В SSDF оно ведь разное)

Несколько движков Мефисто сейчас позволяют свести их напрямую с движками на современном железе и замерить поправку для того старого железа
номер сообщения: 54-31-5263

862

Rom77

29.01.2017 | 16:57:20

все его сообщения:
за день, за месяц,
за все время
Jeweller: А пробовали перевести шкалу на единое железо? (В SSDF оно ведь разное)

А зачем? Если, например, Novag Super Constellation сыграл 63 контрольных партии против людей и показал результат на рейтинг 1807 эло, значит так тому и быть. Этот результат достаточно точен. Зачем тут что-то менять?

Кроме того, как сравнивать его процессор 65С02 (4 МГц) например с Athlon XP 1200 МГц?
номер сообщения: 54-31-5264

863

Rom77

29.01.2017 | 17:04:50

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Несколько движков Мефисто сейчас позволяют свести их напрямую с движками на современном железе и замерить поправку для того старого железа

Во времена Мефисто никто не рассчитывал на игру в 100 раз быстрее. Он же масштабируется совсем иначе чем современные движки. На высоких частотах разница в пунктах эло будет одна, на низких другая.
номер сообщения: 54-31-5265

864

Vizvezdenec

Ниже нуля

29.01.2017 | 17:07:14

все его сообщения:
за день, за месяц,
за все время
Идёт очередной Regression test стокфиша, с прошлого прошло чуть меньше месяца, результат выходит +4 эло (к прошлым +5, итого +9), что в принципе неплохо, учитывая, что в прошлый раз было +5 за 2 месяца.
номер сообщения: 54-31-5266

865

Vizvezdenec

Ниже нуля

30.01.2017 | 11:14:04

все его сообщения:
за день, за месяц,
за все время
Завершился турнир от CCRL на одном ядре, помимо достаточно уверенной победы Стока хочется отметить хорошую игру Fizbo.
номер сообщения: 54-31-5267

866

Jeweller

09.02.2017 | 14:04:13
Email

все его сообщения:
за день, за месяц,
за все время
Jeweller: Вот еще позиция для движков: 3qr1k1/1b1rbp2/p2p2p1/1p1np3/4P3/P2BB2Q/1PP3PP/4RR1K w - - 0 22

Сегодня в чате вспомнили эту статью.
ГМ Кузьмин разбирает партию Вэй И – Брусон.


22.Rxf7!!

Для начала жертвуется ладья! Stockfish на глубине 32 все еще с недоумением взирает на эту жертву, полагая, что белые просто решили эффектно форсировать ничью.

22...Kxf7 23.Qh7+ Ke6 24.exd5+ Kxd5

На 24...Bxd5 Вэй заготовил 25.Bxg6! Bxg2+ (черные вынуждены освободить для короля поле d5) 26.Kxg2 Rf8 27.Qh3+ Kd5 28.Bb6!! (симметричная геометрия слонов – восхищает!) 28...Qxb6 29.Be4+ Kc5 30.Qc3 Checkmate!

25.Be4+!!

Вот этой второй жертвы долгое время в своих предварительных расчетах не мог заметить мой Stockfish!

25...Kxe4

Спастись, вернувшись – 25...Ke6 , не удается: 26.Qxg6+ Bf6 27.Qf5+! Ke7 28.Qh7+ и теперь безнадежно как 28...Kf8 29.Bh6+ , так и 28...Ke6 29.Bf5+.

Эту позицию нужно исключить из разряда сложных для движков, большинство видят и правильно оценивают красивую комбинацию Вей И быстро.
Например, Strelka 5.5 после 21c дает оценку +7,05 ходу 22.Rxf7, древний Nimzo 2000 начинает поднимать оценку для этого хода через 19с (на первой линии он у него сразу), доведя через 36с до +2,54. Видят Крайтер, Фриц 15, Спарк и т.д.
Позиция относительно интересна тем, что Сток и Комодо приходят к правильной оценке относительно дольше. Видимо так режут, выкидывают 24.exd5+.

Те кто в проекте по развитию Стока, имхо полезно сообщить авторам.

На 24...Bxd5 Вэй заготовил 25.Bxg6! Bxg2+ (черные вынуждены освободить для короля поле d5) 26.Kxg2 Rf8 27.Qh3+ Kd5 28.Bb6!! (симметричная геометрия слонов – восхищает!) 28...Qxb6 29.Be4+ Kc5 30.Qc3 Checkmate!

Кооператив.
1) Черные не обязаны делать провальный ход 26...Rf8 (оценка StockFish в районе +8), правильный ответ 26...d5 (оценка StockFish в районе +4)
2) Черные не обязаны делать провальный ход 28...Qxb6 (оценка StockFish +M2), правильный ответ 28...Kc6 (оценка StockFish в районе +9)

24...Bxd5 лучший ответ (в районе + 3-4), сыгранное в партии 24...Kxd5 катастрофическая ошибка (оценка падает сразу до + 14-16 и продолжает расти с набором глубины)

Для хода 25...Kxe4 сразу +M9, 25...Ke6 намного упорнее, хотя и там безнадежно.

Один из вариантов мата после 25...Kxe4:
26.c4 Kd3 27.Qxg6+ Be4 28.Rd1+ Kc2 29.Qxe4+ Kb3 30.Qd3+ Ka2 31.b4 Re8 32.Rd2+ Ka1 33.Qc3+ Kb1 34.Qb2#

номер сообщения: 54-31-5270

867

Vizvezdenec

Ниже нуля

09.02.2017 | 14:52:55

все его сообщения:
за день, за месяц,
за все время
Ну так да, у стока самое жёсткое из всех топовых движков отсечение "плохих" ходов, поэтому он и находит этот ход относительно дольше.
Но находит же, так что тут даже не очень понятно, что сообщать. Попытки как-то поправить pruning патчами в последнее время не сильно приносят успех.
номер сообщения: 54-31-5271

868

Jeweller

09.02.2017 | 15:51:41
Email

все его сообщения:
за день, за месяц,
за все время
Vizvezdenec: Но находит же, так что тут даже не очень понятно, что сообщать.
Находит, но позже. И Комодо находит (быстрее). Некоторые уровня 2400-2600 находят быстрее. В реальной партии фактор времени - фактор силы. Если Сток такие вещи не научится видеть сразу, сможет он добраться до 4800? )
номер сообщения: 54-31-5272

869

Vizvezdenec

Ниже нуля

09.02.2017 | 16:20:58

все его сообщения:
за день, за месяц,
за все время
Jeweller:
Vizvezdenec: Но находит же, так что тут даже не очень понятно, что сообщать.
Находит, но позже. И Комодо находит (быстрее). Некоторые уровня 2400-2600 находят быстрее. В реальной партии фактор времени - фактор силы. Если Сток такие вещи не научится видеть сразу, сможет он добраться до 4800? )

В такой позиции какие-то 2400-2600 находят быстрее, с другой стороны в ещё миллионе позиций они нужные ходы вообще не найдут. У стокфиша там целая куча всяких и разных позиций, иногда на основе какой-то одной позиции пытаются что-то сделать, но это на моей памяти ни разу не работало-по статистике хуже выходит.
Да даже 3х2 и 2х1 ничейные однофланговые ладейники ни один движок топовый не считает 0.00, хотя выиграть их невозможно, а уж что в какой-то конкретной позиции он долго находит победу... Бывает
номер сообщения: 54-31-5273

870

Big_Buddha

11.02.2017 | 21:06:05

все его сообщения:
за день, за месяц,
за все время

r1bq1r1k/pp2bp1B/2n1p1p1/3nP1N1/7P/p1P5/4QPP1/RNB1K2R w KQ - 0 14
Хочется верить, что хотя бы топовые движки научатся в блице признавать
14. h5!?
полноценным ходом.
Любой человек допрёт быстрее.
номер сообщения: 54-31-5274

871

Jeweller

14.02.2017 | 11:11:09
Email

все его сообщения:
за день, за месяц,
за все время
Big_Buddha: Хочется верить, что хотя бы топовые движки научатся в блице признавать
14. h5!?
полноценным ходом.
ЧессМастер 10 с увеличенной стоимостью защиты короля противника и пониженной стоимостью пешек уверенно выводит 14. h5 на первую линию. Не уверен даже, что понижение стоимости пешек необходимо, взял одну из своих персон с такими настройками. Величина контемпта еще значима.

Можно попробовать взять любой достаточно сильный движок с возможностью настройки позиционных факторов и стоимости материала за обе стороны, с похожим эффектом в подобных позициях. Попробовал Шреддер 12, в режиме мультипв=5 получается, хотя там позиционные факторы общие для обеих сторон.
номер сообщения: 54-31-5275