Прямого указания на то, что URS учитывает именно фидешные рапид- и блиц-рейтинги не заметил. И не уверен в том, что команда "замечательных математиков и статистиков" трудилась 2 года (!) лишь для определения "оптимальных весов" официальных рейтингов.
Вообще, могли бы методологию опубликовать загодя. Чем порождать неопределенность в умах.
Почитатель: Прямого указания на то, что URS учитывает именно фидешные рапид- и блиц-рейтинги не заметил.
Согласен - это я по "старой привычке") написал. Вполне возможно, что они перепахали результаты всех-всех турниров за 2016 г. для начала с определённого порога, например для Топ200 на 1/1-2016. Применяя свой новый алгоритм URS™, они могли, разумеется, выстроить совершенно новую классификацию. И, кстати, не увидел бы в этом особого "вселенского землетрясения"). Существует ведь и у "ACP Tour" своя система подсчета очков.
Что касается "методологии" URS, я бы, вероятно, все равно бы ничего не понял, но пока что такой возможности мне и не предоставлено.
Числа, неизвестно как получаемые, но "масштабированные" под привычные Эло-коэффициенты и отражающие силу игроков в классике (!) (но с привлечением данных о результатах в рапиде и блице) - это всё, что "понятно".
Если кто понял больше этого - буду рад узнать.
(Не пойму даже толком объяснений про смысл этих "rapid gap" и "blitz gap", но это "мелочи")
Здесь я "по крупицам" буду собирать важные сведения о новой системе, почерпанные на сайте http://universalrating.com/ и, возможно, других источников. Информацию я намереваюсь давать в "случайном" с точки зрения важности понимания порядке по мере собственного знакомства с новой системой. Материал столь обширен, что было бы желательно участие в этой работе и других заинтересованных форумчан, склонных к аналитике. Единственно важным, как мне кажется, является наличие спокойного и положительного желания разобраться без брюзжания и паники), характерных при столкновении с чем-то новым и непривычным.
1. Разработкой системы URS™ более двух лет руководили:
- Dr. Mark Glickman, Senior Lecturer, Department of Statistics, Harvard University, and chairman of the U.S. Chess ratings committee since 1992.
- Mr. Jeff Sonas, the inventor of the Chessmetrics rating system and owner of the Chessmetrics website.
- Dr. J. Isaac Miller, Associate Professor, Department of Economics, University of Missouri-Columbia.
- Mr. Maxime Rischard, a Data Scientist and Ph.D. Statistics Student from Harvard University.
2. Система работает с данными, основанными на результатах шахматистов строго за последние шесть лет (72 месяцев). Все данные для всех игроков при обновлении подвергаются обработке, причём "новые результаты" имеют больший вес в сравнении со "старыми результатами". Таким образом, например, оценка выдающегося результата несколько лет назад "по каплям" теряет свою "стоимость" - как это известно из рейтинговых систем в других видах спорта. Составляющие элементы рейтингов находятся в постоянной динамике, и не привязаны "по ходу дела" к каким-то фиксированным спискам.
3. Экспериментируя со случайными именами в базовом регистре, замечаем, что около 250.000 шахматистам присвоен рейтинг URS™.
4. Несмотря на огромный массив данных, сами обновления занимают какие-то миллисекунды), и разработчики предполагают в перспективе выдавать результаты в ритме online, аналогичном сайту 2700сhess.сом. Лишь в период запуска системы результаты обновлений публикуются ежемесячно.
1. Состав авторов проекта "внушает". Но...
2. Система непрозрачна, заведомо сложна и исключает возможность перепроверки, самостоятельной прикидки и т.п.
(В частности, "Рейтинговые перспективы" от Якоба становятся невозможны)
3. В этом и есть "великий соблазн": вы не обязаны играть в турнирах, обсчитываемых ФИДЕ, только подайте нам результаты - и получите свой рейтинг. Бесплатно.
4. "разработчики предполагают в перспективе выдавать результаты в ритме online, аналогичном сайту 2700сhess.сом". По-моему, не совсем так. Предполагаемый ритм - не ежедневный пересчет, а обновления по завершении каждого отдельного турнира.
И не поворчать, извините, не могу.
1. Можно, конечно, "слепо довериться", но отсутствие даже намека на природу, на происхождение самих цифр вдохновлять не может.
2. Сама цель - уточнение классического (!) рейтинга путем привлечения статистики выступлений в рапиде и в блице - не выглядит бесспорной. И если будет оправданной - то только с резким увеличением числа турниров с ускоренным контролем. То есть, для полу-любительского уровня, возможно, и заманчиво, для профессионалов большого проку не видно.
Jacob08: 2. Система работает с данными, основанными на результатах шахматистов строго за последние шесть лет (72 месяцев). Все данные для всех игроков при обновлении подвергаются обработке, причём "новые результаты" имеют больший вес в сравнении со "старыми результатами". Таким образом, например, оценка выдающегося результата несколько лет назад "по каплям" теряет свою "стоимость" - как это известно из рейтинговых систем в других видах спорта. Составляющие элементы рейтингов находятся в постоянной динамике, и не привязаны "по ходу дела" к каким-то фиксированным спискам.
Идея правильная, реализовать ее можно разными способами. 7-8 лет назад я делал ровно тоже в "Top GrandMasters Today", там тоже ни в один момент времени не было привязки к внешним фиксированным спискам, рейтинги находились в постоянной динамике.
По поводу 6-летней истории и убывания веса со временем. В рамках "Top GrandMasters Today" иногда делал закрытые списки (они никогда не публиковались). Там использовалось линейно-взвешенное усреднение. Как показал прогон альтернативных моделей на истории, это лучшая модель. В другом проекте, который не публиковался здесь, использовалась не 6-летняя история, а 5-летняя.
Полные списки тоже имели десятки тысяч имен, 250000 не предел, обсчитать можно любую базу.
Интеграция партий с рапид и блиц контролем также не представляет трудностей, здесь нужно хорошо подобрать веса. Я это тогда не делал, т.к. не было возможности в ручную разделять общий массив. При наличии автоматической обработки, это секунды.
Если они делают то, о чем я думаю (в чем уверенности нет), сделано правильно и учтены нюансы, должно получиться неплохо, если не правильно и не учтены - плохо.
В принципе это проверяется. Если сделать список "Top GrandMasters Today" с 6-летней линейно-взвешенной историей, с интеграцией рапид и блиц партий уменьшенными весами, все станет видно. (Но сделать его сейчас с нуля это долго)
Есть еще один резерв усиления - базовая формула обсчета.
Как показал чемпионат моделей несколько лет назад, модель Эло не самая лучшая. В частности, базовая не модифицированная модель Сонаса показывала лучший результат, а уж модифицированный модели Эло, Сонаса и другие, тем более.
Что используется в этом проекте неизвестно, но что-то подсказывает что все та же модель Арпада Эло. И это не самый плохой вариант (модель Эло не плоха), есть модели хуже.
Думаю, что самое главное для определения успешности (или неуспешности) проекта это его обоснование (грубо говоря зачем (и кому) этот новый рейтинг нужен). Поэтому, перепощу обоснование от авторов проекта (и выделю главное ИМХО):
1. Accuracy
The accuracy of many existing sport rating systems is significantly impacted by their inherent simplicity. Dividing events into “classes” and maintaining separate ranking lists reduces the amount of data available for analysis purposes. This is done in cricket where separate ranking lists are currently maintained for Test Matches, One Day Internationals and T20 games. It is also done in Chess where games are currently sub-divided into Classical, Rapid and Blitz classes for rating purposes.
It makes logical sense that a player’s universal ability at a sport can be more accurately predicted by considering all available data rather than only using a restricted set of results. Armed with a player's entire history of results, the URS™ is better able to assess a player’s overall strength and hence yields a far more accurate rating list.
2. Access
Another major drawback of most rating systems is that they are maintained only for the most Elite athletes. Most sport federations simply cannot afford to rate games played between amateur level players if rating fees are charged for these services. This is particularly evident in a sport like chess where the current existing rating list maintained by the world body captures less than 1% of the estimated global population of participants.
Since the URS ™ rating services will be free for local organisers and federations who choose to submit games for rating purposes, we are confident that millions of new chess players will shortly enjoy the privilege of earning a world rating that they can then use to monitor and track their progress moving forward.
и в дополнении (почему лучше чем ФИДЕ рейтинги):
We expect some people to challenge the notion that games played at slow time controls can be mixed together with faster games within a single rating system. One commonly-held (though admittedly subjective) belief is that classical chess is categorically different from rapid chess and even more different from blitz chess and the three types of chess ought to be kept separate.
There is another way to think about this, however. What if classical and rapid and blitz aren’t that different from each other? What if they all reveal information about a player’s universal chess ability, with the understanding that games become more chaotic and less informative as the rate of play speeds up.
@Jeweller.
Как раз была "мечта") привлечь ув.Jeweller с его опытом к "постижению" URS™
@Почитатель.
Тоже разумеется - спасибо за ответ. Отвержение разумной системы по причине якобы отсутствия достаточной степени прозрачности тоже может служить тормозом прогресса. Никто толком не понимает обычный счёт на оплату мобильного телефона, но все знают и удовлетворены тем, что, "если припрёт" - вам всегда могут дополнительно прислать 10 страниц очень мелким шрифтом, поясняющих почему вы должны телекомпании именно $199,99 :-)
Другой, более актуальный пример "непрозрачности" - это рейтинг у гольфистов. Лишь отдельные "ботаники" вроде меня в курсе, как работает непростая система с двухлетней глубиной оценки результатов - 92 обновления за 2 года по количеству соревновательных недель - где каждую неделю, при прочих сложностях, "отщипывают" 1/92 часть заработанного рейтинга. Никому и в голову не приходит жаловаться на "невозможность" проверки. А гольфисты, смею заверить, ничуть не менее мнительны, чем шахматисты.) И ничего - система работает как часы много много лет.
И в целом: Воздержусь от полемики ввиду полного незнания системы URS™, а скоропалительные выводы делать не хочется. Наверняка появится дополнителъная разъясняющая информация, пока надо ИМХО терпеливо собирать сведения - собственно к этому я призвал. Вероятно на осмысление у меня уйдет очень много времени.
Возникли такие вопросы:
1. Каким образом взвешивались разные форматы?
2. Что символизирует 1 очко рейтинга?
3. Как рейтинг коррелирует с вероятностью победы?
Разработкой системы URS™ более двух лет руководили:
...
- Mr. Jeff Sonas, the inventor of the Chessmetrics rating system and owner of the Chessmetrics website.
...
присутствие Сонаса дает
а) некую гарантию, что сделано совсем плохо не будет
б) некую надежду, что может быть сделано даже лучше, чем... т.к он может протолкнуть более точную модель, чем модель Эло
в) некую опасность, т.к. он может протолкнуть идею зависимости рейтинга от количества партий, тогда ахтунг!!
насколько помню, в его историческом чессметрикс уже использовалось линейно-взвешенное усреднение (явление со знаком плюс), правда с глубиной памяти 48 месяцев, а не 72
но! одновременно была зависимость рейтинга от количества сыгранных партий (явление с жирным знаком минус)
там вообще может быть просто - взяли одну из неплохих моделей (Эло, Сонаса или модификации), ввели понижающие коэффициенты для рапид и блиц партий, прикрутили линейно-взвешенное затухание в течение 72 месяцев - и пока все хорошо
но если прикрутили еще и зависимость от числа партий... сразу становится плохо
это конечно может обосновываться самыми благими намерениями, что не отменяет оценки - это плохо
правда, можно сделать эту зависимость мягкой, или совсем мягкой, тогда "плохо" приобретает градации
но как известно лучше вообще не портить бочку меда, ни одной ложкой дегтя, ни двумя, ни даже четвертью ложки
есть еще вопрос - как решили вопрос с нормировкой, если основано на перфомансах, а если не основано и идет какой-то пошаговый пересчет, то как присваиваются начальные рейтинги и вообще как система защищена от инфляционного разгона, независимость от цифр фиде этот вопрос не снимает
в целом, пока методика не опубликована, какие-то плюсы и минусы можно будет заметить только по динамике изменения, но это все косвенно и не интересно
повторюсь, совсем плохо не сделают, в то что сделают совсем хорошо не верю (с)
а то что не публикуют пока, может быть связано, например, с уточнением формул и коэффициентов, хорошо если уточняют
Jeweller: присутствие Сонаса дает некую гарантию, что сделано совсем плохо не будет
О Марке Гликмане я уже давно слышу, как разумеется и о Сонасе :-), что если кто-нибудь в мире разбирается в рейтингах - то это Марк.
Curriculum Vitae of MARK E. GLICKMAN, Ph.D.
С моделями и нормировками они разберутся. Основная проблема - наполнение базы. У ФИДЕ есть уже каналы сбора, а им предстоит их организовывать (они вроде свою базу противопоставляют). И бесплатность тут палка о двух концах. От федераций можно ожидать акуратности и честности (они это уже давно делают), а к локальным организаторам может прибиться много хулиганов, забесплатно набивающих себе рейтинг. Тем более, что собираются устроить полный охват играющих. Самые большие трудности будут организационные.
Jacob08: О Марке Гликмане я уже давно слышу, как разумеется и о Сонасе :-), что если кто-нибудь в мире разбирается в рейтингах - то это Марк.
у Гликмана, кажется, тоже есть зависимость от числа партий, но не самого рейтинга, а степени его изменения, т.е. величина изменения пропорциональна доверительному интервалу, который в свою очередь тем больше, чем меньше играет шахматист, или чем дольше он не играет (чем длительней простой)
это как раз идея стоящая, хотя и возникают несимметричные вещи, что не страшно
например, прибавка в рейтинге игрока А после победы над игроком Б, будет больше чем потеря игрока Б, если А играет меньше Б (или у него был более длительный простой), и наоборот
так что, если реализован вариант Гликмана, ахтунг!! отменяется
Главный вопрос все-таки, как по-моему, - А зачем?
Присутствие в команде Каспарова и, одновременно, неспешность в продвижении проекта наталкивают на мысль, а не замахнулась ли группа серьезных заговорщиков в перспективе создать альтернативу ФИДЕ?
Jeweller совершенно правильно намекает на третью необходимую для замаха составляющую.
Если считать Каспарова режиссером, а Синкфильда сотоварищи - представителями страхового общества, то кто же будет изображать ментов силовую сторону постановки?
BillyBones:Jeweller совершенно правильно намекает... кто же будет изображать ментов силовую сторону постановки?
признаться мой намек опередил самого себя, но благодаря Вам, я его догнал, и вот думаю что если даже изображать силовую сторону будет тот, "кого надо нога"
то все равно (см выше) "присутствие Каспарова... прошлые замахи... известно чем"
Почитатель: Не пойму даже толком объяснений про смысл этих "rapid gap" и "blitz gap", но это "мелочи"
Что ж, хотелось бы получить помощь форума в понимании_трактовки_переводе следующего ключевого пассажа в объяснениях авторов:
"Published URS™ Ratings represent the system's assessment of a player's strength at Classical chess. The URS™ then assumes that the quality and consistency of play will degrade as time controls reduce across the spectrum from Classical to Rapid to Blitz chess. The magnitude of this decline differs from player to player and is displayed as their Rapid and Blitz Gaps.
Rapid Gap = the Universal Rating advantage the player would need for a 50% expected score in rapid (Game in 30 minutes each) against an opponent whose quality and consistency of play do not worsen at quicker time controls.
Blitz Gap = the Universal Rating advantage the player would need for a 50% expected score in blitz (Game in 5 minutes each) against an opponent whose quality and consistency of play do not worsen at quicker time controls."
хотя если представить, что режиссер - совсем другие силы, а ГК просто закрывает узкий фронт работ временно играет роль "нового домоуправления нашего дома"
Почитатель: Не пойму даже толком объяснений про смысл этих "rapid gap" и "blitz gap", но это "мелочи"
Что ж, хотелось бы получить помощь форума в понимании_трактовки_переводе следующего ключевого пассажа в объяснениях авторов:
"Published URS™ Ratings represent the system's assessment of a player's strength at Classical chess. The URS™ then assumes that the quality and consistency of play will degrade as time controls reduce across the spectrum from Classical to Rapid to Blitz chess. The magnitude of this decline differs from player to player and is displayed as their Rapid and Blitz Gaps.
Rapid Gap = the Universal Rating advantage the player would need for a 50% expected score in rapid (Game in 30 minutes each) against an opponent whose quality and consistency of play do not worsen at quicker time controls.
Blitz Gap = the Universal Rating advantage the player would need for a 50% expected score in blitz (Game in 5 minutes each) against an opponent whose quality and consistency of play do not worsen at quicker time controls."
Другими словами, для каждого игрока будет рассчитываться своя, индивидуальная - и динамическая - система пересчета рейтинга при игре с быстрыми контролями.
Или, что то же самое, игроки в зависимости от изменяемых индивидуальных факторов для быстрых и для блица будут "ставить на карту" разные величины рейтинга.
BillyBones: Другими словами, для каждого игрока будет рассчитываться своя, индивидуальная - и динамическая - система пересчета рейтинга при игре с быстрыми контролями.
Или, что то же самое, игроки в зависимости от изменяемых индивидуальных факторов для быстрых и для блица будут "ставить на карту" разные величины рейтинга.
...Ничего подобного в тексте нет даже близко. А написано там следующее:
Публикуемый рейтинг представляет оценку системой силы игрока в классических шахматах. Далее, делается предположение, что качество и стабильность игры падает - от классики к рапиду, и от рапида к блицу. Степень этого падения для каждого игрока разная, и выражена в виде их "зазора" в рапиде и блице.
Рапидный зазор - преимущество в рейтинге, которое поторебовалось бы данному игроку для достижения 50% ожидаемого результата в рапиде против оппонента (условного), качество игры которого не ухудшается с изменением темпа игры.
Иными словами, если игрок имеет рейтинг 2775, а рапидный зазор у него 75, то он играет в рапид в такую силу, в какую игрок 2700 играет в классику. Но это не значит, что рапидный рейтинг у него 2700.
Ukrfan: Иными словами, если игрок имеет рейтинг 2775, а рапидный зазор у него 75, то он играет в рапид в такую силу, в какую игрок 2700 играет в классику. Но это не значит, что рапидный рейтинг у него 2700.
Что ж, большое спасибо.
Рад, что "собрался с духом") и спросил об этом важнейшем и наверняка витиеватом для многих моменте. Похоже в какой-то степени имеются ввиду понятия, которые обычно используются при объяснении значения тоже непростого понятия "Перформанс". А можно Вас попросить конкретно прокоментировать на цифровом примере Карлсена с использованием понятий "зазор" и т.д.?
Ukrfan: Иными словами, если игрок имеет рейтинг 2775, а рапидный зазор у него 75, то он играет в рапид в такую силу, в какую игрок 2700 играет в классику. Но это не значит, что рапидный рейтинг у него 2700.
Что ж, большое спасибо.
Рад, что "собрался с духом") и спросил об этом важнейшем и наверняка витиеватом для многих моменте. Похоже в какой-то степени имеются ввиду понятия, которые обычно используются при объяснении значения тоже непростого понятия "Перформанс". А можно Вас попросить конкретно прокоментировать на цифровом примере Карлсена с использованием понятий "зазор" и т.д.?
Легко. Если Карлсен играет в рапид с человеком, который играет (в этот же рапид) так, как в классику, т.е. вообще не испытывая ни малейших проблем из-за недостатка времени, а в классику этот человек играет на 2834 (то есть существенно сильнее всех реальных соперников Карлсена - не следует забывать, что у Каруаны тут отнюдь не 2827, как в рейтинге ФИДЕ, а гораздо меньше), то матожидание Карлсена против него составит 50%.
Это можно сформулировать несколько проще: сам Карлсен играет в шахматы (при рапидном контроле) в такую силу (с таким качеством ходов и стабильностью), которая соответствует рейтингу 2834, будь контроль классическим. Т.е сила игры вообще практически не падает (что кажется мне преувеличением.)
То есть теперь понятно, что такое этот зазор, как они его трактуют, и как собираются применять. Вот как они его высчитывают - действительно крайне интересно...
patrikey: А вот интересно, Rapid Gap может быть отрицательным?
По определению - делается предположение, что качество и стабильность игры падает от классики к рапиду, и от рапида к блицу - не может. Вам никак не может мешать запас времени. Если для вас 30 минут на партию достаточно, играйте ее за 30 минут.