|
|
|
|
|
|
|
|
|
|
Jeweller:
"физический смысл" индекса силы прост - это средняя за год реальная продемонстрированная сила игры, позволившая сдвинуть фиде-рейтинг с уровня января 17 до уровня января 18 с учетом помесячного индивидуального графика игры конкретного шахматиста
а что замеряет индекс? - среднюю за год силу в пунктах эло в фиде-системе, отсюда и естественное название, не мудрствуя |
Что ж, мне нравится.
Вот бы ещё было здорово попытаться, используя схожие понятия, сформулировать "физический смысл" URS-рейтинга. Пусть и не так лаконично, как в случае индекса силы.
А то всё "gab" да "gab". |
|
|
номер сообщения: 150-5-21634 |
|
|
|
для Концентратора сильнейших ввел минимальное число партий, если партий меньше - перфоманс приводится справочно, номер не присваивается, яркость строки уменьшается
сначала это число установил на уровне 12 партий (как в чемпионском матче), но позднее поднял его до 15 (минимум в среднем по 1 партии с каждым)
хотя повышение до 15 перевело результаты Яковенко, Юй Янгъи и Крамника в категорию "недостаточно надежных", считаю что так лучше
Почитатель:
|
итерационный метод, 27 итераций, 173 партии, средний процент ничьих 80,3%
относительные перфомансы (elo-модель), уровень лидера принят за 0, для остальных указано отставание:
|
|
|
номер сообщения: 150-5-21635 |
|
|
|
Jacob08: Вот бы ещё было здорово попытаться, используя схожие понятия, сформулировать "физический смысл" URS-рейтинга. Пусть и не так лаконично, как в случае индекса силы. |
пока добавить к тому, к чему пришли около года назад, нечего:
Jeweller: Они считают рейтинг-перфоманс сразу по всей больнице ... Используется итерационный метод |
это то, что делалось здесь раньше, когда делался TGT
но модель у них другая, здесь использовал elo-модель, у них модель лучше, но как отмечал Bulldozer, они этим не воспользовались:
Bulldozer: Они сильно улучшили алгоритм в целом (по сравнению с ФИДЕ), за счёт чего, я уверен, заметно улучшилась предсказательная сила. Но они этим не воспользовались по причине, как мне думается, упёртости кого-то (вероятно, Каспарова), выдвинувшего абсурдную идею получения универсального рейтинга. |
однако, раз прогрессивная модель есть, ее со временем можно будет использовать лучше
_________________________________
что касается "индекса силы", вчера я улучшил модель и точность расчета
идею "индекса силы" можно развить и получить всякие интересные штуки, но заниматься этим дальше сейчас нет возможности |
|
|
номер сообщения: 150-5-21636 |
|
|
|
Jeweller:
Bulldozer: Они сильно улучшили алгоритм в целом (по сравнению с ФИДЕ), за счёт чего, я уверен, заметно улучшилась предсказательная сила. Но они этим не воспользовались по причине, как мне думается, упёртости кого-то (вероятно, Каспарова), выдвинувшего абсурдную идею получения универсального рейтинга. |
|
Пока непонятно, в чем абсурдность идеи. |
|
|
номер сообщения: 150-5-21637 |
|
|
|
Ukrfan: Пока непонятно, в чем абсурдность идеи. |
среднее по "многоборью" хорошо для представления о качествах многоборца, но
1) может сильно отличаться от значений отдельно в каждой из номинаций (классика, рапид, блиц), не давая адекватного представления об индивидуальной силе и общем соотношении сил в каждой из номинаций
2) предсказательная сила такого "универсального" среднего значения снижена, чем больше разница в индивидуальной силе в разных номинациях (классика, рапид, блиц)
достаточно двух примеров - Карлсен (разница в текущих фиде-рейтингах в классику и блиц - 131 пункт), Накамура (72 пункта)
для Карлсена, например, использование среднего значения по трем контролям, не дает представления, в частности
1) о силе в классике,
2) о силе в блице,
3) резко снижает точность предсказания результатов в классике
4) в блице
т.е. вообще неприменимо (абсурдно)
вместо этого, использование трех отдельных рейтингов все ставит на свои места |
|
|
номер сообщения: 150-5-21638 |
|
|
|
хотя, на мой взгляд, некий "универсальный рейтинг", как среднее по всему многоборью, интересен
и полностью не лишен смысла
но как дополнительный к трем основным отдельным рейтингам по каждому контролю отдельно
(когда делался TGT, выделять каждый контроль в отдельный список не было никакой возможности
решение делать сборную солянку было вынужденным, с искажениями намучился) |
|
|
номер сообщения: 150-5-21639 |
|
|
|
номер сообщения: 150-5-21640 |
|
|
|
Jeweller: Ukrfan: Пока непонятно, в чем абсурдность идеи. |
среднее по "многоборью" хорошо для представления о качествах многоборца, но
1) может сильно отличаться от значений отдельно в каждой из номинаций (классика, рапид, блиц), не давая адекватного представления об индивидуальной силе и общем соотношении сил в каждой из номинаций
2) предсказательная сила такого "универсального" среднего значения снижена, чем больше разница в индивидуальной силе в разных номинациях (классика, рапид, блиц) |
Это для меня неочевидно.
Если брать "среднее значение", тогда вы, вероятно правы, хотя в теннисном рейтинге примерно так и поступают. Но если брать его с весами, причем используя разные веса в зависимости от того, что мы хотим предсказать - тогда вряд ли.
Возьмем пример: Аронян выиграл турнира в Сент-Луисе рапид+блиц, не будучи суперблицером. В каком случае мы получим лучшую оценку его потенциального выступления в следующем турнире: если учтем этот факт, или если проигнорируем?
Дополнительный вопрос: а если следующий турнир носит такой характер, как Кубок Мира?
для Карлсена, например, использование среднего значения по трем контролям, не дает представления, в частности
1) о силе в классике,
2) о силе в блице,
3) резко снижает точность предсказания результатов в классике
4) в блице
т.е. вообще неприменимо (абсурдно) |
И в этом я тоже не уверен.
При этом надо принимать во внимание, что "универсальный" рейтинг может быть подсчитан двумя способами:
1) как некая "общая сила" шахматиста; тогда для оптимального прогноза следующего результата надо применять его с некими поправочными значениями и, вероятно, как-то соотносить с "отдельным" рейтингом по тому виду, по которому будет проводиться турнир, результат которого мы хотим спрогнозивать;
2) как сила шахматиста в одном из видов (например, в классике), рассчитанная с учетом его выступлений в других видах. По утверждениям разработчиков URS, они стремились сделать именно это. |
|
|
номер сообщения: 150-5-21641 |
|
|
|
номер сообщения: 150-5-21642 |
|
|
|
Ukrfan: Возьмем пример: Аронян выиграл турнира в Сент-Луисе рапид+блиц, не будучи суперблицером. В каком случае мы получим лучшую оценку его потенциального выступления в следующем турнире: если учтем этот факт, или если проигнорируем? |
лучшую оценку мы получим, если учтем индивидуальную зависимость, которая в общем случае для разных игроков разная
в среднем, небольшой анализ совпадения/несовпадения направлений изменения полугодовых отрезков (январь->июль, июль->январь) фиде-рейтингов в классику, рапид и блиц для первой десятки (текущей) за последние три года показал, что имеется небольшая антикорреляция между направлением сдвига классического рейтинга и направлением сдвигов рапид и блиц рейтингов
т.е., если в среднем (обезличено) наблюдается тенденция на увеличение классического рейтинга, лучше немного понизить прогноз на результаты рапид и блиц партий, и наоборот
(в примере с условным "ароняном" лучше немного понизить прогноз на результат классических партий)
также, могу сказать по прошлому опыту, что хотя в среднем tgt-перфомансы давали лучший прогноз сравнительно с фиде-рейтингами (класическими), для игроков, чей tgt-перфоманс был слишком "сдвинут" результатами быстрых контролей, лучший прогноз давали фиде-рейтинги, и в таких случаях я отказывался от использования tgt-перфомансов |
|
|
номер сообщения: 150-5-21643 |
|
|
|
Дополнительный вопрос: а если следующий турнир носит такой характер, как Кубок Мира? |
в этом случае лучше использовать для каждого контроля в кубке свои специализированные рейтинги
если же нужно сделать общий прогноз, то лучше учесть классический, рапид и блиц рейтинги с весами, пропорциональными долям классического, рапид и блиц этапов в кубке мира, а не с теми долями, что они смешиваются в неком "микс-рейтинге", или "универсальном рейтинге" (эти веса, кстати, могут быть для разных игроков разные)
т.е. и в этом случае лучше иметь три отдельных рейтинга для каждого контроля, чтобы сделать лучший прогноз |
|
|
номер сообщения: 150-5-21644 |
|
|
|
Ukrfan: Jeweller: для Карлсена, например, использование среднего значения по трем контролям, не дает представления, в частности
1) о силе в классике,
2) о силе в блице,
3) резко снижает точность предсказания результатов в классике
4) в блице
т.е. вообще неприменимо (абсурдно) |
И в этом я тоже не уверен.
|
возьмем табличку "индекс силы 2017" на предыдущей стр.
превосходство Карлсена над первой десяткой +38,2 - это среднее по году, фактическое, продемонстрированное превосходство в классике
теперь возьмем фиде-рейтинги в классике и "urs-рейтинги" за 01.2017, 07.2017 и 01.2018, что позволит сравнить как предсказательную силу (01.2017 и частично 07.2017), так и степень текущего соответствия (01.2018)
также смотрим отрыв первого номера над средним 2-10 номеров
фиде рейтинг классика:
01.2017 - +45,4
07.2017 - +23,7
01.2018 - +44,9
и в среднем по трем спискам +38,0, что практически совпадает (разница 0,2 пункта) с фактически продемонстрированным в 2017 году отрывом
urs-рейтинг
01.2017 - +75,1
07.2017 - +64,9
01.2018 - +81,0
ошибка в предсказании в январе и июле - завышение отрыва на +37,1 и +26,9 пунктов соответственно, последний список еще хуже учитывает фактический отрыв, завышая его уже на 43 пункта дополнительно
это большие отклонения, понятно что urs-списки не отражают как текущего положения в классике, так и дали существенно худший прогноз |
|
|
номер сообщения: 150-5-21645 |
|
|
|
Jeweller: могу сказать по прошлому опыту, что хотя в среднем tgt-перфомансы давали лучший прогноз сравнительно с фиде-рейтингами (класическими), для игроков, чей tgt-перфоманс был слишком "сдвинут" результатами быстрых контролей, лучший прогноз давали фиде-рейтинги, и в таких случаях я отказывался от использования tgt-перфомансов |
Мне кажется, ключевое слово "слишком". Как вы это определяли?
Понимаете ли, если использовать одну, общую методику для всех шахматистов, то надо найти тот вес для быстрых, который будет оптимальным в целом. Возможно, этот вес должен быть не константой, а функцией - неважно, главное, чтобы это можно было задать для каждого элемента массива (который сам может быть массивом результатов, естественно). Ничто не мешает нам потом скорректировать наш прогноз экспертной оценкой, но Эло-то мы рассчитываем для всех игроков одинаково! |
|
|
номер сообщения: 150-5-21646 |
|
|
|
Ukrfan: Как вы это определяли? | примерно знал по массиву партий и по изменениям перфомансов от обновления к обновлению
Понимаете ли, если использовать одну, общую методику для всех шахматистов, то надо найти тот вес для быстрых, который будет оптимальным в целом. |
действительно, в такой частной модели можно искать единый вес, и в этом случае, мы снова получим три рейтинга, а не один:
1) классика - где основной вес у классических партий с оптимальным (<<1) весом рапида и блица
2) рапид - где основной вес у рапид партий с оптимальным (<<1) влиянием классики и блица
3) блиц - аналогично
в одном <универсальном> рейтинге для всех контролей, в принципе невозможно достичь оптимизации для всех контролей, что и показывает URS - он не оптимизирован ни для одного контроля |
|
|
номер сообщения: 150-5-21650 |
|
|
|
Jeweller:
в одном <универсальном> рейтинге для всех контролей, в принципе невозможно достичь оптимизации для всех контролей, что и показывает URS - он не оптимизирован ни для одного контроля |
Однако его создатели утверждают обратное - как раз то, что он оптимизирован для классики. |
|
|
номер сообщения: 150-5-21651 |
|
|
|
сейчас в URS по грубой прикидке вес классики 1,0, вес рапида+блица ~0,8
берем фиде-рейтинги для трех контролей, смешиваем в пропорциях, например, классика - 1,00, рапид - 0,535, блиц - 0,285
и хотя базовые модели ELO и URS совершенно разные, получим близкую к URS картинку (не абсолютно идентичную конечно)
к какому контролю оптимизирован такой микс? - ни к какому, что и выразил одним словом Bulldozer |
|
|
номер сообщения: 150-5-21652 |
|
|
|
Ukrfan: Jeweller:
в одном <универсальном> рейтинге для всех контролей, в принципе невозможно достичь оптимизации для всех контролей, что и показывает URS - он не оптимизирован ни для одного контроля |
Однако его создатели утверждают обратное - как раз то, что он оптимизирован для классики. |
важны не слова, а реальность
даже простым взглядом видно, что URS не оптимизирован под классику
при использовании микширования и не может быть оптимизирован, посмотрим насколько он хуже
аналогично тому, как делал выше для Мага (сравнение списков 01.2017, 07.2017 и 01.2018 и годового индекса силы), только теперь для простоты сравнение делаю относительно среднего первых десяток (а не девяток, за исключением Мага, как выше)
семь мастеров есть в первых десятках во всех трех списках (индекс силы, фиде и urs), смотрим для них модуль среднего отклонения по трем рейтинг спискам относительно годового индекса силы:
в 6 случаях из 7 URS хуже ФИДЕ-рейтинга в классику
среднее отклонение URS 1,7 раз больше |
|
|
номер сообщения: 150-5-21654 |
|
|
|
Это аргумент, но не доказательство.
Рейтинг (как и URS, как и ваш индекс силы) предназначен не для предсказания изменения рейтинга (что было бы абсурдно), а для максимально точного определения матожидания результата в ближайшем турнире. Не за год, а прямщас.
В связи с этим никакого смысла не имеет усреднение рейтинга по трем спискам (поскольку, как мы уже выясняли, предыдущие рейтинги уже учтены в нынешнем. Имеет смысл перед турниром взять каждый из трех рейтингов, и проверить, насколько точно он предскажет результаты каждого участника. И так для каждого турнира в году (или для статистически значимого массива). Затем полученный результат как-то обработать (не уверен, что среднее арифметическое будет лучшим измерителем отклонения), и вот этот анализ действительно покажет предсказательную силу. |
|
|
номер сообщения: 150-5-21655 |
|
|
|
Ukrfan: Это аргумент, но не доказательство. |
и не было цели доказывать
мне было интересно сравнить некоторые моменты для себя, только чтобы быстро, поэтому способы выбрал самые топорные, зато наглядные (и все турниры, о которых Вы говорите, уже туда засунуты всем поездом)
авторы URS люди все правильные, никаких сомнений у меня нет, что все прекрасно видят
ирония в том, что исправить и поставить все с головы на ноги в рамках концепции "универсальный" - нельзя
но и трагедии никакой нет, пока у них есть возможность развивать прогрессивную базовую модель, они это делают
потом, может через годы, она сможет наконец начать применяться правильно, главное чтобы была |
|
|
номер сообщения: 150-5-21656 |
|
|
|
Jeweller: способы выбрал самые топорные, зато наглядные (и все турниры, о которых Вы говорите, уже туда засунуты всем поездом) |
Топорным способом можно получить, простите, только среднюю температуру по больнице, и вы это прекрасно знаете. А "все турниры всем поездом" засунуты в любой рейтинг. Даже если вы просто возьмете средний процент набранных игроком очков в турнире, и отрейтингуете по нему, у вас тоже будут "все турниры засунуты одним поездом", но лучшим в мире будет Шкуро.
Поэтому, если вы хотели убедить себя - для этого нет смысла писать на форум. Меня вы, к сожалению, не убедили (впрочем, вы совершенно не обязаны это делать, конечно). |
|
|
номер сообщения: 150-5-21657 |
|
|
|
Вы не разбираетесь в вопросе
...
что писать на форум мне лучше знать |
|
|
номер сообщения: 150-5-21658 |
|
|
|
ОК.
Не хотел обидеть, ваши посты в этой теме всегда интересны. |
|
|
номер сообщения: 150-5-21659 |
|
|
|
по улучшенной методике пересчет годового "индекса силы 2017" показывает:
1) Мамедьяров - 2831,4
2) Карлсен - 2823,3
годовой фиде-перфоманс Мамедьярова также лучший:
1) Мамедьяров - 2822,6
2) Карлсен - 2816,8
____________
уточнение остального списка возможно в будущем |
|
|
номер сообщения: 150-5-21662 |
|
|
|
по улучшенной методике пересчет годового "индекса силы 2017" показывает:
1) Мамедьяров - 2831,4
2) Карлсен - 2823,3 | 3) Аронян - 2811,0 |
|
|
номер сообщения: 150-5-21672 |
|
|
|
расчет трехлетнего индекса силы 2015-17 (это взвешенный индекс, не простое среднее по годам)
трехлетний период, пмм, дает лучшее представление о соотношении сил недавнего прошлого (одного удачного или неудачного года для этого недостаточно), определяя шахматную "элиту", в полном соответствии с продолжительностью старого трехлетнего цикла розыгрыша короны
Лидеры трехлетия 2015-17 (первая тройка) (в скобках по годам)
1) Карлсен - 2834,2 (15'-2837,0, 16'-2843,3 17'-2823,3)
2) Каруана - 2804,6 (15'-2779,2, 16'-2837,1 17'-2798,4)
3) Крамник - 2803,1 (15'-2814,1, 16'-2822,2 17'-2771,9)
следующие - меньше 2795 |
|
|
номер сообщения: 150-5-21825 |
|
|
|
Спасибо за Ваши изыскания, расчёты и публикации индекса силы, ув.Jeweller. |
|
|
номер сообщения: 150-5-21829 |
|
|
|
Зашел в эту тему, которую считал усопшей после того, как 7 лет назад Jeweller решил отойти от дел. А теперь вот тема снова ожила - Почитатель и Jeweller, спасибо Вам огромное!
В свете начавшегося турнира претендентов особенно интересна статистика встреч в этиле, приведенная и обсчитанная Вами. Правда вот результаты у Крамника удручающие - хотя было интуитивное ощущение, что он после смены стиля больше по части вырубания хвоста, но не ожидал, что в такой мере (36% совсем мало для ТП ). Видимо, ВБ это сам хорошо знает - сегодня на пресс-конференции он разбирал свою партию с Грищуком, и каждый второй ход комментировал в духе "I preferred solid move"... |
|
|
номер сообщения: 150-5-21939 |
|
|
|
Уважаемый Почитатель, в первой таблице поста 943 почему-то пропущен Аронян. |
|
|
номер сообщения: 150-5-21948 |
|
|
|
943 ? Там стоит Аронян, на четвертой строчке. |
|
|
номер сообщения: 150-5-21949 |
|
|
|
Уважаемый Почитатель! Ваша деятельность, ее результаты и выводы так пленили меня, что в 2018 году прямо не терпится вести подсчет встреч между элитой "онлайн". Первая большая "пачка" внутриэлитных партий была сыграна в Вейке, вот как выглядит табличка (получена из полной таблицы для Вейка путем вычеркивания строк). Я оставил расширенный список игроков, кто потенциально мог бы быть интересен (условно 2750+).
Думаю, интересно будет объединить ее с результатами ТП, и тогда для некоторых (Каруана, Крамник, Со, Мамедъяров, Карякин играли и в Вейке, и в ТП) будет уже очень хорошая статистика (порядка 8+14 = 22 партии). Вопрос в том, где "обрезать снизу" элиту.
...
Однако, я еще забыл Гибралтар. Правда там только 1 партия, Аронян-Накамура 1/2. Вашье-Лаграв с элитой не играл, Навара (2749) и Харикришна (2745) тоже (хотя они вряд ли нам интересны). |
|
|
номер сообщения: 150-5-21950 |
|
|
|
|
|
|
|
|
Copyright chesspro.ru 2004-2024 гг. |
|
|
|