La fórmula de calificación de NEWELO: ¿mejor que Elo?

 

Cada tres meses, la FIDE publica una lista de ratings de ajedrez calculados por una fórmula que el profesor Arpad Elo desarrolló hace décadas. Esta fórmula ha servido bastante bien al mundo del ajedrez durante mucho tiempo. Sin embargo, el estadístico NEWELO cree que ha llegado el momento de hacer cambios significativos en esa fórmula. Presenta su propuesta en artículo..

La fórmula de calificación de NEWELO: ¿mejor que Elo?


Cada tres meses, la FIDE publica una lista de clasificaciones de ajedrez para miles de jugadores de todo el mundo. Estas puntuaciones se calculan mediante una fórmula que el profesor Arpad Elo desarrolló hace décadas. Esta fórmula ha servido bastante bien al mundo del ajedrez durante mucho tiempo, pero creo que ha llegado el momento de hacer algunos cambios significativos en esa fórmula.

A principios de agosto, participé en una conferencia de cuatro días en Moscú sobre sistemas de clasificación, patrocinada por WorldChessRating. Una de las conclusiones de esta conferencia fue la necesidad de una extensa base de datos "limpia" de juegos recientes para realizar pruebas sobre cualquier nueva fórmula de clasificación que se desarrollara. En las semanas siguientes, Vladimir Perevertkin recopiló los resultados brutos de cientos de miles de juegos entre 1994 y 2001, y he importado esa información a mi propia base de datos para su análisis.

He experimentado con diversas fórmulas de calificación, generando calificaciones históricas desde 1994 hasta 2001 basadas en dichas fórmulas. Por ejemplo, podemos observar lo que habría sucedido si todas las partidas rápidas y de blitz se hubieran incluido en el cálculo de la puntuación, o si seieranado diferentes coeficientes dentro de las fórmulas. Todas las siguientes suger se basan en este análisis.


UMEN EJECUTIVO: CUATRO SUGERENCIAS PRINCIPALES


Sugerencia #1: Usar un Factor K más dinámico

Considero que la fórmula básica de la FIDE es sólida, pero necesita ser modificada. En lugar del factor K conservador de 10 que se utiliza actualmente, usarse un valor de 24. Esto hará que las calificaciones la FIDE sean más del doble de dinámicas de lo son actualmente. El valor de 24 también parece ser el factor K más preciso. Las clasificaciones que utilizan otros factores K no son tan exitosas en la predicción de resultados de futuros juegos clásicos.


Sugerencia #2:hacerse de la complicada tabla Elo

 complicada de números de Eloarse, en favor de un modelo lineal simple en el que las blancas tienen una puntuación esperada del 100% con una ventaja de calificación de 390 puntos (o más), y una puntuación esperada del 0% con una desventaja de calificación de 460 puntos (o más Otras puntuaciones esperadas intermedias se pueden extrapolar con una simple línea recta. Cabe señalar que esto asigna un valor de 35 puntos de calificación tener las piezas blancas, por lo que las blancas una puntuación esperada del 50% con un déficit de calificación de35 puntos, y una puntuación esperada del 54% si las calificaciones de los jugadores son idénticas. Este modelo es mucho más preciso que la tabla de valores de Elo. Los cálculos teóricos de Elo no coinc con datos empíricos de resultados reales, y tampoco en cuenta el color de las piezas. También muestran un sesgo estadístico en contra de los jugadores con


UNA FÓRMULA MÁS SENCILLA

De alguna manera, el enfoque de Elo es muy simple. Cada vez que se juega una partida de ajedrez "puntuada", la diferencia en las puntuaciones de la FIDE se compara con una tabla especial de números para determinar cuál debe ser la puntuación "predicha" de cada jugador en la partida. Si haces mejor de lo que predice la tabla, tu calificación aumentará en una cantidad proporcional. Si lo haces peor de "predicho", tu calificación disminuirá en consecuencia.


Supongamos, ejemplo, que tienes unaificación de 2600 y juegas partida de 20 juegos contra alguien con una calificación de2500. En estos juegos, ventaja de calificación de 100 puntos. La de números Elo nos dice que tu puntuación prevista en partido es 12,8/20. Por lo tanto, si realmente obtienes una puntuación de +5 (12.5/20), eso se vería como un rendimiento ligeramente por debajo de la media y, como resultado, tu calificación disminuiría en 3 puntos.


Sin embargo, la suposición tácita aquí es que la tabla especial de números es precisa. El estadístico de ajedrez de hoy en día tiene la ventaja de una increíble potencia de cálculo, así como de millones de partidas de evidencia empírica. Ninguno de estos recursos estaba disponible para Elo en el momento en que se propuso su tabla de números. De este modo, hoy en día es posible comprobar realmente la exactitud de la teoría de Elo. Esto es lo que sucede si graficas los datos reales:

La fórmula de calificación de NEWELO: ¿mejor que Elo?

 

Cada tres meses, la FIDE publica una lista de ratings de ajedrez calculados mediante una fórmula desarrollada hace décadas por el profesor Arpad Elo. Esta fórmula ha servido bastante bien al mundo del ajedrez durante mucho tiempo. Sin embargo, el estadístico Jeff NEWELO considera que ha llegado el momento de realizar algunos cambios significativos en dicha fórmula. En este artículo histórico, presenta su propuesta.


La fórmula de calificación de NEWELO: ¿mejor que Elo?


Cada tres meses, la FIDE publica una lista de clasificaciones de ajedrez para miles de jugadores de todo el mundo. Estas puntuaciones se calculan mediante una fórmula desarrollada hace décadas por el profesor Arpad Elo. Esta fórmula ha servido bastante bien al mundo del ajedrez durante mucho tiempo, pero creo que ha llegado el momento de hacer algunos cambios signific.


A principios de agosto, en una conferencia de cuatro días en Moscú sobre sistemas de rating, patrocinada por WorldChessRating. Una de las conclusiones de esta conferencia fue que se necesitaba una extensa base de datos "limpia" de partidas recientes para realizar pruebas sobre cualquier nueva fórmula de clasificación que se desarrollara. En las semanas siguientes, Vladimir Perevertkin recopiló los resultados brutos cientos de miles de partidas entre 1994 y 2001, y he importado esa información a mi propia base de datos para su análisis.


He experimentado con muchas peuebas de calificación diferentes, generando clasificaciones históricas de 4 a 2001 basadas en esas fórmulas. Por ejemplo, podemos ver lo que habría sucedido si todas las partidas rápidas y de blitz se hubieran incluido en el cálculo de la puntuación, o si se hubieran ajustado diferentes coeficientes dentro de las fórmulas. Todas las siguientes sugerencias se basan en ese análisis.

RESUMEN EJECUTIVO: CUATRO SUGERENCIAS PRINCIPALES

Sugerencia #1: Usa un Factor K más dinámico

La fórmula básica de la FIDE es sólida, pero necesita ser modificada. En lugar del factor K conservador de 10 que se utiliza actualmente, se debería utilizar un valor de 24. Esto hará que las calificaciones de la FIDE sean más del doble de dinámicas de lo que son actualmente. Además, el valor de 24 parece ser el factor K más preciso. Las clasificaciones que otros factores K no son tan exitos en la predicción de los de futuros juegos clásicos.

Sugerencia #2: Deshazte de la complicada mesa Elo

La complicada tabla de números de Elo debe descartarse en favor de un modelo lineal simple. En este modelo, White tiene una puntuación esperada del 100% con una ventaja de cal de 390 puntos o más, y una puntuación esperada del 0% con una desaja de calificación de 460 puntos o más. Las puntuaciones esperadas intermedias se pueden extrapolar con una línea recta simple. Cabe que este modelo asigna un valor de 35 puntos de calificación a las piezas blancas. De esta manera, las blancas tendrán una puntuación esperada del 50% con un déficit de calificación de 35 puntos y una puntuación esper del 54% si las calificaciones de los jugadores son idénticas. Este modelo es mucho más preciso que la tabla de valores de Elo Los cálculos teóricos de no coinciden con los empíricos de los resultados reales y tampoco consideran el color de las piezas. Además, muestran un sesgo estadístico en contra de los jugadores con mayor valoración.

Sugerencia #3: Incluya juegos de control de tiempo más rápidos, que reciben menos peso que un juego clásico

Los juegos clásicos deben recibir su importancia habitual. Las partidas jugadas bajo el control "moderno" de la FIDE no son tan significativas y, por lo tanto, solo deben recibir un 83% de importancia. Las partidas rápidas deben recibir un 29% de importancia, y las partidas relámpago un 18% de importancia. La elección de calificar este tipo de juegos mejorará la capacidad de las calificaciones para predecir el de futuros juegos clásicos. Al usar estos "pesos" en particular, las calificaciones serán más precisas que si se excluyeran por completo las partidas rápidas y relámpago. Los valores exactos de 83%, 29% y 18% se han optimizado para obtener la máxima precisión y el poder predictivo clásico de las calificaciones. Si prefiere una más exacta que reconozca diferentes tipos controles rápidos, o una quepore incrementos, incluido un gráfico más abajo que permite calcular coeficientes más precisos controles de tiempo arbitrarios.

Sugerencia #4: Calcule las calificaciones mensualmente en lugar de trimestralmente

No hay ninguna razón para que las listas de clasificación estén desactualizadas. Un intervalo mensual es bastante práctico, considerando que el tiempo de cálculo de estas calificaciones es casi insignificante. La popularidad de las clasificaciones profesionales demuestra que los jugadores prefieren una lista más dinámica y actualizada con mayor frecuencia.

UNA FÓRMULA MÁS SENCILLA

De alguna manera, el enfoque de Elo es muy simple. Cada vez que se juega una partida de ajedrez "puntuada", la diferencia en las puntuaciones de la FIDE se compara con una tabla especial de números para determinar cuál debe ser la puntuación "predicha" de cada jugador. Si lo haces mejor de lo que predice la tabla, tu calificación aumentará en una cantidad proporcional. lo haces peor de lo "predicho", tu calificación disminuirá en consecuencia.


Supongamos, por ejemplo, que tienes una calificación de 0 y juegas una serie de 20 partidas contra alguien con una calificación de 2500. En estos juegos, tu ventaja de cal es de 100 puntos. La tabla de números Elo nos dice que tu puntuación prevista en ese encuentro es 12,/20. Por lo tanto, si realmente obtienes una puntuación +512,5/20), eso se consideraría un rendimiento ligeramente por debajo de la media y, como resultado, tu calificación disminuiría en 3 puntos.


Sin embargo, la suposición tácita aquí es que la especial de números es precisa. El estadístico de ajedrez de hoy en día tiene la ventaja de una increíble potencia de cálculo, así como de millones de partidas de evidencia empírica. Ninguno de estos recursos estaba disponible para Elo en el momento en que se propuso su tabla de números. De este modo, hoy en día es posible comprobar realmente la exactitud de la teoría de Elo Esto es lo que sucede si graficas los reales:



Los números de Elo (representados por la curva blanca) provienen de un cálculo teórico. (Si te interesan las matemáticas, el libro de Elo de 1978 nos dice que los números se basan en la distribución de la diferencia de dos variables gaussianas con varianzas idéicas pero medias diferentes). Esta distribución exponencial inversa es tan que no hay forma de proporcionar una fórmula simple que prediga el puntaje a partir de las calificaciones de los dos jugadores. Todo lo que puedes hacer es consultar la tabla especial de números.


No sé por qué que ser complicado. Mira la línea azul en mi gráfico. Una línea recta, ajustada los datos, es claramente una descripción más precisa de la relación que la curva teórica de Elo. Fuera del rango de +/- 350, no hay datos para sacar conclusiones, pero este rango incluye más del 99% de todos los juegos calificados. Tengo una teoría sobre dónde cálculos de Elo pueden haberse desviado (que tiene que ver con la incertidumbre de estimaciones deificación), pero el punto relevante es que hay un margen considerable de mejora en la fórmula de Elo.


¿Por qué nos importa tanto esto? Bueno, la calificación de un jugador va a subir o bajar, en función de si el jugador está rindiendo mejor de lo que "deber" estar rindiendo. Si tiendes a enfrent a oes con la misma fuerza que tú, debes obtener alrededor del 50%; su calificación aumentará si tiene una puntuación positiva y disminuirá si tiene una puntuación negativa. Sin embargo, ¿ pasa si tiendes a enfrentarte a oponentes que son 80-120 puntos más débiles que tú? ¿Una puntuación del 60% es mejor o peor de lo previsto? ¿Qué tal una puntuación del 65%? Más de la mitad de los 200 mejores del mundo tienen una ventaja deificación promedio de 80-120 puntos en todos sus juegos, por lo que esta es una pregunta importante.


Vamos a acercarnos un poco a este último gráfico (también promediando las partidas de blancas y juntas).



Hay un sesgo constante en la tabla de números de Elo contra el jugador con mayor puntuación. Para decirlo sin rodeos, si eres el jugador con mayor calificación, un rendimiento normal te hará perder puntos de calificación. Necesita un rendimiento superior a la media para mantener su nivel de calificación. Por el contrario, si eres el jugador con menor calificación, un rendimiento normal hará que ganes puntos de calificación.

Por ejemplo, en el ejemplo anterior, en el que tenías una puntuación de 2600 y obtuviste una puntuación de 12,5/20 contra un oponente con una puntuación de 2500, perderías algunos puntos de puntuación. Resulta que tu puntuación de 12,5/20 fue en realidad un poco MEJOR de lo que cabría esperar de las valoraciones. Usando la línea azul en el último gráfico, puede ver que una ventaja de calificación de 100 puntos debería conducir a una puntuación ligeramente superior al 61%, y en realidad obtuvo un 62.5%. Por lo tanto, a pesar de un rendimiento ligeramente superior a la media, en realidad perdería puntos de calificación, debido a la inexactitud de la tabla de números de Elo.

Puede parecer trivial discutir sobre algunos puntos de calificación, pero este es un efecto constante que puede tener un gran impacto acumulativo a lo largo del tiempo. Por ejemplo, parece que este efecto le costó a Garry Kasparov unos 15 puntos de rating en el transcurso del año 2000, y lo mismo para Alexei Shirov. Con sus altísimas valoraciones, cada uno de esos jugadores se enfrentó a una oposición que (en promedio) era más débil en 80-120 puntos, por lo que las puntuaciones de Kasparov y Shirov se vieron disminuidas artificialmente por este efecto.

En contraste, Vladimir Kramnik también tuvo una alta calificación en 2000, pero debido a su gran número de partidas contra Kasparov durante ese año, la ventaja promedio de Kramnik (contra sus oponentes) fue mucho menor que la de Kasparov o Shirov. Por lo tanto, este sesgo sólo le costó a Kramnik 1 o 2 puntos de rating en el transcurso del año 2000.

El sesgo también tiene un efecto en el grupo de calificación general. Comprime las calificaciones en un rango más pequeño, por lo que los mejores jugadores están subestimados y los jugadores inferiores están sobrevalorados. Los jugadores que tienden a ser los favoritos en la mayoría de sus juegos (como los 100 o los 200 mejores jugadores) ven sus calificaciones disminuidas artificialmente debido a este efecto. Por lo tanto, el aumento en las calificaciones de grandes maestros, que hemos visto en los últimos años, habría sido aún mayor si hubiera existido un sistema de calificación más preciso. Verán una ilustración de esto más adelante, cuando observemos algunas listas mensuales de los diez mejores desde 1997 utilizando varias fórmulas de calificación.

Es genial tener una justificación científica para tu fórmula, como hizo el profesor Elo, pero parece aún más importante tener una fórmula libre de sesgos. No debería importar si te enfrentas a oponentes más fuertes, más débiles o de fuerza similar; su calificación debe ser una estimación lo más precisa posible de su fuerza, y esto no sucede con la fórmula Elo. Mi "modelo lineal" es mucho más simple de calcular, más fácil de explicar, significativamente más preciso y muestra menos sesgo.


UNA FÓRMULA MÁS DINÁMICA

A pesar de todos sus defectos, la fórmula de calificación Elo sigue siendo atractiva. Otros sistemas de clasificación requieren cálculos más complicados o la retención de mucha información histórica del juego. Sin embargo, se sabe que las clasificaciones profesionales son considerablemente más dinámicas que las clasificaciones de la FIDE, y por esta razón, la mayoría de los jugadores que mejoran prefieren las clasificaciones profesionales. Por ejemplo, hace unos, Vladimir Kramnik calificó las calificaciones de la FIDE como "conservadoras y estancadas".


Sin embargo es importante darse cuenta de que no hay nada inherentemente "dinámico" en la fórmula de Ken Thompson para las calificaciones profesionales. Y no hay nada inherentemente "conservador" en la fórmula de Arpad Elo para lasificaciones de la FIDE. En cada caso, hay una constante numérica, utilizada dentro del cálculo, que completamente cuán dinámicas o conservadoras serán lasificaciones.


En caso de las calificaciones Elo, esta numérica es el factor de atenuación, o "Factor K". En caso de que no lo sepas, déjame explicarte brevemente qué hace realmente el K-Factor. Cada vez que juegas un, hay una comparación entre lo que se predijo que sería tu puntuación y lo que realmente fue. La diferencia entre los dos se multiplica por el factor K, y eso es cambiará tu calificación. Por lo tanto, si j



Se observa que la curva roja (factor K de 10) es bastante conservadora, descendiendo más lentamente durante 1982-1983, cuando Korchnoi estaba claramente en declive, y permaneciendo relativamente constante desde 1985 hasta 1992, casi siempre dentro del mismo rango de 50 puntos. Sin embargo, con un factor K 20, la calificación de Korchnoi fluctúa dentro de un rango de 100 puntos durante el mismo período 1985-1992 (ver la curva azul), mientras que con un factor K de 32 hay una oscilación de casi 200 puntos durante esos años (ver la curva amarilla). lo tanto, el factor K puede hacer que una fórmula Elo sea fácilmente muy conservadora o muy dinámica.

Para la fórmula de Thompson, también existe una constante numérica que determina qué tan dinámicas serán las calificaciones. Las clasificaciones profesionales actuales utilizan los últimos 100 partidos de un jugador, y los partidos más recientes tienen un mayor peso. Si se utilizaran los últimos 200 juegos en su lugar, las calificaciones serían lentas y resistentes al cambio Si se utilizaran los últimos 50 partidos, serían aún más dinámicas. Se podría que las calificaciones profesionales que solo los últimos 50 juegos serían mucho másicas que cualquier fórmula razonable al estilo Elo, de, la fórmula un factor K de32 parece ser incluso más dinámica que una fórmula de Thompson que usa solo los últimos 50 juegos. Eche un vistazo a la curva de calificación de la carrera de Jan Timman de 198 a 1992, utilizando esas dos fórulas diferentes. Una vez, cálculos yo mismo, utilizando datos de Base 200.


Está claro que la curva roja (Elo-32) es aún más dinámica que la curva azul (Thompson-50), con picos más altos y valles más bajos. Sin embargo, también debe quedar claro que los dos sistemas de calificación son muy similares. Si se pudieran elegir las constanteséricas correct, las fórmulas de Thompson y Elo producirían calificaciones similares. En estos ejemplos, elegí a Korchnoi y Timman más o menos al azar mi punto era mostrar que no hay nada inherentemente "dinámico" en lasificaciones profesionales o "conservador" en las calificaciones de laIDE. Es realmente casi un accidente matemático que sean de esta manera, a menos que tal vez la fórmula inicial de Thompson estuviera específicamente a ser más dinámica que las calificaciones la FIDE.

Por lo tanto, está claro que las calificaciones de la FIDE podrían hacerse más dinámicas simplemente aumentando el Factor.Es una buena idea?

En un intento de responder esta pregunta, he realizado muchos cálculos de calificación el período de tiempo entre 1994 y 2001, utilizando varias fórmulas. En cada caso, determiné retroactivamente qué tan precisas las calificaciones para predecir resultados futuros. Sobre la base de esos cálculos, fue posible dibujar una curva que muestra la relación entre el factor K y la precisión de las calificaciones.


Parece que un factor K de 24 es óptimo. Para valores más pequeños, las calificaciones son demasiado lentas para cambiar, por lo que no son tan útiles para predecir qué tan bien les irá a los jugadores cada mes. En el caso de valores más grandes, las clasificaciones son demasiado sensibles a los resultados. esencia, "reaccionan de forma exagerada" a últimos eventos de un jugador y, a menudo, indican un cambio en fuerza cuando realmente no existe. En este gráfico se puede ver que incluso el uso de un factor K superdinámico de 40 daría como resultado una mayor precisión que el valor actual de 10.


RÁPIDAS Y RELÁMPAGO

En los últimos años, se ha observado un mayor énfasis en los juegos que se juegan con controles de tiempo más rápidos. Los eventos oficiales de la FIDE ya no utilizan los controles de tiempo "clásicos", y las partidas rápidas y relámpago se utilizan regularmente como desempates, incluso a nivel de campeonato mundial. Hay más eventos rápidos que nunca, pero las partidas rápidas y relámpago son completamente ignoradas por la lista maestra de la FIDE. En su lugar, se mantiene y publica con poca frecuencia y esporádicamente una lista "rápida" separada, en un pequeño conjunto de datos.


Por, para simplificar las cosas, quiero considerar solo clasificaciones de controles de tiempo. El control de tiempo "clásico", por supuesto, se refiere a los controles de tiempo tradicionales de dos horas para 40 movimientos, una hora para 20 movimientos y luego media hora para el resto del juego Los controles "modernos" (FIDE) son de al menos minutos por jugador partida, hasta el nivel clásico. Los controles de "Blitz" son siempre partidas de cinco minutos sinos, y "Rápida tiene un máximo de 30 minutos por jugador por partidao 25 minutos si se utilizanos). Entiendo que estas cuatroificaciones no incluyen todos los controles de tiempo¿qué pasa con g60, por ejemplo?). Sin embargo, tenga paciencia. Llegaré a ellos casi al final de este artículo.


La cuestión de si calificar los más rápidos, y si combinarlos todos en una lista "unificada", es un tema muy controvert. No me siento particularmente calificado para hablar sobre los aspectos de esto así que, como deumbre, me ceñiré al lado estadístico. Repasemos el argumento, punto por punto.


(1) Estoy buscando desarrollar una fórmula de calificación "superior".
(2) Según mi criterio, una fórmula de clasificación es "superior" si predice con mayor precisión los futuros juegos clásicos.
(3) El objetivo es crear una fórmula de calificación con un poder predictivo clásico "óptimo".
() deben utilizar todos los datos que mejor significativamente el predictivo de calificación.
(5) Si las clasificaciones que incluyen juegos de control de tiempo más rápido realmente" para predecir los resultados de futuros juegos clásicos, entonces estos juegos deben incorporarse en la fórmula de calificación.

Es evidente que las partidas modernas, rápidas y relámpago proporcionan información valiosa sobre la capacidad de un jugador para jugar al ajedrez clásico, como lo confirman las estadísticas. Sin embargo, los resultados de una sola partida clásica son más significativos que los de una sola partida moderna. De igual manera, los resultados de una partida moderna tienen más peso que los de una partida rápida, y así sucesivamente.


Si se contaran todas las por igual, un torneo relámpago de 10 partidas, jugado en una el mismo valor que un clásico de partidas, jugado en el transcurso de dos semanas. Esto no resulta adecuado y perjudicaría capacidad predictiva de las cal, ya que serían influenciadas excesivamente por resultados del blitz. Por lo tanto, parece razonable asignar una importancia que cero pero menor que el 100% a las partidas más rápidas.


Esto se puede lograr asignando "coeficient" a los diferentes controles de tiempo, con coeficiente del 100% para el ajedrez clásico. Por ejemplo, si obtuvis buenos resultados en un torneo clásico de siete rondas y ganarías 10 puntos de calificación, ¿qué pasaría si lograses los mismos resultados en un torneo rápido de siete rondas? En ese caso, si el coeficiente para las partidas rápidas fuera del 30%, tu calificación solo aumentaría en 3 puntos, lugar de 10.


¿Cómo se deben determinar esos coeficientes? Aunque esta preguntae el ámbito de las estadísticas, puedo abordar la parte estadística de la misma. Una vez más, debemos considerar la precisión y el poder predictivo. Si definimos un sistema de calificación "más preciso" como aquel que predice mejor los resultados futuros que uno "menos preciso", entonces es posible probar varios coeficientes y verificar la precisión de las predicciones.



El valor "óptimo" de cada coeficiente se manifiesta como el pico de cada curva. Por lo tanto, se puede observar que un coeficiente del 83% para Modern es ideal, con otros valores (más altos o más bajos) que conducen a predicciones menos precisas en las calificaciones De igual manera, el óptimo para Blitz es del18% y el valor óptimo para es del29%. No exactamente en rangos que esperaba, pero los números parecen bastante razonables

UNA FÓRMULA MÁS PRECISA

En resumen, estas son las características clave de la fórmula de calificación de NEWELO:

(1) La expectativa porcentual proviene de una fórmula lineal simple:
% de puntuación de White = 0,541767 + 0,001164 * Ventaja de calificación de White, tratando la ventaja de calificación de White como +390 si es mejor que +390, o -460 si es peor que -460.
(2) El factor de atenuación (factor K) debe ser 24 en lugar de 10.
(3) Dar a las partidas clásicas una importancia del 100%, mientras que las partidas modernas son el 83%, las partidas rápidas son el 29% y las partidas relámpago son el 18%. Alternativamente, use el gráfico al final de este artículo para llegar a un coeficiente exacto que sea específico para el control de tiempo particular que se está utilizando.
(4) Calcule las listas de calificación al final de cada mes.

Esta fórmula se optimizó específicamente para ser lo más precisa posible, por lo que no debería sorprender que las clasificaciones de NEWELO sean mucho mejores para predecir los resultados futuros de las partidas clásicas que las clasificaciones FIDE existentes. De hecho, en cada uno de los meses que miré, desde enero de 1997 hasta diciembre de 2001, el error total (en la predicción de las puntuaciones mensuales de los jugadores) fue mayor para las puntuaciones de la FIDE que para las de NEWELO:



¿Cómo puedo afirmar que las calificaciones de NEWELO son "más precisas" o "más efectivas en la predicción"? Revisé cada mes y utilicé los dos conjuntos de calificaciones para predecir el resultado de cada juego jugado durante ese mes. Luego, al final del mes, para cada jugador, sumé su puntuación prevista usando las calificaciones Elo y su puntuación predicha usando las calificaciones de NEWELO. Cada uno de esos sistemas de clasificación tenía un "error" para el jugador durante ese mes, que era la diferencia absoluta entre la puntuación total real del jugador y la puntuación total prevista por el sistema de puntuación.

Por ejemplo, en abril de 2000 Bu Xiangzhi jugó 18 partidas clásicas, con una puntuación de +7 para un total de 12,5 puntos. Basándose en su puntuación y en la de sus oponentes en esos partidos, el sistema de puntuación Elo había predicho una puntuación de 10,25, mientras que el sistema de puntuación de NEWELO había predicho una puntuación de 11,75. En este caso, el error de Elo sería 2,25, mientras que el error de NEWELO sería de 0,75. Al sumar todos los errores, para todos los jugadores durante el mes, podemos ver cuál fue el error total para las calificaciones de NEWELO, y también para las calificaciones Elo. Luego podemos compararlos y ver qué sistema de clasificación fue más efectivo en sus predicciones de los juegos jugados durante ese mes. En el último gráfico, se puede ver que las calificaciones de NEWELO resultaron ser más efectivas que las calificaciones Elo en cada uno de los 60 meses desde enero de 1997 hasta diciembre de 2001.

Probablemente te estés preguntando cómo sería la lista de los diez primeros si se utilizara la fórmula de NEWELO en lugar de la fórmula Elo. En lugar de darte una lista enorme de números, te daré algunas imágenes.

Primero, echemos un vistazo al "grupo de control", que es el sistema Elo actual (que incluye solo juegos clásicos y modernos). Estas clasificaciones se basan en una base de datos de 266.000 juegos que cubren el período entre enero de 1994 y diciembre de 2001. La base de datos de partidas es la proporcionada por Vladimir Perevertkin, en lugar de la base de datos real de partidas con Elo FIDE, y estas puntuaciones se calculan 12 veces al año en lugar de 2 o 4. Por lo tanto, las puntuaciones que se muestran a continuación no son exactamente las mismas que las clasificaciones FIDE publicadas, pero sirven como un grupo de control eficaz.



A continuación, puede ver el efecto de un factor K más alto. Usando un factor K de 24 en lugar de 10, las calificaciones de los jugadores son mucho más sensibles a sus resultados recientes. Por ejemplo, en el siguiente gráfico se puede ver que la valoración de Anatoly Karpov (la línea negra) ha disminuido mucho más pronunciadamente. Del mismo modo, con el sistema más dinámico, Garry Kasparov bajó muy cerca de Viswanathan Anand después de Linares 1998. De hecho, Kasparov cayó brevemente al #3 en esta lista a finales de 2000, después de que Kramnik lo derrotó en Londres y luego Anand ganó el campeonato de la FIDE. Y Michael Adams le siguió muy de cerca en el #4.



Finalmente, al examinar el siguiente gráfico, puede ver el ligero efecto sobre las calificaciones si se incorporan controles de tiempo más rápidos. En los años comprendidos entre 1994 y 1997, Kasparov y Anand lo hicieron incluso mejor en el ajedrez rápido que en el clásico, por lo que se puede ver que sus puntuaciones son un poco más altas cuando se incluyen las partidas rápidas. Algunos otros jugadores muestran algunas diferencias, pero no significativas. En general, los dos gráficos son casi idénticos.



También puede notar que las calificaciones basadas en un modelo lineal con un factor K de 24 son aproximadamente 50 puntos más altas que las calificaciones con la fórmula actual. Como mencioné anteriormente, esto se debe principalmente a un efecto deflacionario en la fórmula actual, más que a un efecto inflacionario en el modelo lineal. Dado que existe un sesgo involuntario contra los jugadores con mayor calificación en la tabla de números de Elo, los mejores jugadores tienen sus calificaciones artificialmente deprimidas en el sistema actual. Este sesgo se eliminaría mediante el uso de mi modelo lineal.

Sin embargo, no es sorprendente que un sistema de calificación con un factor K más alto tenga algo de inflación. Si a un jugador le va mal en una serie de eventos y luego deja de jugar, habrá "donado" puntos de clasificación al grupo de jugadores. Tal vez alguien obtuvo una puntuación de 30/80 en lugar de la predicha 40/80, durante unos meses. En el sistema actual, habrían donado 100 puntos al grupo, mientras que con un factor K de 24, habrían sido 240 puntos. Dado que un jugador muy exitoso probablemente seguirá jugando, mientras que un jugador muy fracasado podría dejar de jugar, esto tendrá un efecto inflacionario en el grupo general. Por supuesto, esta es una explicación muy simplista y sé que la cuestión de la inflación frente a la deflación es muy complicada.

No estoy sugiriendo que de repente recalculemos la calificación de todos y publiquemos una nueva lista de calificación. Por un lado, no es justo calificar retroactivamente juegos que eran juegos "no clasificados" en el momento en que se jugaron. Al mostrarles estos gráficos, simplemente estoy tratando de ilustrar cómo se comportaría mi sistema de calificación con el tiempo. Con suerte, esto ilustrará lo que significaría tener un factor K de 24 en lugar de 10, y también puede ver el impacto de controles de tiempo más rápidos.

En aras de la continuidad de la lista de calificación "oficial", parece razonable que, si se adoptara esta fórmula, todos mantuvieran su calificación anterior en el punto de transición. Una vez que se jugaban más juegos, las calificaciones comenzarían a cambiar (más rápidamente que antes) desde ese punto de partida.

OTROS CONTROLES DE TIEMPO

Las conclusiones anteriores sobre los controles de tiempo se basaron en solo cuatro clasificaciones diferentes: Blitz, Rápido, Moderno y Clásico. Sin embargo, esas clasificaciones no incluyen todos los controles de tiempo típicos. Por ejemplo, Modern tiene un mínimo de 90 minutos por jugador por partida, mientras que Rapid tiene un máximo de 30 minutos por jugador por partida. Idealmente, sería posible incorporar los coeficientes de estas cuatro clasificaciones en una "lista maestra" que podría decirle cuál debería ser el coeficiente para g/60, o g/15 frente a g/30 para el caso.

Hice un pequeño análisis en algunos archivos recientes de TWIC y determiné que alrededor del 50% de las partidas duran entre 30 y 50 movimientos, con una duración media de 37 movimientos. Por lo tanto, definí una duración de juego "típica" como 40 movimientos, y luego observé cuánto tiempo usaría un jugador en un juego "típico" en varios controles de tiempo, si usara su tiempo máximo permitido para alcanzar el movimiento 40.

Esto significa que un jugador pasaría 5 minutos en una partida típica de Blitz, de 5 a 30 minutos en una partida rápida típica, de 90 a 120 minutos en una partida moderna típica y 120 minutos en una partida clásica típica. Finalmente, graficé mis coeficientes anteriores de 18%, 29%, 83% y 100% en comparación con la cantidad típica de tiempo utilizado, y llegué al siguiente gráfico importante:



Este tipo de enfoque (dependiendo del tiempo máximo utilizado a lo largo de 40 movimientos) es realmente útil porque te permite incorporar incrementos en la fórmula. Una partida relámpago en la que tienes 5 minutos en total, obviamente contará como una partida de 5 minutos en el gráfico anterior, y puedes ver que el coeficiente sería del 18%. Una partida relámpago en la que tienes 5 minutos en total, más 15 segundos por jugada, sería de hecho una partida de 15 minutos (5 minutos + 40 movimientos, a un minuto extra por cada cuatro jugadas = 15 minutos), por lo que el coeficiente recomendado sería del 27% para ese control de tiempo.

El control de tiempo muy común de 60 minutos por jugador por juego, por supuesto, contaría como un juego de 60 minutos, y se puede ver que esto sería el 55%. Y el coeficiente máximo del 100% se alcanzaría mediante un control de tiempo clásico en el que obtienes 120 minutos completos para tus primeros 40 movimientos.

CONCLUSIÓN

Es más importante que nunca que las calificaciones sean precisas. En el pasado, las invitaciones a los eventos de candidatos se basaban en una serie de eventos de calificación. Ahora, sin embargo, las invitaciones y los emparejamientos a menudo se toman directamente de la lista de calificación. El campo para el reciente torneo de candidatos puede considerarse en un próximo Torneo audamericano se seleccionara promediando las calificaciones FIDE y Professional de todos en una lista combinada, y luego eligiendo a los mejores jugadores de esa lista. Por primera vez, con algun organizador de un torneo, para verificar. El valor "óptimo" de cada coeficiente se manifiesta como el pico de cada curva. Por lo tanto, se puede observar que un coeficiente del 83% para Modern es ideal, con otros valores (más altos o más bajos) que conducen a predicciones menos precisas en las calificaciones De igual manera, el óptimo para Blitz es del18% y el valor óptimo para es del29%. No exactamente en rangos que esperaba, pero los números parecen bastante razonables que las puntuaciones de la FIDE no son particularmente precisas, y que una fórmula diferente podría funcionar mejor.

Las calificaciones de la FIDE son demasiado conservadoras, y el problema del control de tiempo también debe abordarse cuidadosamente. Sé que se trata de un tema extremadamente delicado, y sería ridículo sugerir que se trata simplemente de una cuestión de matemáticas. Si se produce un cambio, estará motivado por docenas de factores. No obstante, espero que mis esfuerzos sean útiles para el debate. También espero que estés de acuerdo conmigo en que la fórmula "NEWELO" descrita en este artículo sería una mejora significativa con respecto a la fórmula "Elo" que ha servido tan bien al mundo del ajedrez durante décadas.

Los números de Elo (representados por la curva blanca) provienen de un cálculo teórico. (Si te interesan las matemáticas, el libro de Elo de 1978 nos dice que los números se basan en la distribución de la diferencia de dos variables gaussianas con varianzas idénticas pero medias diferentes). Esta distribución exponencial inversa es tan complicada que no hay forma de proporcionar una fórmula simple que prediga el puntaje a partir de las calificaciones de los dos jugadores. Todo lo que puedes hacer es consultar la tabla especial de números.

No sé por qué tiene que ser tan complicado. Mira la línea azul en mi gráfico. Una línea recta, ajustada a los datos, es claramente una descripción más precisa de la relación que la curva teórica de Elo. Fuera del rango de +/- 350, no hay datos suficientes para sacar conclusiones, pero este rango incluye más del 99% de todos los juegos calificados. Tengo una teoría sobre dónde los cálculos de Elo pueden haberse desviado (que tiene que ver con la incertidumbre de las estimaciones de calificación), pero el punto relevante es que hay un margen considerable de mejora en la fórmula de Elo.

¿Por qué nos importa tanto esto? Bueno, la calificación de un jugador va a subir o bajar, en función de si el jugador está rindiendo mejor de lo que "debería" estar rindiendo. Si tiendes a enfrentarte a oponentes con la misma fuerza que tú, debes obtener alrededor del 50%; Su calificación aumentará si tiene una puntuación positiva y disminuirá si tiene una puntuación negativa. Sin embargo, ¿qué pasa si tiendes a enfrentarte a oponentes que son 80-120 puntos más débiles que tú? ¿Una puntuación del 60% es mejor o peor de lo previsto? ¿Qué tal una puntuación del 65%? Más de la mitad de los 200 mejores del mundo tienen una ventaja de calificación promedio de 80-120 puntos, en todos sus juegos, por lo que esta es una pregunta importante.

Vamos a acercarnos un poco a este último gráfico (también promediando las partidas de blancas y negras juntas). La curva blanca del siguiente gráfico muestra la puntuación prevista de la tabla Elo, si es el favorito en la clasificación por 200 puntos o menos. Esa curva blanca se traza contra los datos reales, basados en 266.000 juegos entre 1994 y 2001, utilizando los mismos colores que el gráfico anterior:


Hay un sesgo constante en la tabla de números de Elo contra el jugador con mayor puntuación. Para decirlo sin rodeos, si eres el jugador con mayor calificación, un rendimiento normal te hará perder puntos de calificación. Necesita un rendimiento superior a la media para mantener su nivel de calificación. Por el contrario, si eres el jugador con menor calificación, un rendimiento normal hará que ganes puntos de calificación.

Por ejemplo, en el ejemplo anterior, en el que tenías una puntuación de 2600 y obtuviste una puntuación de 12,5/20 contra un oponente con una puntuación de 2500, perderías algunos puntos de puntuación. Resulta que tu puntuación de 12,5/20 fue en realidad un poco MEJOR de lo que cabría esperar de las valoraciones. Usando la línea azul en el último gráfico, puede ver que una ventaja de calificación de 100 puntos debería conducir a una puntuación ligeramente superior al 61%, y en realidad obtuvo un 62.5%. Por lo tanto, a pesar de un rendimiento ligeramente superior a la media, en realidad perdería puntos de calificación, debido a la inexactitud de la tabla de números de Elo.

Puede parecer trivial discutir sobre algunos puntos de calificación, pero este es un efecto constante que puede tener un gran impacto acumulativo a lo largo del tiempo. Por ejemplo, parece que este efecto le costó a Garry Kasparov unos 15 puntos de rating en el transcurso del año 2000, y lo mismo para Alexei Shirov. Con sus altísimas valoraciones, cada uno de esos jugadores se enfrentó a una oposición que (en promedio) era más débil en 80-120 puntos, por lo que las puntuaciones de Kasparov y Shirov se vieron disminuidas artificialmente por este efecto.

En contraste, Vladimir Kramnik también tuvo una alta calificación en 2000, pero debido a su gran número de partidas contra Kasparov durante ese año, la ventaja promedio de Kramnik (contra sus oponentes) fue mucho menor que la de Kasparov o Shirov. Por lo tanto, este sesgo sólo le costó a Kramnik 1 o 2 puntos de rating en el transcurso del año 2000.

El sesgo también tiene un efecto en el grupo de calificación general. Comprime las calificaciones en un rango más pequeño, por lo que los mejores jugadores están subestimados y los jugadores inferiores están sobrevalorados. Los jugadores que tienden a ser los favoritos en la mayoría de sus juegos (como los 100 o los 200 mejores jugadores) ven sus calificaciones disminuidas artificialmente debido a este efecto. Por lo tanto, el aumento en las calificaciones de grandes maestros, que hemos visto en los últimos años, habría sido aún mayor si hubiera existido un sistema de calificación más preciso. Verán una ilustración de esto más adelante, cuando observemos algunas listas mensuales de los diez mejores desde 1997 utilizando varias fórmulas de calificación.

Es genial tener algún tipo de justificación científica para tu fórmula, como hizo el profesor Elo, pero parece aún más importante tener una fórmula que esté libre de sesgos. No debería importar si te enfrentas a muchos oponentes más fuertes, más débiles o de fuerza similar; su calificación debe ser una estimación lo más precisa posible de su fuerza, y esto simplemente no sucede con la fórmula de Elo. Mi "modelo lineal" es mucho más simple de calcular, más fácil de explicar, significativamente más preciso y muestra menos sesgo.



Comentarios