La fórmula de
calificación de NEWELO: ¿mejor que Elo?
Cada tres meses, la FIDE publica una lista de ratings de ajedrez calculados por una fórmula que el profesor Arpad Elo desarrolló hace décadas. Esta fórmula ha servido bastante bien al mundo del ajedrez durante mucho tiempo. Sin embargo, el estadístico NEWELO cree que ha llegado el momento de hacer cambios significativos en esa fórmula. Presenta su propuesta en artículo..
La
fórmula de calificación de NEWELO: ¿mejor que Elo?
Cada tres meses, la FIDE publica una
lista de clasificaciones de ajedrez para miles de jugadores de todo el mundo.
Estas puntuaciones se calculan mediante una fórmula que el profesor Arpad Elo
desarrolló hace décadas. Esta fórmula ha servido bastante bien al mundo del
ajedrez durante mucho tiempo, pero creo que ha llegado el momento de hacer
algunos cambios significativos en esa fórmula.
A principios de agosto, participé en una conferencia de cuatro días en Moscú sobre sistemas de clasificación, patrocinada por WorldChessRating. Una de las conclusiones de esta conferencia fue la necesidad de una extensa base de datos "limpia" de juegos recientes para realizar pruebas sobre cualquier nueva fórmula de clasificación que se desarrollara. En las semanas siguientes, Vladimir Perevertkin recopiló los resultados brutos de cientos de miles de juegos entre 1994 y 2001, y he importado esa información a mi propia base de datos para su análisis.
He experimentado con diversas fórmulas de calificación, generando calificaciones históricas desde 1994 hasta 2001 basadas en dichas fórmulas. Por ejemplo, podemos observar lo que habría sucedido si todas las partidas rápidas y de blitz se hubieran incluido en el cálculo de la puntuación, o si seieranado diferentes coeficientes dentro de las fórmulas. Todas las siguientes suger se basan en este análisis.
UMEN EJECUTIVO: CUATRO SUGERENCIAS PRINCIPALES
Sugerencia #1: Usar un Factor K más dinámico
Considero que la fórmula básica de la FIDE es sólida, pero necesita ser modificada. En lugar del factor K conservador de 10 que se utiliza actualmente, usarse un valor de 24. Esto hará que las calificaciones la FIDE sean más del doble de dinámicas de lo son actualmente. El valor de 24 también parece ser el factor K más preciso. Las clasificaciones que utilizan otros factores K no son tan exitosas en la predicción de resultados de futuros juegos clásicos.
Sugerencia #2:hacerse de la complicada tabla Elo
complicada de números de Eloarse, en favor de un modelo lineal simple en el que las blancas tienen una puntuación esperada del 100% con una ventaja de calificación de 390 puntos (o más), y una puntuación esperada del 0% con una desventaja de calificación de 460 puntos (o más Otras puntuaciones esperadas intermedias se pueden extrapolar con una simple línea recta. Cabe señalar que esto asigna un valor de 35 puntos de calificación tener las piezas blancas, por lo que las blancas una puntuación esperada del 50% con un déficit de calificación de35 puntos, y una puntuación esperada del 54% si las calificaciones de los jugadores son idénticas. Este modelo es mucho más preciso que la tabla de valores de Elo. Los cálculos teóricos de Elo no coinc con datos empíricos de resultados reales, y tampoco en cuenta el color de las piezas. También muestran un sesgo estadístico en contra de los jugadores con
UNA FÓRMULA MÁS SENCILLA
De alguna manera, el enfoque de Elo es muy simple. Cada vez que se juega una partida de ajedrez "puntuada", la diferencia en las puntuaciones de la FIDE se compara con una tabla especial de números para determinar cuál debe ser la puntuación "predicha" de cada jugador en la partida. Si haces mejor de lo que predice la tabla, tu calificación aumentará en una cantidad proporcional. Si lo haces peor de "predicho", tu calificación disminuirá en consecuencia.
Supongamos, ejemplo, que tienes unaificación de 2600 y juegas partida de 20 juegos contra alguien con una calificación de2500. En estos juegos, ventaja de calificación de 100 puntos. La de números Elo nos dice que tu puntuación prevista en partido es 12,8/20. Por lo tanto, si realmente obtienes una puntuación de +5 (12.5/20), eso se vería como un rendimiento ligeramente por debajo de la media y, como resultado, tu calificación disminuiría en 3 puntos.
Sin embargo, la suposición tácita aquí es que la tabla especial de números es precisa. El estadístico de ajedrez de hoy en día tiene la ventaja de una increíble potencia de cálculo, así como de millones de partidas de evidencia empírica. Ninguno de estos recursos estaba disponible para Elo en el momento en que se propuso su tabla de números. De este modo, hoy en día es posible comprobar realmente la exactitud de la teoría de Elo. Esto es lo que sucede si graficas los datos reales:
La fórmula de
calificación de NEWELO: ¿mejor que Elo?
Cada tres meses, la FIDE publica una lista de ratings de ajedrez calculados mediante una fórmula desarrollada hace décadas por el profesor Arpad Elo. Esta fórmula ha servido bastante bien al mundo del ajedrez durante mucho tiempo. Sin embargo, el estadístico Jeff NEWELO considera que ha llegado el momento de realizar algunos cambios significativos en dicha fórmula. En este artículo histórico, presenta su propuesta.
La fórmula de calificación de NEWELO: ¿mejor que Elo?
Cada tres meses, la FIDE publica una lista de clasificaciones de ajedrez para miles de jugadores de todo el mundo. Estas puntuaciones se calculan mediante una fórmula desarrollada hace décadas por el profesor Arpad Elo. Esta fórmula ha servido bastante bien al mundo del ajedrez durante mucho tiempo, pero creo que ha llegado el momento de hacer algunos cambios signific.
A principios de agosto, en una conferencia de cuatro días en Moscú sobre sistemas de rating, patrocinada por WorldChessRating. Una de las conclusiones de esta conferencia fue que se necesitaba una extensa base de datos "limpia" de partidas recientes para realizar pruebas sobre cualquier nueva fórmula de clasificación que se desarrollara. En las semanas siguientes, Vladimir Perevertkin recopiló los resultados brutos cientos de miles de partidas entre 1994 y 2001, y he importado esa información a mi propia base de datos para su análisis.
He experimentado con muchas peuebas de calificación diferentes, generando clasificaciones históricas de 4 a 2001 basadas en esas fórmulas. Por ejemplo, podemos ver lo que habría sucedido si todas las partidas rápidas y de blitz se hubieran incluido en el cálculo de la puntuación, o si se hubieran ajustado diferentes coeficientes dentro de las fórmulas. Todas las siguientes sugerencias se basan en ese análisis.
RESUMEN EJECUTIVO: CUATRO SUGERENCIAS
PRINCIPALES
Sugerencia
#1: Usa un Factor K más dinámico
La fórmula básica de la FIDE es sólida, pero necesita ser modificada. En lugar del factor K conservador de 10 que se utiliza actualmente, se debería utilizar un valor de 24. Esto hará que las calificaciones de la FIDE sean más del doble de dinámicas de lo que son actualmente. Además, el valor de 24 parece ser el factor K más preciso. Las clasificaciones que otros factores K no son tan exitos en la predicción de los de futuros juegos clásicos.
Sugerencia
#2: Deshazte de la complicada mesa Elo
La complicada tabla de números de Elo debe descartarse en favor de un modelo lineal simple. En este modelo, White tiene una puntuación esperada del 100% con una ventaja de cal de 390 puntos o más, y una puntuación esperada del 0% con una desaja de calificación de 460 puntos o más. Las puntuaciones esperadas intermedias se pueden extrapolar con una línea recta simple. Cabe que este modelo asigna un valor de 35 puntos de calificación a las piezas blancas. De esta manera, las blancas tendrán una puntuación esperada del 50% con un déficit de calificación de 35 puntos y una puntuación esper del 54% si las calificaciones de los jugadores son idénticas. Este modelo es mucho más preciso que la tabla de valores de Elo Los cálculos teóricos de no coinciden con los empíricos de los resultados reales y tampoco consideran el color de las piezas. Además, muestran un sesgo estadístico en contra de los jugadores con mayor valoración.
Sugerencia
#3: Incluya juegos de control de tiempo más rápidos, que reciben menos peso que
un juego clásico
Los juegos clásicos deben recibir su importancia habitual. Las partidas jugadas bajo el control "moderno" de la FIDE no son tan significativas y, por lo tanto, solo deben recibir un 83% de importancia. Las partidas rápidas deben recibir un 29% de importancia, y las partidas relámpago un 18% de importancia. La elección de calificar este tipo de juegos mejorará la capacidad de las calificaciones para predecir el de futuros juegos clásicos. Al usar estos "pesos" en particular, las calificaciones serán más precisas que si se excluyeran por completo las partidas rápidas y relámpago. Los valores exactos de 83%, 29% y 18% se han optimizado para obtener la máxima precisión y el poder predictivo clásico de las calificaciones. Si prefiere una más exacta que reconozca diferentes tipos controles rápidos, o una quepore incrementos, incluido un gráfico más abajo que permite calcular coeficientes más precisos controles de tiempo arbitrarios.
Sugerencia
#4: Calcule las calificaciones mensualmente en lugar de trimestralmente
No hay ninguna razón para que las listas de clasificación estén desactualizadas. Un intervalo mensual es bastante práctico, considerando que el tiempo de cálculo de estas calificaciones es casi insignificante. La popularidad de las clasificaciones profesionales demuestra que los jugadores prefieren una lista más dinámica y actualizada con mayor frecuencia.
UNA FÓRMULA MÁS SENCILLA
De alguna manera, el enfoque de Elo es muy simple. Cada vez que se juega una partida de ajedrez "puntuada", la diferencia en las puntuaciones de la FIDE se compara con una tabla especial de números para determinar cuál debe ser la puntuación "predicha" de cada jugador. Si lo haces mejor de lo que predice la tabla, tu calificación aumentará en una cantidad proporcional. lo haces peor de lo "predicho", tu calificación disminuirá en consecuencia.
Supongamos, por ejemplo, que tienes una calificación de 0 y juegas una serie de 20 partidas contra alguien con una calificación de 2500. En estos juegos, tu ventaja de cal es de 100 puntos. La tabla de números Elo nos dice que tu puntuación prevista en ese encuentro es 12,/20. Por lo tanto, si realmente obtienes una puntuación +512,5/20), eso se consideraría un rendimiento ligeramente por debajo de la media y, como resultado, tu calificación disminuiría en 3 puntos.
Sin embargo, la suposición tácita aquí es que la especial de números es precisa. El estadístico de ajedrez de hoy en día tiene la ventaja de una increíble potencia de cálculo, así como de millones de partidas de evidencia empírica. Ninguno de estos recursos estaba disponible para Elo en el momento en que se propuso su tabla de números. De este modo, hoy en día es posible comprobar realmente la exactitud de la teoría de Elo Esto es lo que sucede si graficas los reales:
Los números de Elo (representados por la curva blanca) provienen de un cálculo teórico. (Si te interesan las matemáticas, el libro de Elo de 1978 nos dice que los números se basan en la distribución de la diferencia de dos variables gaussianas con varianzas idéicas pero medias diferentes). Esta distribución exponencial inversa es tan que no hay forma de proporcionar una fórmula simple que prediga el puntaje a partir de las calificaciones de los dos jugadores. Todo lo que puedes hacer es consultar la tabla especial de números.
No sé por qué que ser complicado. Mira la línea azul en mi gráfico. Una línea recta, ajustada los datos, es claramente una descripción más precisa de la relación que la curva teórica de Elo. Fuera del rango de +/- 350, no hay datos para sacar conclusiones, pero este rango incluye más del 99% de todos los juegos calificados. Tengo una teoría sobre dónde cálculos de Elo pueden haberse desviado (que tiene que ver con la incertidumbre de estimaciones deificación), pero el punto relevante es que hay un margen considerable de mejora en la fórmula de Elo.
¿Por qué nos importa tanto esto? Bueno, la calificación de un jugador va a subir o bajar, en función de si el jugador está rindiendo mejor de lo que "deber" estar rindiendo. Si tiendes a enfrent a oes con la misma fuerza que tú, debes obtener alrededor del 50%; su calificación aumentará si tiene una puntuación positiva y disminuirá si tiene una puntuación negativa. Sin embargo, ¿ pasa si tiendes a enfrentarte a oponentes que son 80-120 puntos más débiles que tú? ¿Una puntuación del 60% es mejor o peor de lo previsto? ¿Qué tal una puntuación del 65%? Más de la mitad de los 200 mejores del mundo tienen una ventaja deificación promedio de 80-120 puntos en todos sus juegos, por lo que esta es una pregunta importante.
Vamos a acercarnos un poco a este último gráfico (también promediando las partidas de blancas y juntas).
Hay un sesgo constante en la tabla de
números de Elo contra el jugador con mayor puntuación. Para decirlo sin rodeos,
si eres el jugador con mayor calificación, un rendimiento normal te hará perder
puntos de calificación. Necesita un rendimiento superior a la media para
mantener su nivel de calificación. Por el contrario, si eres el jugador con menor
calificación, un rendimiento normal hará que ganes puntos de calificación.
Por ejemplo, en el ejemplo anterior, en
el que tenías una puntuación de 2600 y obtuviste una puntuación de 12,5/20
contra un oponente con una puntuación de 2500, perderías algunos puntos de
puntuación. Resulta que tu puntuación de 12,5/20 fue en realidad un poco MEJOR
de lo que cabría esperar de las valoraciones. Usando la línea azul en el último
gráfico, puede ver que una ventaja de calificación de 100 puntos debería
conducir a una puntuación ligeramente superior al 61%, y en realidad obtuvo un
62.5%. Por lo tanto, a pesar de un rendimiento ligeramente superior a la media,
en realidad perdería puntos de calificación, debido a la inexactitud de la
tabla de números de Elo.
Puede parecer trivial discutir sobre
algunos puntos de calificación, pero este es un efecto constante que puede
tener un gran impacto acumulativo a lo largo del tiempo. Por ejemplo, parece
que este efecto le costó a Garry Kasparov unos 15 puntos de rating en el transcurso
del año 2000, y lo mismo para Alexei Shirov. Con sus altísimas valoraciones,
cada uno de esos jugadores se enfrentó a una oposición que (en promedio) era
más débil en 80-120 puntos, por lo que las puntuaciones de Kasparov y Shirov se
vieron disminuidas artificialmente por este efecto.
En contraste, Vladimir Kramnik también
tuvo una alta calificación en 2000, pero debido a su gran número de partidas
contra Kasparov durante ese año, la ventaja promedio de Kramnik (contra sus
oponentes) fue mucho menor que la de Kasparov o Shirov. Por lo tanto, este
sesgo sólo le costó a Kramnik 1 o 2 puntos de rating en el transcurso del año
2000.
El sesgo también tiene un efecto en el
grupo de calificación general. Comprime las calificaciones en un rango más
pequeño, por lo que los mejores jugadores están subestimados y los jugadores
inferiores están sobrevalorados. Los jugadores que tienden a ser los favoritos
en la mayoría de sus juegos (como los 100 o los 200 mejores jugadores) ven sus
calificaciones disminuidas artificialmente debido a este efecto. Por lo tanto,
el aumento en las calificaciones de grandes maestros, que hemos visto en los
últimos años, habría sido aún mayor si hubiera existido un sistema de
calificación más preciso. Verán una ilustración de esto más adelante, cuando
observemos algunas listas mensuales de los diez mejores desde 1997 utilizando
varias fórmulas de calificación.
Es genial tener una justificación científica para tu fórmula, como hizo el profesor Elo, pero parece aún más importante tener una fórmula libre de sesgos. No debería importar si te enfrentas a oponentes más fuertes, más débiles o de fuerza similar; su calificación debe ser una estimación lo más precisa posible de su fuerza, y esto no sucede con la fórmula Elo. Mi "modelo lineal" es mucho más simple de calcular, más fácil de explicar, significativamente más preciso y muestra menos sesgo.
UNA FÓRMULA MÁS DINÁMICA
A pesar de todos sus defectos, la fórmula de calificación Elo sigue siendo atractiva. Otros sistemas de clasificación requieren cálculos más complicados o la retención de mucha información histórica del juego. Sin embargo, se sabe que las clasificaciones profesionales son considerablemente más dinámicas que las clasificaciones de la FIDE, y por esta razón, la mayoría de los jugadores que mejoran prefieren las clasificaciones profesionales. Por ejemplo, hace unos, Vladimir Kramnik calificó las calificaciones de la FIDE como "conservadoras y estancadas".
Sin embargo es importante darse cuenta de que no hay nada inherentemente "dinámico" en la fórmula de Ken Thompson para las calificaciones profesionales. Y no hay nada inherentemente "conservador" en la fórmula de Arpad Elo para lasificaciones de la FIDE. En cada caso, hay una constante numérica, utilizada dentro del cálculo, que completamente cuán dinámicas o conservadoras serán lasificaciones.
En caso de las calificaciones Elo, esta numérica es el factor de atenuación, o "Factor K". En caso de que no lo sepas, déjame explicarte brevemente qué hace realmente el K-Factor. Cada vez que juegas un, hay una comparación entre lo que se predijo que sería tu puntuación y lo que realmente fue. La diferencia entre los dos se multiplica por el factor K, y eso es cambiará tu calificación. Por lo tanto, si j
Se observa que la curva roja (factor K de 10) es bastante conservadora, descendiendo más lentamente durante 1982-1983, cuando Korchnoi estaba claramente en declive, y permaneciendo relativamente constante desde 1985 hasta 1992, casi siempre dentro del mismo rango de 50 puntos. Sin embargo, con un factor K 20, la calificación de Korchnoi fluctúa dentro de un rango de 100 puntos durante el mismo período 1985-1992 (ver la curva azul), mientras que con un factor K de 32 hay una oscilación de casi 200 puntos durante esos años (ver la curva amarilla). lo tanto, el factor K puede hacer que una fórmula Elo sea fácilmente muy conservadora o muy dinámica.
Parece que un factor K de 24 es óptimo. Para valores más pequeños, las calificaciones son demasiado lentas para cambiar, por lo que no son tan útiles para predecir qué tan bien les irá a los jugadores cada mes. En el caso de valores más grandes, las clasificaciones son demasiado sensibles a los resultados. esencia, "reaccionan de forma exagerada" a últimos eventos de un jugador y, a menudo, indican un cambio en fuerza cuando realmente no existe. En este gráfico se puede ver que incluso el uso de un factor K superdinámico de 40 daría como resultado una mayor precisión que el valor actual de 10.
RÁPIDAS Y RELÁMPAGO
En los últimos años, se ha observado un mayor énfasis en los juegos que se juegan con controles de tiempo más rápidos. Los eventos oficiales de la FIDE ya no utilizan los controles de tiempo "clásicos", y las partidas rápidas y relámpago se utilizan regularmente como desempates, incluso a nivel de campeonato mundial. Hay más eventos rápidos que nunca, pero las partidas rápidas y relámpago son completamente ignoradas por la lista maestra de la FIDE. En su lugar, se mantiene y publica con poca frecuencia y esporádicamente una lista "rápida" separada, en un pequeño conjunto de datos.
Por, para simplificar las cosas, quiero considerar solo clasificaciones de controles de tiempo. El control de tiempo "clásico", por supuesto, se refiere a los controles de tiempo tradicionales de dos horas para 40 movimientos, una hora para 20 movimientos y luego media hora para el resto del juego Los controles "modernos" (FIDE) son de al menos minutos por jugador partida, hasta el nivel clásico. Los controles de "Blitz" son siempre partidas de cinco minutos sinos, y "Rápida tiene un máximo de 30 minutos por jugador por partidao 25 minutos si se utilizanos). Entiendo que estas cuatroificaciones no incluyen todos los controles de tiempo¿qué pasa con g60, por ejemplo?). Sin embargo, tenga paciencia. Llegaré a ellos casi al final de este artículo.
La cuestión de si calificar los más rápidos, y si combinarlos todos en una lista "unificada", es un tema muy controvert. No me siento particularmente calificado para hablar sobre los aspectos de esto así que, como deumbre, me ceñiré al lado estadístico. Repasemos el argumento, punto por punto.
Es evidente que las partidas modernas, rápidas y relámpago proporcionan información valiosa sobre la capacidad de un jugador para jugar al ajedrez clásico, como lo confirman las estadísticas. Sin embargo, los resultados de una sola partida clásica son más significativos que los de una sola partida moderna. De igual manera, los resultados de una partida moderna tienen más peso que los de una partida rápida, y así sucesivamente.
Si se contaran todas las por igual, un torneo relámpago de 10 partidas, jugado en una el mismo valor que un clásico de partidas, jugado en el transcurso de dos semanas. Esto no resulta adecuado y perjudicaría capacidad predictiva de las cal, ya que serían influenciadas excesivamente por resultados del blitz. Por lo tanto, parece razonable asignar una importancia que cero pero menor que el 100% a las partidas más rápidas.
Esto se puede lograr asignando "coeficient" a los diferentes controles de tiempo, con coeficiente del 100% para el ajedrez clásico. Por ejemplo, si obtuvis buenos resultados en un torneo clásico de siete rondas y ganarías 10 puntos de calificación, ¿qué pasaría si lograses los mismos resultados en un torneo rápido de siete rondas? En ese caso, si el coeficiente para las partidas rápidas fuera del 30%, tu calificación solo aumentaría en 3 puntos, lugar de 10.
¿Cómo se deben determinar esos coeficientes? Aunque esta preguntae el ámbito de las estadísticas, puedo abordar la parte estadística de la misma. Una vez más, debemos considerar la precisión y el poder predictivo. Si definimos un sistema de calificación "más preciso" como aquel que predice mejor los resultados futuros que uno "menos preciso", entonces es posible probar varios coeficientes y verificar la precisión de las predicciones.
El valor "óptimo" de cada coeficiente se manifiesta como el pico de cada curva. Por lo tanto, se puede observar que un coeficiente del 83% para Modern es ideal, con otros valores (más altos o más bajos) que conducen a predicciones menos precisas en las calificaciones De igual manera, el óptimo para Blitz es del18% y el valor óptimo para es del29%. No exactamente en rangos que esperaba, pero los números parecen bastante razonables
UNA FÓRMULA MÁS PRECISA
En resumen, estas son las características
clave de la fórmula de calificación de NEWELO:
Esta fórmula se optimizó
específicamente para ser lo más precisa posible, por lo que no debería
sorprender que las clasificaciones de NEWELO sean mucho mejores para predecir
los resultados futuros de las partidas clásicas que las clasificaciones FIDE
existentes. De hecho, en cada uno de los meses que miré, desde enero de 1997
hasta diciembre de 2001, el error total (en la predicción de las puntuaciones
mensuales de los jugadores) fue mayor para las puntuaciones de la FIDE que para
las de NEWELO:
¿Cómo puedo afirmar que las
calificaciones de NEWELO son "más precisas" o "más efectivas en
la predicción"? Revisé cada mes y utilicé los dos conjuntos de
calificaciones para predecir el resultado de cada juego jugado durante ese mes.
Luego, al final del mes, para cada jugador, sumé su puntuación prevista usando
las calificaciones Elo y su puntuación predicha usando las calificaciones de NEWELO.
Cada uno de esos sistemas de clasificación tenía un "error" para el
jugador durante ese mes, que era la diferencia absoluta entre la puntuación
total real del jugador y la puntuación total prevista por el sistema de
puntuación.
Por ejemplo, en abril de 2000 Bu
Xiangzhi jugó 18 partidas clásicas, con una puntuación de +7 para un total de
12,5 puntos. Basándose en su puntuación y en la de sus oponentes en esos
partidos, el sistema de puntuación Elo había predicho una puntuación de 10,25,
mientras que el sistema de puntuación de NEWELO había predicho una puntuación
de 11,75. En este caso, el error de Elo sería 2,25, mientras que el error de NEWELO
sería de 0,75. Al sumar todos los errores, para todos los jugadores durante el
mes, podemos ver cuál fue el error total para las calificaciones de NEWELO, y
también para las calificaciones Elo. Luego podemos compararlos y ver qué
sistema de clasificación fue más efectivo en sus predicciones de los juegos
jugados durante ese mes. En el último gráfico, se puede ver que las calificaciones
de NEWELO resultaron ser más efectivas que las calificaciones Elo en cada uno
de los 60 meses desde enero de 1997 hasta diciembre de 2001.
Probablemente te estés preguntando cómo
sería la lista de los diez primeros si se utilizara la fórmula de NEWELO en
lugar de la fórmula Elo. En lugar de darte una lista enorme de números, te daré
algunas imágenes.
Primero, echemos un vistazo al
"grupo de control", que es el sistema Elo actual (que incluye solo
juegos clásicos y modernos). Estas clasificaciones se basan en una base de
datos de 266.000 juegos que cubren el período entre enero de 1994 y diciembre
de 2001. La base de datos de partidas es la proporcionada por Vladimir
Perevertkin, en lugar de la base de datos real de partidas con Elo FIDE, y
estas puntuaciones se calculan 12 veces al año en lugar de 2 o 4. Por lo tanto,
las puntuaciones que se muestran a continuación no son exactamente las mismas
que las clasificaciones FIDE publicadas, pero sirven como un grupo de control
eficaz.
A continuación, puede ver el efecto de
un factor K más alto. Usando un factor K de 24 en lugar de 10, las
calificaciones de los jugadores son mucho más sensibles a sus resultados
recientes. Por ejemplo, en el siguiente gráfico se puede ver que la valoración
de Anatoly Karpov (la línea negra) ha disminuido mucho más pronunciadamente.
Del mismo modo, con el sistema más dinámico, Garry Kasparov bajó muy cerca de
Viswanathan Anand después de Linares 1998. De hecho, Kasparov cayó brevemente
al #3 en esta lista a finales de 2000, después de que Kramnik lo derrotó en
Londres y luego Anand ganó el campeonato de la FIDE. Y Michael Adams le siguió
muy de cerca en el #4.
Finalmente, al examinar el siguiente
gráfico, puede ver el ligero efecto sobre las calificaciones si se incorporan
controles de tiempo más rápidos. En los años comprendidos entre 1994 y 1997,
Kasparov y Anand lo hicieron incluso mejor en el ajedrez rápido que en el
clásico, por lo que se puede ver que sus puntuaciones son un poco más altas
cuando se incluyen las partidas rápidas. Algunos otros jugadores muestran algunas
diferencias, pero no significativas. En general, los dos gráficos son casi
idénticos.
También puede notar que las
calificaciones basadas en un modelo lineal con un factor K de 24 son
aproximadamente 50 puntos más altas que las calificaciones con la fórmula
actual. Como mencioné anteriormente, esto se debe principalmente a un efecto
deflacionario en la fórmula actual, más que a un efecto inflacionario en el
modelo lineal. Dado que existe un sesgo involuntario contra los jugadores con
mayor calificación en la tabla de números de Elo, los mejores jugadores tienen
sus calificaciones artificialmente deprimidas en el sistema actual. Este sesgo
se eliminaría mediante el uso de mi modelo lineal.
Sin embargo, no es sorprendente que un
sistema de calificación con un factor K más alto tenga algo de inflación. Si a
un jugador le va mal en una serie de eventos y luego deja de jugar, habrá
"donado" puntos de clasificación al grupo de jugadores. Tal vez
alguien obtuvo una puntuación de 30/80 en lugar de la predicha 40/80, durante
unos meses. En el sistema actual, habrían donado 100 puntos al grupo, mientras
que con un factor K de 24, habrían sido 240 puntos. Dado que un jugador muy
exitoso probablemente seguirá jugando, mientras que un jugador muy fracasado
podría dejar de jugar, esto tendrá un efecto inflacionario en el grupo general.
Por supuesto, esta es una explicación muy simplista y sé que la cuestión de la
inflación frente a la deflación es muy complicada.
No estoy sugiriendo que de repente
recalculemos la calificación de todos y publiquemos una nueva lista de
calificación. Por un lado, no es justo calificar retroactivamente juegos que
eran juegos "no clasificados" en el momento en que se jugaron. Al
mostrarles estos gráficos, simplemente estoy tratando de ilustrar cómo se
comportaría mi sistema de calificación con el tiempo. Con suerte, esto
ilustrará lo que significaría tener un factor K de 24 en lugar de 10, y también
puede ver el impacto de controles de tiempo más rápidos.
En aras de la continuidad de la lista
de calificación "oficial", parece razonable que, si se adoptara esta
fórmula, todos mantuvieran su calificación anterior en el punto de transición.
Una vez que se jugaban más juegos, las calificaciones comenzarían a cambiar
(más rápidamente que antes) desde ese punto de partida.
OTROS CONTROLES DE TIEMPO
Las conclusiones anteriores sobre los
controles de tiempo se basaron en solo cuatro clasificaciones diferentes:
Blitz, Rápido, Moderno y Clásico. Sin embargo, esas clasificaciones no incluyen
todos los controles de tiempo típicos. Por ejemplo, Modern tiene un mínimo de
90 minutos por jugador por partida, mientras que Rapid tiene un máximo de 30
minutos por jugador por partida. Idealmente, sería posible incorporar los
coeficientes de estas cuatro clasificaciones en una "lista maestra"
que podría decirle cuál debería ser el coeficiente para g/60, o g/15 frente a
g/30 para el caso.
Hice un pequeño análisis en algunos
archivos recientes de TWIC y determiné que alrededor del 50% de las partidas
duran entre 30 y 50 movimientos, con una duración media de 37 movimientos. Por
lo tanto, definí una duración de juego "típica" como 40 movimientos,
y luego observé cuánto tiempo usaría un jugador en un juego "típico"
en varios controles de tiempo, si usara su tiempo máximo permitido para
alcanzar el movimiento 40.
Esto significa que un jugador pasaría 5
minutos en una partida típica de Blitz, de 5 a 30 minutos en una partida rápida
típica, de 90 a 120 minutos en una partida moderna típica y 120 minutos en una
partida clásica típica. Finalmente, graficé mis coeficientes anteriores de 18%,
29%, 83% y 100% en comparación con la cantidad típica de tiempo utilizado, y
llegué al siguiente gráfico importante:
Este tipo de enfoque (dependiendo del
tiempo máximo utilizado a lo largo de 40 movimientos) es realmente útil porque
te permite incorporar incrementos en la fórmula. Una partida relámpago en la
que tienes 5 minutos en total, obviamente contará como una partida de 5 minutos
en el gráfico anterior, y puedes ver que el coeficiente sería del 18%. Una
partida relámpago en la que tienes 5 minutos en total, más 15 segundos por
jugada, sería de hecho una partida de 15 minutos (5 minutos + 40 movimientos, a
un minuto extra por cada cuatro jugadas = 15 minutos), por lo que el
coeficiente recomendado sería del 27% para ese control de tiempo.
El control de tiempo muy común de 60
minutos por jugador por juego, por supuesto, contaría como un juego de 60
minutos, y se puede ver que esto sería el 55%. Y el coeficiente máximo del 100%
se alcanzaría mediante un control de tiempo clásico en el que obtienes 120
minutos completos para tus primeros 40 movimientos.
CONCLUSIÓN
Es más importante que nunca que las
calificaciones sean precisas. En el pasado, las invitaciones a los eventos de
candidatos se basaban en una serie de eventos de calificación. Ahora, sin
embargo, las invitaciones y los emparejamientos a menudo se toman directamente
de la lista de calificación. El campo para el reciente torneo de candidatos puede considerarse en un próximo Torneo audamericano se seleccionara promediando las calificaciones FIDE y Professional de
todos en una lista combinada, y luego eligiendo a los mejores jugadores de esa
lista. Por primera vez, con algun organizador de un torneo, para verificar. El valor "óptimo" de cada coeficiente se manifiesta como el pico de cada curva. Por lo tanto, se puede observar que un coeficiente del 83% para Modern es ideal, con otros valores (más altos o más bajos) que conducen a predicciones menos precisas en las calificaciones De igual manera, el óptimo para Blitz es del18% y el valor óptimo para es del29%. No exactamente en rangos que esperaba, pero los números parecen bastante razonables que las
puntuaciones de la FIDE no son particularmente precisas, y que una fórmula
diferente podría funcionar mejor.
Las calificaciones de la FIDE son
demasiado conservadoras, y el problema del control de tiempo también debe
abordarse cuidadosamente. Sé que se trata de un tema extremadamente delicado, y
sería ridículo sugerir que se trata simplemente de una cuestión de matemáticas.
Si se produce un cambio, estará motivado por docenas de factores. No obstante,
espero que mis esfuerzos sean útiles para el debate. También espero que estés
de acuerdo conmigo en que la fórmula "NEWELO" descrita en este
artículo sería una mejora significativa con respecto a la fórmula
"Elo" que ha servido tan bien al mundo del ajedrez durante décadas.
Los números de Elo (representados por
la curva blanca) provienen de un cálculo teórico. (Si te interesan las
matemáticas, el libro de Elo de 1978 nos dice que los números se basan en la
distribución de la diferencia de dos variables gaussianas con varianzas
idénticas pero medias diferentes). Esta distribución exponencial inversa es tan
complicada que no hay forma de proporcionar una fórmula simple que prediga el
puntaje a partir de las calificaciones de los dos jugadores. Todo lo que puedes
hacer es consultar la tabla especial de números.
No sé por qué tiene que ser tan
complicado. Mira la línea azul en mi gráfico. Una línea recta, ajustada a los
datos, es claramente una descripción más precisa de la relación que la curva
teórica de Elo. Fuera del rango de +/- 350, no hay datos suficientes para sacar
conclusiones, pero este rango incluye más del 99% de todos los juegos
calificados. Tengo una teoría sobre dónde los cálculos de Elo pueden haberse
desviado (que tiene que ver con la incertidumbre de las estimaciones de
calificación), pero el punto relevante es que hay un margen considerable de
mejora en la fórmula de Elo.
¿Por qué nos importa tanto esto? Bueno,
la calificación de un jugador va a subir o bajar, en función de si el jugador
está rindiendo mejor de lo que "debería" estar rindiendo. Si tiendes
a enfrentarte a oponentes con la misma fuerza que tú, debes obtener alrededor
del 50%; Su calificación aumentará si tiene una puntuación positiva y
disminuirá si tiene una puntuación negativa. Sin embargo, ¿qué pasa si tiendes
a enfrentarte a oponentes que son 80-120 puntos más débiles que tú? ¿Una
puntuación del 60% es mejor o peor de lo previsto? ¿Qué tal una puntuación del
65%? Más de la mitad de los 200 mejores del mundo tienen una ventaja de
calificación promedio de 80-120 puntos, en todos sus juegos, por lo que esta es
una pregunta importante.
Vamos a acercarnos un poco a este
último gráfico (también promediando las partidas de blancas y negras juntas).
La curva blanca del siguiente gráfico muestra la puntuación prevista de la
tabla Elo, si es el favorito en la clasificación por 200 puntos o menos. Esa
curva blanca se traza contra los datos reales, basados en 266.000 juegos entre
1994 y 2001, utilizando los mismos colores que el gráfico anterior:
Hay un sesgo constante en la tabla de
números de Elo contra el jugador con mayor puntuación. Para decirlo sin rodeos,
si eres el jugador con mayor calificación, un rendimiento normal te hará perder
puntos de calificación. Necesita un rendimiento superior a la media para
mantener su nivel de calificación. Por el contrario, si eres el jugador con menor
calificación, un rendimiento normal hará que ganes puntos de calificación.
Por ejemplo, en el ejemplo anterior, en
el que tenías una puntuación de 2600 y obtuviste una puntuación de 12,5/20
contra un oponente con una puntuación de 2500, perderías algunos puntos de
puntuación. Resulta que tu puntuación de 12,5/20 fue en realidad un poco MEJOR
de lo que cabría esperar de las valoraciones. Usando la línea azul en el último
gráfico, puede ver que una ventaja de calificación de 100 puntos debería
conducir a una puntuación ligeramente superior al 61%, y en realidad obtuvo un
62.5%. Por lo tanto, a pesar de un rendimiento ligeramente superior a la media,
en realidad perdería puntos de calificación, debido a la inexactitud de la
tabla de números de Elo.
Puede parecer trivial discutir sobre
algunos puntos de calificación, pero este es un efecto constante que puede
tener un gran impacto acumulativo a lo largo del tiempo. Por ejemplo, parece
que este efecto le costó a Garry Kasparov unos 15 puntos de rating en el transcurso
del año 2000, y lo mismo para Alexei Shirov. Con sus altísimas valoraciones,
cada uno de esos jugadores se enfrentó a una oposición que (en promedio) era
más débil en 80-120 puntos, por lo que las puntuaciones de Kasparov y Shirov se
vieron disminuidas artificialmente por este efecto.
En contraste, Vladimir Kramnik también
tuvo una alta calificación en 2000, pero debido a su gran número de partidas
contra Kasparov durante ese año, la ventaja promedio de Kramnik (contra sus
oponentes) fue mucho menor que la de Kasparov o Shirov. Por lo tanto, este
sesgo sólo le costó a Kramnik 1 o 2 puntos de rating en el transcurso del año
2000.
El sesgo también tiene un efecto en el
grupo de calificación general. Comprime las calificaciones en un rango más
pequeño, por lo que los mejores jugadores están subestimados y los jugadores
inferiores están sobrevalorados. Los jugadores que tienden a ser los favoritos
en la mayoría de sus juegos (como los 100 o los 200 mejores jugadores) ven sus
calificaciones disminuidas artificialmente debido a este efecto. Por lo tanto,
el aumento en las calificaciones de grandes maestros, que hemos visto en los
últimos años, habría sido aún mayor si hubiera existido un sistema de
calificación más preciso. Verán una ilustración de esto más adelante, cuando
observemos algunas listas mensuales de los diez mejores desde 1997 utilizando
varias fórmulas de calificación.
Es genial tener algún tipo de
justificación científica para tu fórmula, como hizo el profesor Elo, pero
parece aún más importante tener una fórmula que esté libre de sesgos. No
debería importar si te enfrentas a muchos oponentes más fuertes, más débiles o
de fuerza similar; su calificación debe ser una estimación lo más precisa
posible de su fuerza, y esto simplemente no sucede con la fórmula de Elo. Mi
"modelo lineal" es mucho más simple de calcular, más fácil de
explicar, significativamente más preciso y muestra menos sesgo.
Comentarios
Publicar un comentario