30 diciembre 2007

Arpad Elo y el sistema de puntuación Elo

Arpad Elo y el sistema de puntuación Elo
Pregunte a los ajedrecistas por su puntuación y obtendrá una respuesta inmediata; pregúnteles de donde viene la palabra "Elo" y obtendrá una mirada de perplejidad. La mayor parte piensan que se trata de una abreviatura o de un acrónimo. En realidad proviene de un físico y ajedrecista de origen húngaro llamado Árpád Imre Élö, que ha quedado inmortalizado al desarrollar un sistema de puntuación. Nos lo describe exhaustivamente Daniel Ross en este artículo que les ofrecemos

Arpad Elo y el sistema de puntuación Elo

Por Daniel Ross

Universidad Indiana de Pensilvania
Matemáticas 563 – Estadística Matemática I
Otoño 2007

Pregunte por su 'Elo' a cualquier miembro de la Federación de Ajedrez de Estados Unidos (USCF) y probablemente obtendrán una respuesta inmediata y precisa. Luego pregunte a ese mismo miembro de la USCF de donde procede la palabra "Elo". Algo del estilo "No me acuerdo... alguien me dijo alguna vez de que eran esas siglas, pero no soy capaz de recordarlo" es más probable que la respuesta correcta. Aunque el sistema de puntuación en ajedrez más ampliamente usado en todo el mundo lleva su nombre, pocos tienen más que una vaga idea de como funciona el sistema y aún menos son conocedores de la existencia del propio estadístico Dr. Arpad Elo.

Físico de formación y húngaro de nacimiento, Elo fue un ferviente ajedrecista aficionado la mayor parte de su vida. Con un rendimiento de maestro, Elo ganó el campeonato de Wisconsin ocho veces entre los años 1935 y 1961. En 1959, cuando ya había servido en la USCF durante veinte años, Elo fue designado presidente del comité de puntuación de la USCF; El año siguiente la USCF adoptó el nuevo y revolucionario sistema de puntuación que había concebido. Una década más tarde, en 1970, la federación mundial de ajedrez, más conocida como FIDE (Fédération Internationale des Échecs), también puso en práctica el sistema Elo para registrar la fuerza relativa de los maestros de todo el mundo. Hoy en día, casi medio siglo después de su comienzo, el sistema Elo se asemeja muchísimo a su forma original. Además, el sistema Elo ha sido aplicado a muchas otras formas de competición por parejas, como el scrabble, los juegos de rol de participación masiva por Internet (MMORPGs) como World of Warcraft y diversos deportes profesionales y universitarios.

Arpad Emrick Elo (en húngaro: Árpád Imre Élö) nació en 1903 en Hungría, pero emigró a Estados Unidos con sus padres cuando era niño, en 1913. Llegó a ser profesor de física en la Universidad Marquette de Milwaukee (Wisconsin) Fue también un maestro de ajedrez que ganó el campeonato estatal de Wisconsin ocho veces. Murió en Brookfield (Wisconsin) en 1992.

Arpad Elo es famoso por su sistema de puntuar juegos de dos contendientes, como el ajedrez. Desarrolló su formula y un sistema de puntuación para el ajedrez que fue aprobado y adoptado en una reunión de la Federación Estadounidense de Ajedrez celebrada en San Luis en 1960. En 1970, la FIDE acordó adoptar el sistema de puntuación Elo. Desde entonces hasta mediados de los años 1980, el propio Elo hacía los cálculos de las puntuaciones. En aquel momento, la tarea de cálculo era relativamente fácil pues menos de 2000 jugadores tenían puntuación FIDE.

La FIDE designó a otros para la tarea de gestionar y calcular las puntuaciones, excluyendo a Elo. La FIDE también añadió a su manual nuevas reglas de "Cualificación para puntuación" otorgando puntuaciones arbitrarias (normalmente en el tramo de 2200, que es el límite inferior para un Maestro de Ajedrez) a jugadores que puntuasen al menos el 50% en las partidas jugadas en unas determinadas competiciones de ajedrez, como las denominadas Olimpiadas de Ajedrez. Elo y otros se opusieron a estas nuevas reglas en tanto que arbitrarias y motivadas políticamente. Fuente: Wikipedia.

Aunque su sistema de puntuación sigue siendo la más importante de sus contribuciones, el Dr. Elo también realizó valiosas observaciones relacionadas con el desarrollo de los ajedrecistas en función de datos demográficos como la edad, el lugar de nacimiento y el género. Además, Elo aplicó su sistema de puntuación a resultados de torneos históricos, remontándose a comienzos del siglo XIX. Con ello hizo posible, por primera vez, comparar la fuerza relativa de cualesquiera dos ajedrecistas de fuerza significativa a lo largo de siglo y medio. Aunque refutadas con vehemencia, estas puntuaciones aún son consideradas por algunos la forma más exacta de puntuar ajedrecistas anteriores a cualquier sistema formal de puntuación.

Al ser nombrado presidente del comité de puntuaciones de la USCF en 1959, a Arpad Elo se le asignó la sobrecogedora tarea de poner a punto el sistema de puntuación entonces vigente. Desarrollado por Kenneth Harkness a comienzos de los años 1950, el sistema (ahora conocido habitualmente como "sistema Harkness"), fue adoptado en principio por los miembros de la comunidad ajedrecística, quienes por primera vez tenían una forma de cuantificar sus habilidades. Al cabo de pocos años, sin embargo, resultó evidente que el sistema Harkness (Que podía resumirse en una sola tabla. Véase el apéndice A) era insuficiente por su simplicidad. Aunque las puntuaciones Harkness a menudo eran consideradas justas en los casos habituales, determinadas circunstancias extremas daban resultados estadísticamente inexactos. En aras de la tradición y, lo que es más importante, y de los miembros de la USCF, Elo mantuvo intactas dos partes importantes del sistema Harkness: la escala de puntuación y las categorías de clase en dicha escala.

La escala de puntuaciones, que tiene un límite mínimo en 0, sitúa el corte para los candidatos a maestros (también conocidos como expertos) en 2000. Aunque el máximo de la escala no está técnicamente limitado, sería inaudito que un jugador excediera la puntuación de 3000. Debido a que la magnitud de esas cifras es arbitraria, Elo pensó que sería lo mejor dejar que la gente mantuviera sus puntuaciones en aquel momento tanto por el bien de la comunidad ajedrecística (que podía seguir ignorando los cambios en el sistema de cálculo) como de la USCF (que en caso contrarío debería recalcular la puntuación de todos y cada uno de sus miembros) El concepto más importante y que fácilmente se pasa por alto que Elo adoptó del sistema Harkness fue el concepto de "categoría" del jugador que se define como un salto de 200 puntos en la clasificación (Véase el apéndice B) Por medio de la observación de los resultados de torneos anteriores, Elo encontró que una categoría representaba con precisión la desviación estándar (σ) en términos de fuerza de rendimiento para un jugador dado a lo largo de una serie de partidas.

Empleando los resultados del pasado y las puntuaciones Harkness, Elo observó que la distribución de los rendimientos individuales se parecía a una distribución normal con una σ de una categoría (200 puntos) Empleando una media (μ) de cero(1) nos da la siguiente función de densidad de probabilidad (pdf):

Dado que hay dos participantes en una partida de ajedrez, y cada uno tiene una desviación en el rendimiento de una categoría (σ1 y σ2), la desviación estándar empleada en la función de densidad de probabilidad (pdf) se obtiene como sigue:

La función de distribución acumulada (cdf) densidad de probabilidad (pdf) empleando esta σ' es característica del sistema Elo en cuanto al cálculo de rendimientos previstos (antes de un torneo), de las puntuaciones del rendimiento (durante un torneo) y de la actualización de las puntuaciones (tras un torneo). Por ejemplo, considere la gráfica siguiente:

Hemos representado la función de distribución acumulada (cdf) de una distribución normal con μ = 0 y σ' = 282.84 ELO. Los puntos corresponden a un jugador determinado que gana una sola partida contra un individuo situado en una categoría superior (24%), media categoría superior (36%) y en la misma categoría (50%) Adviertan que las tablas cuentan como media victoria para cada participante y es lo más probable en el caso de que compitan dos jugadores de igual fuerza.

Empleando esta gráfica podemos cuantificar los resultados esperados y los rendimientos reales que, combinados, se emplean para calcular las nuevas puntuaciones tras un torneo. Resulta más instructivo y posiblemente más interesante si se demuestra con un ejemplo; considere el más cercano Campeonato del Mundo FIDE en México D.F. Jugaron ocho ajedrecistas y se enfrentaron con cada uno de los demás en dos ocasiones (una vez con blancas y otra con negras) con los siguientes resultados previstos:

La puntuación actual (Rc) de cada jugador es conocida al comienzo del torneo como los resultados acumulados de sus rendimientos anteriores. La puntuación promedio (Ra) para la competición de cada participante así como la diferencia entre Ra y su puntuación actual (Dc) es trivial, pero necesaria para los cálculos subsiguientes. El porcentaje esperado de victorias (Pe) en el transcurso del torneo para cada individuo proviene de la distribución normal acumulada Pe = P [ X ≤ Dc]. Puede obtenerse por aproximación en el gráfico anterior o calcularse con la siguiente fórmula:

Cuando se puso en práctica el sistema Elo, se podía encontrar en una tabla una cercana aproximación a esta cifra. Ese número entonces se multiplicaba por el número total de partidas (catorce en nuestro ejemplo) y así se calculaba el número de victorias previstas (We) Para obtener un resultado más preciso, se puede calcular Pe para cada partida y luego sumarlos todos. Este método, aunque se considera más preciso, cuando se puso en práctica el sistema Elo implicaba mucho más tiempo de cálculo (en especial, en torneos largos) para quienes tenían que determinar las puntuaciones a mano, pero aquí se ofrece como We’.

Ahora que conocemos los resultados esperados, se pueden comparar con los resultados finales reales del torneo:

Aquí se muestra el número observado de victorias (Wo) junto con el porcentaje de las mismas (Po) que es sencillamente el número de victorias dividido entre el número de partidas jugadas. La puntuación del rendimiento (Rp) se calcula tomando el porcentaje de victorias observado y en resumidas cuentas invirtiendo el proceso de encontrar el porcentaje de victorias esperado. En otras palabras, buscamos el Do que satisface la ecuación Po = [ X ≤ Do ] para la la función de distribución acumulada (cdf) de la distribución normal indicada más arriba; Ese número luego se suma a Ra para obtener Rp.

Tiene mucho interés para los participantes involucrados (y para la comunidad ajedrecística) cuando se desvió Rp de su puntuación actual (ΔRp), que representa mejor su rendimiento en función de su habilidad que Wo. Por ejemplo: Vladimir Kramnik y Boris Gelfand puede que hayan empatado en el segundo puesto, pero la puntuación de Kramnik (2769) al llegar al torneo indicaba que se esperaba que rindiese más que Gelfand (2733) Por eso, a pesar de tener el mismo número de puntos, el ΔRp de Kramnik (+31) fue significativamente menor que el de Gelfand (+72)

También se ofrece la diferencia entre Wo y We/We’ (ΔW/ΔW’) Los promedios de los valores absolutos de ΔW y ΔW’ para el torneo son de 0.79 y 0.71, respectivamente; Como se esperaba , We’ fue ligeramente menor y por ende más cercano a los resultados reales.

Encontrar una aproximación del error probable de ΔW se hace como sigue: tome la mitad del mayor ΔRc entre cualquiera dos individuos del grupo y obtenga Pe; pongamos que Qe = 1 - Pe; defina la varianza como σ2 = N * Qe * Pe; la raíz cuadrada de ese número (la desviación estándar) dividida entre 0.67449(2) es el error probable. En nuestro error el error probable es ±1.26 victorias. La tolerancia estadística espera que la mitad de los contendientes caigan fuera de ese margen, aunque solo uno lo hace. Existen dos razones probables para este número anormalmente bajo: una muestra pequeña y el que exista menor desviación en los rendimientos en los niveles más altos de juego.

Por último tenemos la puntuación nueva (Rn) de cada participante, que se calcula multiplicando ΔW por un coeficiente K, conocido como factor K, y sumándolo a Rc. Factores K mayores aumentan la variabilidad de las puntuaciones, por lo que la mayor parte de las federaciones (incluso la USCF y la FIDE) emplean un factor K proporcionalmente mayor para jugadores con menos de 25 partidas jugadas, ya que la confianza en su puntuación es menor que en el caso de un jugador asentado. En este caso se empleó para calcular Rn un factor K de 10 (que es relativamente bajo) ya que es el que la FIDE emplea actualmente para jugadores con puntuación igual o superior a 2400. Cuando se puso en funcionamiento, la USCF empleaba un factor K de 32, pero se ha cambiado por un sistema dinámico que da a los jugadores con menor puntuación o con menos partidas jugadas un número más grande que en el caso de jugadores experimentados o con una alta puntuación.

Junto a las virtudes del sistema Elo hay varios inconvenientes bien documentados. El primer punto débil del sistema Elo, y quizás el más evidente, es que no se da ninguna ventaja a las blancas. Esa ventaja es evidente incluso en mi categoría (B) de juego: mi Po es 0.708 con blancas y 0.556 con negras. Aunque Elo alegaba que dicha diferencia se compensaba, ya que la mayor parte de los jugadores disputaban la mitad de sus partidas con blancas y la otra mitad con negras (Discrepo sobre esto), el hecho es que cuando las puntuaciones se calculaban a mano este tipo de sofisticaciones en el sistema consumían demasiado tiempo. Otra debilidad discutible del sistema Elo es el concepto de inflación de la puntuación. Por ejemplo, Bobby Fischer (considerado por muchos como el mejor ajedrecista de todos los tiempos) tuvo una puntuación máxima de 2780 lo que lo colocaría en la actualidad en el cuarto lugar del mundo. Otros alegan, sin embargo, que eso indica exactamente lo que implica: es decir, que debido al mayor conocimiento del juego, incluyendo el uso de ordenadores en la preparación. los jugadores punteros de hoy en día son mejores que los de hace diez, veinte o cincuenta años. De cualquier modo, este aspecto está relacionado con una tercera debilidad del sistema Elo: las puntuaciones están en relación con su competición, lo que deja abierta la posibilidad de puntuaciones anormalmente altas (o bajas) dentro de un grupo controlado de jugadores. El conocimiento de esto permitió a Claude Bloodgood, que era solo un jugador con nivel de maestro, alcanzar una puntuación de 2702 (que era la segunda más alta de la USCF en aquel momento) a base de organizar y participar en cientos de torneos carcelarios que contaban con rivales en su mayor parte débiles. De forma similar, la federación de Myanmar (Camboya) pasó de cuatro jugadores con puntuación en enero de 1997 a tener seis entre los cien mejores en enero de 2000 con la organización de torneos cerrados. Aunque dicho comportamiento pudiera parecer infantil, tengan en cuenta que los torneos más grandes del mundo pagan unas cantidades desorbitadas por participar a los jugadores con las puntuaciones más altas por lo que alientan a los jugadores a lograr la puntuación más alta posible. Hasta ahora ni la USCF ni la FIDE han abordado ninguna de las debilidades mencionadas del sistema Elo, excepto caso por caso.

Más allá de dichas debilidades están las posibles explotaciones, la más común de las cuales es el hecho de que solo los jugadores activos tengan una puntuación activa. A menudo un joven ajedrecista prometedor deja de jugar torneos durante un amplio periodo de tiempo, pero sigue mejorando su capacidad. Esta persona podría circunstancialmente apuntarse en un gran torneo con importantes bolsas de premios para cada categoría, por lo que aumenta sus opciones de ganar gran cantidad de dinero, jugando contra rivales que teóricamente tienen menor capacidad. Otra forma de sacar partido bastante común (que se da sobre todo en el juego por Internet) es el emparejamiento selectivo. Un jugador con puntuación más alta solo retará o aceptará retos de oponentes apreciablemente más débiles. Debido a que las variantes del sistema Elo en Internet permiten una ganancia mínima de un punto para el jugador que vence, una derrota excepcional se compensa con un gran número de victorias relativamente fáciles.

A pesar de esos puntos débiles, se han realizado muy pocos cambios en el sistema Elo durante los últimos 47 años. Como ya se mencionó, debido a los avances informáticos, la USCF ahora emplea un factor K dinámico que es mayor para los jugadores con menos experiencia y menos puntuación. El empleo de ordenadores también permite que cada partida se puntúe de forma individual e independientemente de los torneos en que se jueguen. Esto resulta claro para los miembros de la USCF ya que las puntuaciones oficiales ya no se publican cada trimestre, sino que se tabulan continuamente (sin necesidad de redondeo al punto más próximo) lo que redunda en favor de la exactitud. El último cambio realizado por la USCF (que también fue posible por el uso de ordenadores cada vez mayor) es la transición de una distribución normal a una distribución logística. Con la observación de gran cantidad de resultados, la USCF determinó que una distribución logística ofrece unas extrapolaciones más precisas. La FIDE aún emplea la distribución normal que Elo puso en práctica al principio.

A pesar de todo, los principios generales del sistema Elo han resistido la prueba del tiempo, lo que es aún más impresionante cuando se tiene en cuenta que el Dr. Elo carecía de la potencia de procesamiento de los ordenadores actuales. Me parece decepcionante que tanta gente pueda usar algo sin apreciarlo incluso a un nivel básico. Así que la próxima vez que un ajedrecista le pregunte a que corresponden las siglas “ELO”, al menos hágale saber que en realidad se trata del apellido de alguien.


Apéndice A: El Sistema Harkness


Apéndice B: Clases de la USCF y distribución de clases entre los miembros activos(3)


Bibliografía


1. Una μ de cero indica la diferencia en la puntuación actual de un individuo y su rendimiento esperado que obviamente es más probable en cero. Pudiera resultar más intuitivo emplear la puntuación actual de un individuo como μ; esto simplemente desplazaría la distribución μ puntos. Cuando se introdujo el sistema Elo, todas las puntuaciones se calculaban a manos. Al tener un solo modelo para describir a todos los jugadores, era posible para quienes calculaban las puntuaciones buscar los valores en una tabla o en una gráfica, ahorrando tiempo.

2. Esto se deriva de la definición de error probable; la ratio de la desviación estándar que contiene el 75% de la distribución acumulada de una función. Por ejemplo, para conseguir un Pe de 75% con un σ de 282.84, se necesitaría un Dc de 0.67449 * 282.84 = 190.77.

3. Datos disponibles para los miembros de la USCF en https://secure.uschess.org/MembersOnly/download.php

Dan Ross tiene 28 años y vive en Johnstown (Pensilvania, EE.UU.) Es ingeniero informático a tiempo completo y graduado a tiempo parcial (Universidad Indiana de Pensilvania, Matemáticas Aplicadas) Dan disfruta jugando al hockey sobre hielo (aunque no especialmente bien) y al ajedrez. "El ajedrez, para mi, es un pasatiempo", escribe, "no un trabajo (en parte por elección, pero sobre todo porque no soy lo suficientemente bueno: 1605-P21 USCF) Prefiero disfrutar de mis partidas; circunstancialmente prefiriendo una jugada más interesante a otra mejor. Con blancas tiendo a jugar el Gambito de Rey o la Apertura Italiana; con negras he estado experimentando con la Pirc y con la Holandesa (con resultados diversos) Mi mejor resultado hasta ahora en un torneo de la USCF fue en el XIL Gateway Open de Pittsburgh (Pensilvania) con 3.5/4.0 en la categoría de hasta 1600, con un segundo lugar.

1 comentario:

Unknown dijo...

Mejor que este relato seria una explicacion detallada del sistema Harkness