Sistem peringkat EloSistem peringkat Elo adalah suatu metode untuk menghitung tingkat keterampilan (skill) relatif pemain pada permainan jumlah-nol (zero-sum) seperti catur dan go. "Elo" sering ditulis dengan huruf kapital (ELO), tetapi bukanlah suatu akronim. Elo berasal dari nama penciptanya, Arpad Elo, ahli fisika Amerika Serikat kelahiran Hungaria. Sistem Elo diciptakan sebagai perbaikan sistem peringkat catur dari sistem Harkness yang digunakan sebelumnya.[1] Tapi sistem ini juga digunakan sebagai sistem peringkat dalam sepak bola, sepak bola Amerika (American football), bisbol, bola basket, pool, tenis meja, dan banyak permainan papan dan olahraga elektronik (esports). Peringkat (rating) Elo seorang pemain dinyatakan dengan sebuah poin angka yang mungkin berubah, bergantung pada hasil pertandingan yang dimainkan. Pada setiap akhir pertandingan, pemenang akan mengambil poin dari yang kalah. Perbedaan peringkat antar dua pemain menentukan banyaknya poin yang didapat atau yang hilang dari sebuah pertandingan. Dua pemain dengan peringkat yang sama diprediksi (expected) akan mendapatkan total jumlah kemenangan yang sama, jika peringkat keduanya sama. Pemain dengan peringkat 100 poin lebih tinggi daripada lawannya diprediksi menang 64%; jika 200 poin lebih tinggi, ia diprediksi mendapatkan 76%. Dengan cara pandang lain, pemain dengan peringkat tinggi hanya mendapat sedikit poin ketika menang dari pemain peringkat-rendah. Tapi pemain dengan peringkat-rendah akan mendapatkan banyak poin jika menang dari pemain peringkat-tinggi (dan sedikit poin jika hasil pertandingannya seri/imbang). Hal ini mengakibatkan sistem peringkat Elo self-correcting. Pemain dengan peringkat terlalu tinggi atau terlalu rendah, dalam jangka panjang akan berubah naik-turun menyesuaikan prediksi sistem peringkat sampai nilai peringkat menggambarkan kemampuan asli pemain tersebut. Peringkat Elo hanya bersifat komparatif (untuk dibandingkan), dan hanya dapat dibandingkan dalam lingkungan pemain tempat peringkat tersebut dihitung (rating pool); Peringkat Elo tidak dapat digunakan untuk mengukur kemampuan absolut seorang pemain. SejarahArpad Elo adalah seorang pemain catur tingkat master dan peserta aktif dalam Federasi Catur Amerika Serikat (USCF) sejak didirikan pada tahun 1939.[2] USCF menggunakan sistem peringkat numerik, yang dirancang oleh Kenneth Harkness, yang memungkinkan para anggotanya mengukur kemampuan masing-masing; selain dengan melihat total menang dan kalah dalam turnamen. Sistem Harkness cukup adil, tetapi dalam beberapa situasi memunculkan peringkat yang dianggap tidak akurat oleh banyak pengamat. Atas nama USCF, Elo merancang sistem baru dengan dasar statistika yang lebih baik.[3] Pada waktu yang hampir bersamaan, György Karoly dan Roger Cook secara independen mengembangkan sistem berdasarkan prinsip yang sama untuk Asosiasi Catur New South Wales.[4] Sistem Elo yang didasarkan pada estimasi statistika menggantikan sistem penghargaan kompetitif. Pada sistem lawas ini, poin penghargaan suatu turnamen olahraga disesuaikan dengan evaluasi subjektif atas 'kehebatan' pencapaian tertentu. Sebagai contoh, memenangkan turnamen golf internasional mungkin bernilai lima kali lipat lebih banyak poin daripada memenangkan turnamen nasional. Sebaliknya, estimasi statistika menggunakan model yang menghubungkan hasil pertandingan dengan variabel-variabel dasar yang mewakili kemampuan setiap pemain. Asumsi utama Elo adalah bahwa performa catur setiap pemain dalam setiap pertandingan adalah variabel acak yang terdistribusi secara normal. Meskipun seorang pemain mungkin tampil lebih baik atau lebih buruk secara signifikan dari satu permainan ke permainan berikutnya, Elo mengasumsikan bahwa nilai rata-rata dari penampilan pemain tertentu hanya berubah secara perlahan dari waktu ke waktu. Elo menganggap kemampuan pemain yang sebenarnya sebagai rata-rata dari variabel acak performa pemain tersebut. Asumsi lebih lanjut diperlukan karena performa catur dalam cara pandang di atas masih belum dapat diukur. Seseorang tidak dapat melihat urutan gerakan catur dan mendapatkan angka yang mewakili keterampilan pemain tersebut. Performa hanya dapat disimpulkan dari kemenangan, seri, dan kekalahan. Oleh karena itu, jika seorang pemain memenangkan permainan, mereka diasumsikan telah tampil di level yang lebih tinggi daripada lawannya dalam permainan tersebut. Sebaliknya, jika pemain kalah, mereka diasumsikan tampil di level yang lebih rendah. Jika permainan berakhir seri, kedua pemain diasumsikan tampil pada level yang hampir sama. Elo tidak menjelaskan secara pasti seberapa dekat dua pertandingan agar dianggap seri, bukan menang atau kalah. Untuk menyederhanakan komputasi lebih jauh, Elo mengusulkan metode yang mudah untuk memperkirakan variabel dalam modelnya (yakni, keterampilan sebenarnya dari setiap pemain). Seseorang dapat menghitung dengan relatif mudah dari tabel berapa banyak permainan yang diharapkan akan dimenangkan oleh pemain berdasarkan perbandingan peringkat mereka dengan peringkat lawan. Peringkat pemain yang memenangkan lebih banyak permainan dari yang diharapkan akan meningkat, sedangkan pemain yang memenangkan lebih sedikit dari yang diharapkan akan menurun peringkatnya. Selain itu, perubahan peringkat tersebut harus sesuai (linear) dengan jumlah kemenangan pemain yang melebihi atau kurang dari jumlah yang diharapkan.[5] Dari perspektif modern, asumsi penyederhanaan Elo tidak diperlukan karena daya komputasi saat ini tidak mahal dan tersedia secara luas. Beberapa orang, terutama Mark Glickman, telah mengusulkan untuk menggunakan metode statistika yang lebih canggih untuk memperkirakan variabel yang sama. Di sisi lain, kesederhanaan komputasi sistem Elo telah terbukti menjadi salah satu aset terbesarnya. Dengan bantuan kalkulator saku, seorang kompetitor catur yang memiliki informasi yang cukup dapat menghitung dengan tepat berapa peringkat mereka yang akan dipublikasikan secara resmi, yang membantu mendorong persepsi bahwa peringkat tersebut adil. Penerapan sistem EloUSCF menerapkan saran-saran Elo pada tahun 1960,[6] dan sistem Elo dengan cepat mendapatkan pengakuan sebagai sistem yang lebih adil dan lebih akurat daripada sistem peringkat Harkness. Sistem Elo diadopsi oleh Federasi Catur Dunia (FIDE) pada tahun 1970.[7] Elo menjelaskan karyanya secara rinci dalam buku The Rating of Chessplayers, Past and Present, yang pertama kali diterbitkan pada tahun 1978.[8] Uji-uji statistik selanjutnya menunjukkan bahwa performa catur hampir pasti tidak terdistribusi secara normal, karena pemain yang lebih lemah memiliki peluang menang yang lebih besar daripada yang diperkirakan oleh model Elo.[9][10] Pada praktiknya, hanya ada sedikit perbedaan antara bentuk kurva logistik dan kurva normal. Jadi, tidak masalah apakah distribusi logistik atau normal yang digunakan untuk menghitung skor yang diharapkan.[11] Namun, secara matematis, fungsi logistik lebih mudah digunakan.[12] FIDE tetap menggunakan tabel selisih peringkat seperti yang diusulkan oleh Elo.[13] Sistem-sistem peringkat Elo yang diterapkanIstilah "Peringkat Elo" sering digunakan untuk merujuk pada peringkat catur seorang pemain yang dihitung oleh FIDE. Namun, penggunaan ini dapat ambigu karena ide-ide umum Elo telah diadopsi oleh banyak organisasi, termasuk USCF (sebelum FIDE), banyak federasi catur nasional lainnya, Professional Chess Association (PCA); juga server-server catur daring, seperti Internet Chess Club (ICC), Free Internet Chess Server (FICS), dan Yahoo! Games. Setiap organisasi memiliki implementasi yang unik, dan tidak ada satupun yang mengikuti saran asli Elo dengan tepat. Sebagai gantinya, peringkat Elo disertai informasi mengenai organisasi yang memberikan rating. Sebagai contoh: "Pada Agustus 2002, Gregory Kaidanov memiliki peringkat FIDE 2638 dan peringkat USCF 2742." Peringkat Elo dari berbagai organisasi ini tidak selalu dapat dibandingkan secara langsung, karena peringkat Elo mengukur hasil dalam suatu kelompok pemain catur dan bukan kemampuan absolut dari semua pemain catur. Pemeringkatan FIDE
Peringkat performa (performance rating, PR) adalah peringkat dugaan yang dihasilkan dari permainan-permain pada hanya satu acara/turnamen. Beberapa organisasi catur[14]:p. 8 menggunakan "algorithm of 400" untuk menghitung peringkat performa. Berdasarkan algoritma ini, peringkat performa untuk sebuah acara dihitung dengan cara berikut:
Sebagai contoh, seorang pemain yang menang melawan orang dengan peringkat w dan orang dengan peringkat x, namun kalah dari pemain dengan peringkat y dan seri ketika melawan orang dengan peringkat z, akan mendapatkan peringkat performa Algoritma ini adalah sebuah penyederhanaan, namun memberikan cara mudah untuk memperkirakan besar peringkat performa. FIDE, di lain pihak, menghitung peringkat performa sebagai: rerata peringkat lawan-lawan ditambahkan dengan perbedaan peringkat. Perbedaan peringkat didapatkan dari tabel dengan menentukan skor persentase pemain dalam turnamen. Skor persentase ini dihitung sebagai total poin yang didapat lalu dibagi dengan banyaknya permainan yang dilakukan. Sebagai catatan, skor sempurna atau tanpa skor memiliki Tabel diruas kanan adalah versi sederhana dari tabel yang disertakan dalam manual FIDE.[15] Peringkat saat iniFIDE memperbarui daftar peringkatnya pada setiap awal bulan. Di lain pihak, peringkat saat ini (live ratings), yang tidak resmi, menghitung perubahan peringkat pemain setiap akhir permainan. Peringkat ini didasarkan pada pemeringkatan yang FIDE publikasikan, sehingga live rating seorang pemain dimaksudkan untuk mengetahui berapa peringkat yang akan dihasilkan jika FIDE memperbarui daftar peringkatnya di hari itu. TeoriPerbandingan perpasangan (pairwise comparisons) menjadi dasar metodologi pemeringkatan Elo[16]. Lebih spesifik, besarnya performa disimpulkan dari banyaknya menang, kalah, dan seri, ketika melawan pemain-pemain lain. Peringkat seorang pemain bergantung pada peringkat dari lawan-lawan mereka dan skor yang dihasilkan dari melawan mereka. Perbedaan peringkat antar dua pemain menentukan perkiraan skor harapan (expected score) antara keduanya; hal ini akan dijelaskan lebih lanjut. Besarnya rerata dan jangkauan dari pemeringkatan dapat dipilih sembarang. USCF awalnya berniat agar pemain klub catur yang umum, akan memiliki peringkat 1500. Elo selanjutnya menyarankan penskalaan pada pemeringkatan, agar perbedaan peringkat catur sebesar 200 poin mengartikan pemain yang lebih kuat memiliki skor harapan (dengan kata lain skor rata-rata yang diharapkan) sekitar 0,75. Skor harapan seorang pemain adalah peluang menang pemain tersebut ditambah setengah dari peluang ia menghasilkan seri. Akibatnya, skor harapan sebesar 0,75 mengartikan 75% peluang menang, 0% peluang seri, dan 25% peluang kalah. Di sisi ekstrem yang lain, skor ini juga dapat mengartikan 50% peluang menang, 50% peluang seri, dan 0% peluang kalah. Peluang hasil seri tidak didetailkan dalam sistem Elo: hasil seri dianggap setengah menang dan setengah kalah. Secara praktik, karena kemampuan asli dari setiap pemain tidak dapat ditentukan, skor harapan diukur menggunakan skor pemain saat itu, sebagai berikut: jika pemain A memiliki peringkat dan pemain B memiliki peringkat , rumus (menggunakan kurva logistik dengan basis 10)[17] skor harapan untuk pemain A adalah Serupa dengan itu, skor harapan untuk pemain B adalah Rumus tersebut dapat pula dituliskan sebagai dan dengan dan Bentuk terakhir ini mengartikan bahwa Dengan mengamati pembilang, skor harapan untuk pemain A adalah lebih besar dari skor harapan untuk pemain B. Dapat disimpulkan pula untuk setiap perbedaan 400 poin dibandingkan lawan, skor harapan pemain meningkat 10 kali lipat dibandingkan skor harapan lawan. Ketika skor seorang pemain dalam suatu turnamen melebihi skor harapan, sistem Elo menyimpulkan peringkat pemain tersebut terlalu rendah dan perlu ditingkatkan. Sebaliknya, jika skor seorang pemain dalam turnamen lebih rendah dari skor harapan, peringkat pemain akan diturunkan. Usulan Elo yang asli, yang masih umum digunakan, adalah menyesuaikan skor secara linear dengan perbedaan performa yang terjadi di turnamen dari yang skor harapan. Penyesuaian maksimum untuk setiap permainan, yang disebut dengan faktor-K, ditetapkan sebesaruntuk master danuntuk pemain yang lebih lemah. Misalkan pemain A (yang memiliki peringkat ) diharapkan mendapatkan skor poin namun pada kenyataannya mendapatkan poin. Rumus untuk memperbarui peringkat pemain tersebut adalah Pembaruan ini dapat dilakukan pada akhir setiap permainan, akhir setiap turnamen, atau akhir suatu periode pemeringkatan yang sesuai. Berikut adalah sebuah contoh untuk memperjelas:
Prosedur pembaruan ini menjadi dasar pemeringkatan yang digunakan oleh FIDE, USCF, Yahoo! Games, Internet Chess Club (ICC) dan Free Internet Chess Server (FICS). Akan tetapi, setiap organisasi menggunakan cara yang berbeda untuk mengurus ketidakpastian terkait pemeringkatan; khususnya peringkat untuk setiap pemain baru, dan masalah inflasi/deflasi pada pemeringkatan. Para pemain baru mendapatkan peringkat sementara (provisional) yang diperbaiki lebih drastis ketimbang pemain dengan peringkat yang sudah pasti. Prinsip-prinsip dalam sistem peringkat Elo dapat digunakan untuk pemeringkatan pada cabang kompetisi yang lain, seperti pertandingan sepak bola internasional. Sistem Elo juga telah diterapkan pada permainan tanpa kemungkinan hasil seri, dan pada permainan yang memiliki besar perbedaan hasil akhir (selain sekadar menang/kalah). Usulan-usulan modifikasiPada tahun 2011 setelah menganalisis 1,5 juta permainan FIDE, Jeff Sonas menunjukkan sembarang dua pemain yang memiliki perbedaan peringkat sebesar menurut rumus Elo, ternyata memiliki perbedaan peringkat sekitar Hal ini mengartikan para pemain secara konsisten kehilangan poin ketika menang, karena rumus Elo salah memprediksi hasil.[19] Masalah matematis pertama yang diangkat oleh USCF adalah penggunaan distribusi normal. USCF menemukan bahwa hal ini tidak secara akurat mewakili hasil aktual yang terjadi, terutama oleh para pemain yang berperingkat lebih rendah. Sebagai gantinya, mereka beralih ke model distribusi logistik, yang menurut USCF lebih sesuai dengan hasil yang terjadi.[20][butuh rujukan] FIDE juga menggunakan pendekatan distribusi logistik.[13] Masalah kedua adalah besar faktor-K perlu digunakan. Ahli statistika catur Jeff Sonas percaya bahwa nilai (untuk pemain dengan nilai di atas 2400) yang diterbitkan Elo tidak akurat. Jika koefisien faktor-K ditetapkan terlalu besar, akan ada terlalu banyak sensitivitas pada beberapa kejadian terbaru, dalam artian besarnya poin yang dipertukarkan dalam setiap permainan. Dan jika nilai K terlalu rendah, sensitivitasnya akan menjadi minimal, dan sistem tidak akan merespons dengan cukup cepat terhadap perubahan tingkat performa pemain yang sebenarnya. Estimasi faktor-K asli yang dilakukan Elo tidak mengikutkan basis data yang besar dan bukti-bukti statistik. Sonas menyimpulkan faktor-K sebesar 24 (untuk pemain dengan peringkat diatas 2400) dapat lebih akurat karena lebih sensitif terhadap performa, dan dapat dipakai sebagai alat prediktif mengukur performa di masa depan.[21] Beberapa situs catur daring sepertinya menghindari penetapan tiga-level faktor-K yang ditentukan dari kelompok peringkat. Sebagai contoh, ICC terlihat mengadopsi nilai yang global, kecuali ketika bermain melawan pemain dengan peringkat sementara (provisional). Di lain pihak, USCF (yang menggunakan distribusi logistik ketimbang distribusi normal) awalnya menetapkan faktor-K berdasarkan tiga kelompok peringkat berikut:
Saat ini USCF menggunakan sebuah rumus yang menghitung faktor-K berdasarkan beberapa faktor, seperti banyaknya permainan yang pernah dilakukan dan peringkat pemain saat ini. Besar faktor-K juga diperkecil bagi pemain peringkat tinggi jika turnamen menggunakan kontrol waktu yang singkat.[14] Sedangkan, FIDE menggunakan jangkauan peringkat berikut:[22]
Penurunan formal untuk permainan menang/kalahRumus Elo dapat dihasilkan dengan menggunakan hubungan peringkat Elo dan stochastic gradient update dalam regresi logistik.[23][24] Jika kita mengasumsikan hasil permainan bersifat biner, yakni hanya dapat mengobservasi menang atau kalah, maka permasalahan pemeringkatan dapat diselesaikan lewat regresi logistik. Dalam hal ini, hasil permainan adalah variabel terikat dari variabel bebas berupa peringkat pemain, dan model yang menghubungkan keduanya bersifat probabilistik. Peluang pemain memenangkan permainan dimodelkan sebagai dengan menyatakan perbedaan peringkat antara dua pemain, dan dengan menetapkan faktor penskala . Menggunakan hukum total peluang, Besar kerugian logistik (log loss) selanjutnya dihitung sebagai menggunakan stochastic gradient descent, fungsi kerugian tersebut diminimumkan lewat:
dengan menyatakan besar langkah adaptasi. Karena , , dan , adaptasi dapat dituliskan sebagai yang secara lebih ringkas dapat dinyatakan sebagai dengan adalah langkah adaptasi baru yang menyerap dan , jika menang dan jika menang. Skor harapan bagi pemain didapatkan dari . Serupa dengan itu, pembaruan untuk peringkat adalah
ReferensiCatatan kaki
Sumber
Bacaan lebih lanjut
Pranala luar
|