Punycode

Dalam komputasi, Punycode adalah sebuah perwujudan dari sintaks pengkodean umum (Bootstring), dengan karakter Unicode diubah dengan unik dan dapat dikembalikan, ke dalam himpunan karakter yang lebih kecil dan ketat.

Punycode ditujukan untuk pengkodean label dalam kerangka kerja Internationalized Domain Names in Applications (IDNA), sedemikian hingga nama domain tersebut dapat direpresentasikan dalam himpunan karakter ASCII yang diperbolehkan dalam sistem penamaan domain dari Internet. Sintaks pengkodean didefinisikan dalam dokumen IETF RFC 3492.[1]

Metodologi IDNA mengkodekan hanya label komponen nama domain dengan prosedur yang disebut ToASCII. Prosedur ToUnicode mengartikan kode label DNS ke dalam representasi Unicode.

Prosedur pengkodean

Bagian ini menunjukkan langkah-langkah untuk pengkodean Punycode, menggunakan contoh string "bücher" (bahasa Jerman untuk buku), yang diterjemahkan menjadi label "bcher-kva".

Pemisahan karakter ASCII

Pertama, semua karakter dasar (ASCII) dalam string disalin langsung dari input ke output, melewatkan karakter lainnya (misalnya, "bücher" → "bcher"). Jika satu atau lebih karakter dasar disalin, sebuah tanda hubung (hyphen) ASCII ditambahkan ke dalam output berikutnya (misalnya, "bücher" → "bcher-"). Karena ini adalah sebuah karakter dasar, maka tanda hubung mungkin akan masih tampil dalam string sebelum karakter tambahan ini, namun penambahan tidak akan membuat ambiguitas—tidak ada bagian selanjutnya dari proses pengkodean ini yang memperkenalkan "-" yang lain, maka "-" terakhir (bila ada) selalu merupakan tanda hubung yang menandakan akhir karakter dasar.

Pengkodean pada penambahan karakter bukan ASCII sebagai nomor kode

Bagian berikutnya dari proses pengkodean, pertama memerlukan pemahaman tentang pemecahan kode, yang merupakan finite-state machine dengan dua variabel, i dan n. i adalah indeks di dalam string yang bernilai dari nol (menggambarkan kemungkinan penambahan pada awal) sampai dengan panjang saat ini dari string yang telah ditambahkan (menggambarkan kemungkinan penambahan pada akhir).

i dimulai dari nol, sedangkan n dimulai dari 128 (poin kode pertama yang bukan ASCII). Progress dari state merupakan fungsi monotonik. Perubahan state dengan cara menambahkan dengan i secara berulang, atau jika i telah berada dalam maksimumnya, dengan me-reset i menjadi nol dan menambahkan berulang dengan n. Pada setiap perubahan state, poin kode yang disimbolkan dengan n dapat ditambahkan atau dapat tidak ditambahkan.

Nomor kode yang diciptakan oleh pengkode menggambarkan berapa banyaknya kemungkinan pengembali kode harus melewatkan sebelum melakukan penyisipan. "ü" memiliki poin kode 252.

Mengkodekan kembali nomor kode sebagai urutan ASCII


Punycode dirancang untuk bekerja pada seluruh skrip, dan untuk mengoptimisasi dirinya sendiri dengan cara mencoba menyesuaikan dengan jangkauan himpunan karakter di dalam string yang beroperasi. Punycode dioptimisasikan untuk kasus string yang terdiri dari nol atau lebih karakter ASCII dan dalam karakter tambahan dari hanya satu sistem skrip, namum dapat menangani segala jenis string Unicode. Perlu dicatat bahwa untuk penggunaan DNS, string nama domain dianggap telah dinormalisasi menggunakan Nameprep dan (untuk ranah Internet tingkat teratas) disaring sebelum dilakukan punycode, dan bahwa protokol DNS menetapkan batas panjang yang dapat diterima dari string Punycode output.

Lihat pula

Referensi

  1. ^ RFC 3492, Punycode: A Bootstring encoding of Unicode for Internationalized Domain Names in Applications (IDNA), A. Costello, The Internet Society (Maret 2003)

Pranala luar

Kembali kehalaman sebelumnya