Cât de repede determină codificarea șirului de text

Există o problemă: cum să determine rapid codificarea caracterelor unui șir de text în raport cu UTF-8 mai mult și mai des trebuie să lucreze cu siruri de caractere în UNICODE.

Mai jos este o funcție pentru a verifica dacă conversia este necesară codificarea UNICODE (UTF-8) care codifică WINDOWS (win-1251)

Funcția oferă un răspuns destul de exactă, deși nu se bazează pe un cod de conversie pe caractere.

Scurt - descriere detect_my_utf () funcția.
  • converti (string într-un format special)
  • Se calculează lungimea liniei de intrare
  • Noi depunem toate rândurile cu majuscule
  • eliminați codurile specifice și .0 .1
  • Se calculează lungimea noii linii
  • Obținem relația cu noua linie de ambalare

Dacă acest raport este 1 sau aproape de ea, atunci există o suspiciune că o parte din șirul nu este codat în UNICODE. Dacă acest raport este în intervalul variind între 1,2 și 2.2 - se poate codifica în condiții de siguranță în linie WINDOWS codificare win-1251.

La funcția de ieșire avem 0 sau 1, respectiv, nu UNICODE sau UNICODE.

Exemple ale funcției:

Exemplul 4 Acest algoritm bine se descurcă cu o varietate de șir de intrare, ca parte a statisticilor de servicii de la motoarele de căutare.

Dewatering ce www.arendanasosov.ru deshidratării.

PHP - un limbaj de programare bazat pe utilizarea de script-uri. Această limbă este utilizată pe scară largă pentru a crea o varietate de front-end și aplicații Web back-end. Sprijinit în mod implicit de cele mai multe gazde, fiind una dintre cele mai importante limbaje de programare pentru crearea de dinamice, site-uri web interactive.