ASCII

De bedst kendte kodninger udvidede ASCII-tegn i deres udvidede ASCII engelske navn er et kodning spil sæt tegn, der deler delmængde af ASCII-tegn. Dette udtryk er uformel og kan kritiseres af to grunde: På den ene side dette navn kunne antyde, at ASCII standarden blev udvidet, da han faktisk refererer til et sæt standarder, der omfatter ASCII delmængde; På den anden side, er den udvidede ASCII ikke betegne en bestemt tegnsæt, men unøjagtig sæt standarder, der præciserer hvert kodning en overordnet ASCII-tegn.

Begrebet udvidede ASCII er i almindelig brug i den tekniske dokumentation. Det er taget af Microsofts MSDN. Det er taget af mange Unix man-sider som dem i MacOS X.

Encyclopedia Britannica kombinerer dette koncept i 1981, IBM og kodning 8 bit.

Ændringer og udvidelser

Da der findes tusindvis af it-standarder og varianter af tegnkodning, er det vanskeligt at få en idé om slægtskab mellem hver af dem. Nedenstående tabel indeholder en illustration af placeringen af ​​ASCII, dens udvidelser og dens varianter, sammenlignet med nogle it-standarder for familier i en tidsmæssig sammenhæng.

Forklaring:

Historie og fremtidsudsigter

Behovet for at standardisere tegnkodninger samtidig bevare lokale karakteristika har kunnet mærkes siden før 1960'erne med fremkomsten af ​​ISO-646 og dens forskellige lokale udgaver, hvis ASCII-standarder. Hvis oprindeligt ASCII er designet som et tegnsæt for USA, har indflydelse på den computer industrien førte til at forsømme de forskellige varianter af ISO 646 for at pålægge ASCII. Valget af koder for en byte per karakter indledningsvis tillades at repræsentere fraværende ASCII-tegn. Det var ikke et problem på det tidspunkt, da computerne ikke var netværk.

Forskellige proprietære udvidelser optrådte på ikke-EBCDIC pc, især på universiteterne. Atari og Commodore tilføjede hans mange ikke-ASCII grafiske symboler.

IBM introducerede otte-bit ASCII-koder liggende på den oprindelige IBM PC, og senere produkt varianter til forskellige sprog og kulturer. IBM kaldte disse spil tegnkode sider og hver kode side udpeget spil ved et tildelt nummer. Derfor er tegnsæt ofte identificeret ved deres IBM kode sidetal. I ASCII-kompatible tegntabeller, opretholdt de 128 lave ASCII-tegn deres standard værdier, og forskellige sider kan stilles til rådighed i 128 tegn. I de første pc'er, der sælges på det nordamerikanske marked, for eksempel under MS DOS-kode side 437 blev brugt, den omfattede nogle tegn med accent, der er nødvendige for fransk, tysk, og nogle andre europæiske sprog, nogle stregtegning grafiske tegn. De forskellige sæt af karakterer lov til at oprette filer og dokumenter i en kombination af sprog som engelsk og fransk, men ikke for eksempel, fransk og græsk.

Apple Computer har indført deres egne 8-bit ASCII-koder i Mac OS Extended, Mac OS-romerske.

Digital Equipment Corporation udviklet den multinationale tegnsæt, baseret på foreløbige versioner af ISO 8859. Den blev støttet af VT220.

Drift og Teori

Brug kodninger ASCII karakter type er dels baseret på anerkendelsen af ​​ASCII-baserede syntaks, og for det andet på en ofte udifferentieret behandling af de resterende 128 byte værdier.

Dette aspekt var vigtigt for programmeringssprog såsom C-sprog eller andre sprog som HTML. Det tilladt at bruge de samme edb-sprog i forskellige lande, med ASCII, samtidig med at indførelsen af ​​strengen og kommentere på det relevante sprog.

Fordele og begrænsninger

ASCII har gjort det muligt lavere omkostninger globalt implementere software repræsenterer tekst i et par byte og ignorere alle eller en del af internationalisering spørgsmål. Han førte også problemer med interoperabilitet, hvilket resulterede i fremkomsten af ​​standarder som Unicode.

Bidrag

Tegnkodninger strækker ASCII ASCII at tilføje manglende tegn på et sprog, en kultur og et land.

Bevarelse af ASCII tillader bevarelsen af ​​kontrol karakterer, bevare tal og etiketter i ikke-accent tegn. Det giver også mulighed for bevarelse af specifikke symboler til ASCII, men i vid udstrækning anvendes i computere, herunder programmeringssprog, såsom beslag, spær, seler eller beslag. Før fremkomsten af ​​dette koncept, C sproget måtte ty til begrebet digraphs og trigrafer at afhjælpe manglen på disse tegn. Da brugen af ​​ASCII, brug digraphs og trigrafer i C sproget faldt af brug.

Eksistensen af ​​128 værdier tilføjer fx 128 tegn, der efter omstændighederne kan være computer grafiske symboler, matematiske symboler, alfabeter eller tilføjelser lokale alfabet, litterære symboler og tegnsætning, kommercielle symboler .

Tegnsæt ISO-8859 tegn også bringe en anden vifte af nævnte kontrol tegn C1, mellem værdierne 128 og 159.

Software, protokol, en konfigurationsfil, en kildekode-fil eller andre tjenester kan således i et vist omfang være kompatible med en kodning tegnsæt strækker ASCII, uden præcist at kende de forskellige eksisterende udvidelser.

Begrænsninger

De forskellige teknikker til udvidelse af ASCII udgøre forskellige problemer:

Selv om det kan være let at vide, at kodning er ASCII, den anden del af den kodende er undertiden eller ofte er usikre.

ASCII extensions kan være baseret på forskellige teknikker. Nogle teknikker sikrer, at hver byte repræsenterer en karakter, mens andre anvender flere bytes til at repræsentere en karakter. Nogle udvidelser indføre null byte, mens andre forbeholde brugen af ​​denne særlige værdi. Nogle udvidelser altid sikre, at en byte har den samme betydning, mens det i andre, tegnet repræsenteret ved en byte afhænger af kontekst. Nogle udvidelser tillader escape-sekvenser, hvor ASCII-værdier ikke er ASCII-tegn. Nogle udvidelser giver kontrol tegn eller afstand tegn, der ikke er anerkendt af alle software.

Denne mangfoldighed er generelt vanskeligt eller umuligt fuldstændigt styre og kan føre til interoperabilitetsproblemer som at mojibake eller andre uheldige skærme.

Standardisering og standardisering

Der er ingen specifik standardisering af begrebet udvidet ASCII. Det er derfor genstand for fortolkning. Således nogle mener nærvær af en byterækkefølgen varemærke nok at sige, at UTF-8 er ikke ASCII forlænges; Det samme spørgsmål kan blive bedt om tegnkodninger såsom Shift-JIS, eller dem herunder escape-sekvenser. Mens andre mener, at UTF-16 er en form for udvidet ASCII.

Anvendelser og applikationer

I mange protokoller er fælles for alle spil, er det yderst vanskeligt til korrekt at identificere en karakter. Hvis dette er irrelevant for en engelsk sprogfil dette har negative konsekvenser for brugere af andre sprog.

Desuden på internettet, fordi software mange brugere anvender ISO 8859-1, og fordi Microsoft Windows er operativsystemet i en dominerende stilling til personlige computere i dag bruger det uventede / improviseret ISO 8859-1 er ganske almindeligt, og var ofte antages uden beviser for det modsatte.

Relaterede emner

  • Diakritiske
Forrige artikel Adrian Sarkissian
Næste artikel Allentown