Home About us Products Services Contact us Bookmark
:: wikimiki.org ::
Unicode

Unicode

Unicode on ohjelmistotalojen kehittämä laaja merkistöstandardi, joka kattaa suurimman osan maailman kirjoitettujen kielten käyttämistä merkeistä. Unicode määrittelee yksilöivän koodiarvon yli 90 000 erilaiselle kirjoitusmerkille. Sen avulla voidaan esittää lähes kaikki maailman kielten käyttämät merkit. Erikielisiä versioita ohjelmista voidaan toteuttaa samasta lähdekoodista. Useat vanhemmat merkistöt kuten ASCII ja ISO 8859-1 ovat 7- tai 8-bittisiä ja voivat näin määritellä enintään 128 tai 256 eri merkkiä. Unicodessa on yli miljoona mahdollista merkkipaikkaa.

Unicode-merkistön historia

Maailmassa puhutaan tuhansia kieliä, jotka käyttävät kymmeniä erilaisia kirjoitusjärjestelmiä. Näissä järjestelmissä on kymmeniä tuhansia erilaisia merkkejä ja kunkin kielen kirjoittamiseen tarvitaan merkeistä sille ominainen valikoima. Ajatus yleismaailmallisesta ja mahdollisimman kattavasta merkistöstä alkoi itää 1980-luvulla useammallakin taholla. Vuonna 1984 ISO ja IEC perustivat yhdessä työryhmän valmistelemaan tällaista merkistöä, joka sai nimekseen ISO/IEC 10646. Ohjelmistoteollisuuden intressiryhmän nimi oli The Unicode Consortium ja se perustettiin 1990. Unicode on saanut enemmän näkyvyyttä kuin ISO, sillä ”virallinen” standardointityö mielletään jähmeäksi ja teollisuuden edustaja Unicode taas dynaamiseksi. Käytännössä kuitenkin ISO/IEC 10646 ja Unicode ovat sama merkistö, sillä ne tekevät merkistötyössä yhteistyötä. Unicode-standardin versio 3.0 määritteli yksilöivän 16-bittisen koodiarvon 49 194 merkille. Käytössä oleva 65 536 merkin koodiavaruus on jaettu lohkoihin, joihin on ryhmitelty samaan kirjoitusjärjestelmään kuuluvat merkit ja yleiset symbolit. Lohkoihin jäi jonkin verran hukkatilaa, ja vuosien varrella on huomattu tarvittavien merkkien määrän ylittävän kirkkaasti 65 000 merkin rajan. Niinpä Unicodeen on rakennettu laajennusmekanismi, jonka avulla voidaan esittää yli miljoona merkkiä; tätä hyödynnetään Unicoden uusimmissa versioissa.

Unicode-merkistön rakenne

Unicoden merkkiavaruus jakautuu 17 tasoon (engl. plane). Jokainen taso on kooltaan 65 536 merkkiä, joten mahdollisia merkkipaikkoja on 1 114 112. Ensimmäinen taso on nimeltään Basic Multilingual Plane, ja se sisältää suunnilleen kaikki nykyään puhuttavien kielten kirjoittamiseen tarvittavat merkit. Muut tasot sisältävät toistaiseksi lähinnä historiallisten kirjoitusjärjestelmien merkkejä. Tasot on jaettu edelleen lohkoiksi, joihin on koottu saman kirjoitusjärjestelmän merkkejä. Esimerkiksi kirjaimet A–Z ovat Latinalainen perusosa -nimisessä lohkossa ja Ä ja Ö kirjaimet sen Latin1-täydennysosassa. Latinalaisia kirjaimia on myös kahdessa muussa täydennysosassa, Latinalaisen merkistön täydennysosa A ja B, sekä lisälaajennusosasta. Usein yhden kirjoitusjärjestelmän merkit on kuitenkin järjestetty yhteen lohkoon. Unicode-standardin versio 4.1.0 määrittelee yhteensä 97 786 merkkiä ja ohjauskoodia. Unicode-merkkeihin viitataan yleensä niiden merkkikoodilla. Koodi on muotoa U+xxxx, jossa xxxx on heksadesimaaliluku. Esimerkiksi A-kirjaimen merkkikoodi on U+0041.

Unicoden merkistökoodaukset

Unicode-merkkejä voidaan kirjoittaa tiedostoihin eri tavoin. Unicode-standardi tukee kolmea erilaista koodaustapaa: UTF-8, UTF-16 ja UTF-32.

UTF-8

UTF-8 on Unicoden vaihtelevanpituinen koodaustapa. Sen etuna on osittainen yhteensopivuus vanhempien järjestelmien kanssa, jotka käsittelevät merkkejä kahdeksanbittisinä tavuina. UTF-8 on rakennettu siten, että ASCII-merkistöön kuuluvat merkit (kirjaimet A–Z) säilyvät siinä samoina kuin ASCII:ssa, ja muut merkit koodataan vaihtelevan pituisena oktettijonona. Koodipaikasta riippuen yksi merkki vie tallennettuna tilaa yhdestä neljään tavua. Tavujen määrä riippuu koodipaikasta seuraavasti:
- U+0000..U+007F: yksi tavu
- U+0080..U+07FF: kaksi tavua
- U+0800..U+FFFF: kolme tavua
- U+10000..U+10FFFF: neljä tavua Latin-1-lohkon merkit vievät koodauksessa siten kaksi tavua ja muut Basic Multilingual Plane -tason merkit kolme. Tekstidatan koon lisäys ei siten ole merkittävä ainakaan latinalaisilla kirjaimilla kirjoitetussa tekstissä. UTF-8:n etuna on että se voidaan helposti automaattisesti tunnistaa, mikä ei ole mahdollista perinteisillä kahdeksanbittisilla merkistöillä. UTF-8 on lisäksi tilaton, päinvastoin kuin Itä-Aasiassa perinteisesti käytetty ISO-2022-koodaus, joten rikkoontuneesta datasta menetetään vain osa, ei koko loppua tekstiä.

UTF-16

UTF-16:ssa yksittäinen merkki tallennetaan yhtenä tai kahtena tavuparina. Ensimmäisellä tasolla olevien merkkien (U+0000..U+FFFF) tallentamiseen riittää yksi tavupari. Muilla 16 tasolla sijaitsevien merkkien (U+10000..U+10FFFF) tallentaminen on hieman monimutkaisempaa, ja siihen tarvitaan kaksi tavuparia. Ensimmäisen tason ulkopuolisten merkkien koodaamisessa käytetään ns. sijaismerkkejä (engl. surrogate characters). Sijaismerkit sijaitsevat ensimmäisessä tasossa, ja niitä on 2048 kappaletta jaettuna kahteen 1024 merkin ryhmään (high surrogates ja low surrogates). Näistä kahdesta 1024 merkin ryhmästä voidaan muodostaa 1 048 576 (1024 × 1024) kombinaatiota, mikä riittää ylimpien 16 tason merkkien osoittamiseen (16 × 65 536 = 1 048 576). UTF-16:sta on kolme versiota, joiden erot selittyvät tavujärjestyksen eroilla. UTF-16LE on little endian, eli siinä jokaisen tavuparin vähiten merkitsevä tavu on viimeisenä. UTF-16BE on big endian, eli tavuparin eniten merkitsevä tavu on viimeisenä. Lopuksi on olemassa muunnelma, jossa tavujärjestys on jätetty avoimeksi; tässä muunnelmassa tekstin tulisi alkaa koodilla U+FEFF, joka on leveydetön tyhje joka ei salli rivinvaihtoa ympärilleen (engl. zero-width nonbreaking space). Sen tavujärjestyspeilikuva U+FFFE on tulevaisuudessakin takuuvarmasti määrittelemätön merkki, joka on siten laiton Unicodessa. Näin ensimmäisen merkin lukemisen jälkeen tiedetään missä tavujärjestyksessä data on.

UTF-32

Koodaustavoista suoraviivaisin on UTF-32. Siinä jokainen merkki tallennetaan neljän tavun mittaisena. Myös siitä on kolme versiota, UTF-32LE ja UTF-32BE sekä sellainen, jossa käytetään tavujärjestysmerkkiä.

Muut


- UTF-7 on ehdotus Unicoden koodaamiseen 7-bittisten ASCII-merkistön merkkien avulla. Tarve koodaukselle on kuitenkin ollut vähäistä.
- Punycode on RFC 3492:ssä määritelty koodaus Unicoden käytölle DNS-nimissä. Sitä käytetään mahdollistamaan ääkköset web-sivustojen nimissä.

Unicoden käyttö

Ennen Unicoden yleistymistä useimmat käyttöjärjestelmät tallensivat tekstin käyttäen omia ratkaisujaan, jotka eivät olleet keskenään yhteensopivia. Tekstin esittäminen rajoittui lisäksi usein muutamaan kieleen merkistöä kohden. Unicode-tuki Windowseissa yleistyi vasta Windows NT:n ja sittemmin Windows 2000:n myötä, 9x-versiot eivät sitä sisältäneet. Mobiililaitteista sitä tukevat muun muassa Nokian Symbian-laitteet. Käyttöjärjestelmän lisäksi tarvitaan Unicodelle tukia myös ohjelmointikielissä. Perinteisesti C ja C++ ovat tukeneet ainoastaan ASCII-merkistöä tai muutamia käyttöjärjestelmän omia koodisivuja, mutta viime vuosina uusimmat standardit ovat lisänneet myös monitavuiset merkistöt näihin kieliin. Java käyttää kaiken tekstin tallentamiseen sisäisesti pelkästään Unicodea. UTF-8-koodaus on nykyään melko laajassa käytössä, koska se mahdollistaa erikielisten tekstielementtien esiintymisen samalla sivulla. Tänä päivänä myös vauhdilla yleistyneet Linux ja Windows XP sisältävät Unicode-tuen ja kun Windows-käyttöjärjestelmistä vanhat 9x-pohjaiset järjestelmät jäävät pois käytöstä, niin Unicoden tulevaisuus näyttää valoisalta. Osa Linux-käyttöjärjestelmien valmistajista asettaa järjestelmän jo oletuksena täyteen Unicode-tilaan (mukaan lukien ohjelmat, tiedostojärjestelmä jne.), ja muissakin siirtymisen voi halutessaan tehdä. Myös kun mobiililaitteista yhä suurempi osa tulee olemaan ”älypuhelimia”, niin niihin on mahdollista sisäänrakentaa monikielinen tuki.

Ulkopuoliset linkit

http://www.unicode.org
- [http://www.decodeunicode.org/ DecodeUnicode - Unicode WIKI] 50.000 gifs Luokka:ISO Luokka:Merkistöt zh-min-nan:Thong-iōng-bé ko:유니코드 ja:Unicode th:ยูนิโคด

Merkistöstandardi

Merkistö on tietotekniikassa ja tietoliikenteessä sopimus, joka määrittelee, miten eri bittiyhdistelmät (binääriluvut) tulkitaan eri merkeiksi. Merkistöjä on käytössä useita erilaisia. Kaikki nykyaikaiset tietokoneet käsittelevät dataa kahdeksanbittisinä tavuina, jolloin yhdellä tavulla voidaan esittää 256 eri arvoa. Tallennettaessa tekstiä tietokoneen muistissa oleva luku on määritelty merkiksi siten että jokaista erilaista koneen muistissa olevaa lukua vastaa yksi kirjain tai muu merkki (esim. 64 = @, 65 = A , 66 = B, 67 = C, jne). Yksi merkki voi viedä tilaa yhden tavun tai enemmän. Merkin käsite on selvä useimmissa kirjoitusjärjestelmissä: isot ja pienet kirjaimet ovat erillisiä merkkejä, samoin kaikki välimerkit. Merkin käsitteeseen ei liity sen ulkonäkö eli merkin glyyfi, joka voi olla hyvinkin erilainen eri kirjasimilla.

Historiaa

Ensimmäisinä merkistöinä voidaan pitää kaukokirjoitinlaitteissa jo 1800-luvulla käytettyjä "5-bittisiä" Baudot-koodistoja. 1960-luvulla kehitetty 7-bittinen ASCII on Baudot-merkistöjen melko suora perillinen. Yhteistä vanhoille merkistöille on yleensä se, että merkit on valittu vain tiettyä kieltä silmälläpitäen: esimerkiksi Yhdysvalloissa kehitetty ASCII soveltuu melko hyvin amerikanenglannin kirjoittamiseen, mutta muun muassa suomen, ruotsin ja saksan kielissä tarvittavia Ä- ja Ö-kirjaimia ei siinä ole. Tästä johtuen merkistöistä kehitettiin useita erilaisia rinnakkaismuotoja eri maiden tarpeita varten: esimerkiksi Suomessa käytettiin vielä 1980-luvulla yleisesti ASCIIn SF7-muunnosta, jossa tietyt erikoismerkit oli korvattu suomen ja ruotsin kielten vaatimilla kirjaimilla. Koska ASCII oli 7-bittinen ja tietokoneet käyttivät yleisesti 8-bittistä tavua, halusivat monet tietokonevalmistajat tarjota käyttöön laajempia merkistöjä, joissa ylimääräiseksi jäänyt bitti otettiin käyttöön, jolloin mahdollisten merkkien määrä kaksinkertaistui 256:een. Näissä merkistöissä 128 ensimmäistä merkkiä vastaavat yleensä ASCIIta ja ylemmät sisälsivät yleensä vaihtelevan valikoiman muita merkkejä, mm. ei-englanninkielissä tekstissä tarvittavia kirjaimia. Nämä merkistön jatko-osat olivat kuitenkin olivat eri tietokonevalmistajilla hyvin erilaisia. Yhtenäisten 8-bittisten merkistöjen kehittämiseksi luotiin ISO 8859 -standardi vuonna 1985, ja se määritteli aluksi neljä laajennettua eurooppalaista merkistöä. 256 merkin tilaan eivät mahdu edes kaikkien eurooppalaisten kielten vaatimat kirjaimet, joten eri alueille oli luotava omat merkistönsä. Merkistöjen eroista johtuu, että katseltaessa tekstitiedostoa, joka on tallennettu eri merkistöllä, osa merkeistä korvautuu toisilla. Tällöin tekstiä voi olla vaikea tai mahdoton ymmärtää. Tiedostoja voidaan muuntaa toisiin merkistöihin, mutta tällöin osa merkeistä voi hävitä, jos kohdemerkistössä ei ole käytössä samoja merkkejä kuin alkuperäisessä tekstissä. Kaikki ISO 8859 -merkistöt ovat kuitenkin yhteensopivia ASCII:n kanssa, joten kirjaimet A-Z pysyvät samoina.

ISO 8859 -merkistöt

ISO 8859 on ryhmä ISO-standardointielimen määrittelemiä merkistöjä. Merkistöjen numerointi on juokseva, eikä uudempi siten ole välttämättä parempi tai korvaava aikaisemmalla merkistölle. Merkistön koko nimi sisältää standardin nimen, juoksevan numeron ja hyväksymisvuoden, esimerkiksi: ISO/IEC 8859-15:1999.
- Länsi-Eurooppaa varten kehitettiin ISO 8859-1 eli latin1, joka sisältää lähes kaikki länsieurooppalaisten kielten merkit. Siitä kuitenkin puuttuvat esimerkiksi suomessa lainasanoissa käytettävät Š ja Ž, ranskan Œ ja Ÿ ja katalaanin Ŀ. Tämä merkistö on kuitenkin usein oletuksena käytössä, esim. HTML-kielessä, jos muuta ei ole määritelty.
- Itä-Eurooppaa varten tehtiin ISO 8859-2 eli latin2 seuraavia kieliä varten: tšekki, unkari, romania, puola, kroatia, slovakki, slovenia, serbia (latinalaisin aakkosin). Tässä merkistössä saksan ja suomen tarvitsemat merkit, äöüß, sijoitettiin samoihin paikkoihin kuin latin1:ssä, joten silläkin voi kirjoittaa yhteensopivasti myös saksaa ja suomea.
- Etelä-Eurooppaa varten tehtiin ISO 8859-3 eli latin3, jolla kirjoitetaan yleisesti esperantoa sekä maltaa, aiemmin myös turkkia. Tämä merkistö on paljolti jäänyt pois käytöstä.
- Pohjois-Eurooppaa varten tehtiin ISO 8859-4 eli latin4, jolla voi kirjoittaa viroa, latviaa, liettuaa ja grönlantia.
- Kyrillistä aakkostoa varten tehtiin ISO 8859-5, jolla voi kirjoittaa bulgariaa, valkovenäjää, makedoniaa, venäjää, serbiaa (kyrillisin aakkosin) sekä ukrainaa ennen vuoden 1990 oikeinkirjoituksen uudistusta. Tämä merkistö ei ole kuitenkaan saavuttanut merkittävää suosiota, ja käytetympiä merkistöjä ovat KOI-8 muunnelmat ja Windows koodisivu 1251.
- Arabiaa varten kehitettiin ISO 8859-6, joka sisältää vain arabian perusaakkoston, eli sillä ei voi kirjoittaa persiaa tai urdua, vaikka nämä käyttävätkin pääosin samoja kirjaimia kuin arabia.
- Kreikkaa (nykykreikka) varten kehitettiin ISO 8859-7.
- Hepreaa varten tehtiin ISO 8859-8 (sisältää vain konsonanttimerkit).
- ISO 8859-9 eli latin5 on lähes sama kuin latin1, mutta tässä islannin kirjaimet ðýþ on korvattu turkkilaisilla kirjaimilla.
- ISO 8859-10 eli latin6 on uudelleenjärjestelty latin4, johon on otettu myös edellä mainitut islannin kirjaimet. Sitä voi käyttää Baltian kielten lisäksi joidenkin saamen kielten ja grönlannin kirjoittamiseen.
- ISO 8859-11 on tarkoitettu thai-kieltä varten.
- ISO 8859-12 hylätty ehdotus, joka lopulta korvattiin ISO 8859-14:lla.
- ISO 8859-13 eli latin7 on parannettu balttilainen järjestely.
- ISO 8859-14 eli latin8 lisää loput gaelin ja walesin tarvitsemat kirjaimet latin1:een, jotta sillä voisi kirjoittaa kaikkia kelttiläisiä kieliä.
- ISO 8859-15 eli latin9 tai latin0 on muunneltu versio latin1:stä, siitä on poistettu muutamia merkkejä ja niiden tilalle on laitettu unohtuneet ranskan ja suomen kielen kirjaimet, ja valuuttamerkki ¤ on korvattu euron merkillä €.
- Uusin ISO 8859-16 on alun perin tehty romanian kielen oikeinkirjoitusta varten, mutta se soveltuu myös moniin Etelä- ja Itä-Euroopan kieliin ja sisältää lisäksi euron symbolin. Tällä merkistöllä voidaan kirjoittaa myös suomea, saksaa ja ranskaa, koska merkistöstä on tiputettu pois useita symboleja ja korvattu niitä kirjaimilla. Uusia ehdotelmia ISO 8859 -perheeseen ei ole enää käsittelyssä, vaan toivotaan, että Unicode korvaisi hiljalleen muut merkistöt.

Muut kahdeksanbittiset merkistöt

ISO-merkistöjen lisäksi on olemassa useita kansallisia ja epävirallisia merkistöjä. Näistä suosituimpia ovat KOI-8 -muunnelmat jotka ovat käytössä Itä-Euroopassa, kuten KOI8-R Venäjällä, KOI8-U Ukrainassa ja Bulgarian MIK. Myös vietnamin VISCII ja intialaisten kielten ISCII ovat tällaisia kahdeksanbittisiä merkistöjä. Tämän lisäksi useilla valmistajilla on omat merkistönsä eri kieliä varten: Microsoftilla DOS ja Windows koodisivut; Applella MacRoman, MacCyrillic; HP:lla HP-Roman8; jne. Suosittu Microsoft Windows käyttää seuraavia merkistöjä (koodisivuja Windows terminologiassa), joista osa on standardin mukaisia, osa laajennettuja ja osa omia:
- 1250 Itä-Eurooppalainen (Latin 2)
- 1251 Kyrillinen
- 1252 Länsimainen (Latin 1)
- 1253 Kreikkalainen
- 1254 Turkkilainen (Latin 5)
- 1255 Heprealainen
- 1256 Arabialainen
- 1257 Baltialainen
- 1258 Vietnamilainen
- 874 Thai
- 932 Japanilainen Shift-JIS
- 936 Kiinalainen GBK (XGB)
- 949 Korean laajennettu Wansung (KSC5601-1987)
- 950 Kiinalainen (Taiwan, Hong Kong) (Big5)

Monitavuiset merkistöt

Itä-Aasiassa kahdeksanbittinen koodaus ei riittänyt millään tarvittavien merkkien koodaukseen, vaan siellä oli kehitettävä oma tekniikka, jotta sikäläisiä kieliä voisi kirjoittaa tietokoneella. Nämä merkistöt sisältävät ASCII-merkkien lisäksi yleiset paikallisesti tarvittavat merkit, sen sijaan muiden itä-aasian kielten merkkejä niissä ei ole eikä myöskään eurooppalaisten kielten aksentteja, eikä siis esim. suomen ääkkösiä. Ensimmäinen tällainen merkistö on japanilainen JIS X 0208 joka otettiin käyttöön jo 1976. JIS X 0208 oli ensimmäinen monitavuinen merkistö, jossa yhden merkin tallentamiseen käytetään useita tavuja tietokoneen muistissa. JIS X koostuu 94×94 merkin ruudukosta johon voidaan määrittää 8836 merkkiä. Käytännössä merkit voidaan koodata kahdella peräkkäisellä ASCIIn näkyvällä merkillä. Merkistöstä on useita versioita, joista JIS X 0212 on uusin. Monitavuisen merkistön käsittely ja tiedon välittäminen voi olla vaikeaa useilla ohjelmilla ja protokollilla jotka olettavat käytettäväksi kahdeksanbittistä merkistöä, monitavuisten merkistöjen välittämiseen on kehitetty koodauksia eri tarkoituksiin.
- EUC - Extended Unix Code - on koodaus joka mahdollistaa samanaikaisen ASCII-merkistön käyttämisen, esimerkiksi Unix-komennoissa ja tiedostonimissä samaan aikaan monitavuisen merkistön kanssa.
- Microsoftin kehittämä Shift-JIS on koodaus, joka siirtää JIS:n katakana-merkistön 8-bittiselle alueelle
- ISO-2022 määrittelee sarjan koodeja, joilla merkistöä voi vaihtaa kesken tekstin, ja siten käyttää sekaisin eri merkistöjä ja merkkejä. Useissa Itä-Aasian maissa seurattiin Japanin esimerkkiä ja kehitettiin oma 94×94 merkistönsä vastaavalla tekniikalla. Tällaisiä ovat:
- GB2312 - kiinan yksinkertaistetut merkit (Kiina)
- KS C 5601 - korea
- CNS 11643 - kiinan perinteiset merkit (Taiwan) Näitä merkistöjä yhdistettynä ISO-2022 tai EUC koodaukseen käytetään yleisesti sähköpostissa ja niitä merkitään MIME-otsakkeissa tyypeillä ISO-2022-JP/CN/TW/KR. Tosin Taiwanissa on yleisemmin käytetty Big5-merkistöä ja Hongkongissa tästä edelleen muunneltua omaa merkistöä HKSCS. Kiinan hallitus on määrännyt pakolliseksi GB 18030-2000 merkistön tukemisen kaikissa manner-kiinassa myytävissä käyttöjärjestelmissä.

Unicode

Koska merkistöjen runsaudesta huolimatta millään niistä ei voinut kirjoittaa montaakaan kieltä yhteen tekstitiedostoon, kehitettiin monikielinen ratkaisu Unicode, jonka versio 4.1 sisältää noin 100 000 merkkiä. Niillä voidaan kirjoittaa suurinta osaa nykyään puhuttavista kielistä. Unicoden on tarkoitus sisältää kaikki merkit jotka ovat sisältyneet toisiin merkistöihin, jolloin muunnos Unicodeen on aina mahdollista tehdä. Kun ohjelmistotuki Unicodelle laajenee, voidaan suurin osa muista merkistöistä unohtaa. Kuitenkaan ideogrammeja käyttäville kielille Unicode ei ole pystynyt tarjoamaan täyttä tukea, minkä vuoksi onkin yritetty kehitettää kattavampia järjestelmiä, esimerkiksi TRON, UTF-2000 ja Giga Character Set. Unicode standardi ei määrittele yksittäiselle merkille tiettyä esitysmuotoa, vaan kiinteän koodiarvon. Standardissa on useita koodaustapoja, joista yleisimmät ovat vaihtelevatavuiset UTF-7, UTF-8 ja UTF-16 sekä kiinteätavuiset UCS-2 ja UCS-4 koodaukset. Luokka:Tietotekniikka ja:文字コード

ASCII

ASCII (American Standard Code for Information Interchange) on tietokoneiden merkistö, joka sisältää englannin kielen kirjaimet, numerot, joukon välimerkkejä ja joitakin ohjauskoodeja. Lähes kaikki nykyisin yleisessä käytössä olevat tietokoneiden merkistöt ovat ASCII-yhteensopivia eli niiden 128 ensimmäistä merkkiä ovat samat kuin ASCIIssa.

Historiaa

ASCII kehitettiin 1960-luvulla paperille tulostavien kaukokirjoitinlaitteiden ja tietokonepäätteiden merkistöksi ja ohjauskoodistoksi. Aikaisemmat laitteet käyttivät yleensä 5-bittistä Baudot-koodia. ASCIIn kehitti Bob Bemer. Tietokoneiden ja tietotekniikan kehitys on tapahtunut valtaosin Yhdysvalloissa, joten merkkivalinnat on tehty sen mukaan. Tämä on aiheuttanut jatkuvia ongelmia ei-englanninkielisen tekstin käsittelyssä: esimerkiksi suomen kielen aakkoset A-Z löytyvät kaikista ASCII-merkistön muunnoksista ja näkyvät siis käytännössä aina oikein, mutta niin kutsutut skandit (Å, Ä, Ö) aiheuttavat yllättävän usein yhteensopivuusongelmia vielä nykyäänkin.

US-ASCII

Ensimmäinen ASCII-määritys julkaistiin vuonna 1968 ANSI X3.4 -standardina. ASCIIsta tuli ISO-standardi vuonna 1972. Alkuperäisessä ISO-646-IRV (international reference version) standardissa dollarin merkin ($) tilalla oli valuuttamerkki (¤). Vuonna 1991 uudistettu versio palasi kuitenkin vallitsevaan käytäntöön ja ISO-646-IRV vastaa nykyään yhdysvaltalaista versiota ISO-646-US eli US-ASCII. ASCII-merkistö on otettu myös Unicode-merkistön pohjaksi ja se muodostaa Unicoden ensimmäisen, Latinalainen perusosa -nimisen lohkon. ASCII-merkistö määrittelee ensimmäiset 128 merkkiä. Tähän kuuluvat amerikanenglannin isot- ja pienet kirjaimet A–Z, numerot ja joukko sekalaisia erikoismerkkejä (!"#$%&'<>=?.,:;@\^_`) . Merkistön alkupäästä on osa varattu erilaisille kontrollikoodeille, joten merkkejä mahtuu merkistöön alle sata erilaista. US-ASCII ei sisällä skandinaavisia, eikä muitakaan euroopan kielissä tarvittavia merkkejä. Euroopan maissa kansalliset merkit saatiin käyttöön korvaamalla osa erikoismerkeistä muilla merkeillä. Tällaiset merkistöt olivat yleisiä vielä pääteaikakaudella (1980-luku). Toteutus on kömpelö, etenkin kun päätettä käytettiin ohjelmointiin, jolloin on usein tehtävä valinta skandinaavisten merkkien ja välttämättömien hakasulkujen välillä. Suomalainen versio merkistöstä (ISO-646-SF) korvasi merkit [\]^ merkeillä ÄÖÅÜ ja ~ merkeillä äöåü. @ korvattiin é:llä. Tämä standardi tunnetaan myös suomalaisella nimellä SF-2.

ASCII-merkistön merkit

| 00 nul| 01 soh| 02 stx| 03 etx| 04 eot| 05 enq| 06 ack| 07 bel| | 08 bs | 09 ht | 0a nl | 0b vt | 0c np | 0d cr | 0e so | 0f si | | 10 dle| 11 dc1| 12 dc2| 13 dc3| 14 dc4| 15 nak| 16 syn| 17 etb| | 18 can| 19 em | 1a sub| 1b esc| 1c fs | 1d gs | 1e rs | 1f us | | 20 sp | 21 ! | 22 " | 23 # | 24 $ | 25 % | 26 & | 27 ' | | 28 ( | 29 ) | 2a
- | 2b + | 2c , | 2d - | 2e . | 2f / | | 30 0 | 31 1 | 32 2 | 33 3 | 34 4 | 35 5 | 36 6 | 37 7 | | 38 8 | 39 9 | 3a : | 3b ; | 3c < | 3d = | 3e > | 3f ? | | 40 @ | 41 A | 42 B | 43 C | 44 D | 45 E | 46 F | 47 G | | 48 H | 49 I | 4a J | 4b K | 4c L | 4d M | 4e N | 4f O | | 50 P | 51 Q | 52 R | 53 S | 54 T | 55 U | 56 V | 57 W | | 58 X | 59 Y | 5a Z | 5b [ | 5c \ | 5d ] | 5e ^ | 5f _ | | 60 ` | 61 a | 62 b | 63 c | 64 d | 65 e | 66 f | 67 g | | 68 h | 69 i | 6a j | 6b k | 6c l | 6d m | 6e n | 6f o | | 70 p | 71 q | 72 r | 73 s | 74 t | 75 u | 76 v | 77 w | | 78 x | 79 y | 7a z | 7b | 7e ~ | 7f del|

ASCII-merkistön laajennukset

Latinalaisen merkistön täydennys Latin-1:ksi:
| a0 nbs| a1  ¡ | a2  ¢ | a3  £ | a4  ¤ | a5  ¥ | a6  ¦ | a7  § |
| a8  ¨ | a9  © | aa  ª | ab  « | ac  ¬ | ad  ­  | ae  ® | af  ¯ |
| b0  ° | b1  ± | b2  ² | b3  ³ | b4  ´ | b5  µ | b6  ¶ | b7  · |
| b8  ¸ | b9  ¹ | ba  º | bb  » | bc  ¼ | bd  ½ | be  ¾ | bf  ¿ |
| c0  À | c1  Á | c2  Â | c3  Ã | c4  Ä | c5  Å | c6  Æ | c7  Ç |
| c8  È | c9  É | ca  Ê | cb  Ë | cc  Ì | cd  Í | ce  Î | cf  Ï |
| d0  Ð | d1  Ñ | d2  Ò | d3  Ó | d4  Ô | d5  Õ | d6  Ö | d7  × |
| d8  Ø | d9  Ù | da  Ú | db  Û | dc  Ü | dd  Ý | de  Þ | df  ß |
| e0  à | e1  á | e2  â | e3  ã | e4  ä | e5  å | e6  æ | e7  ç |
| e8  è | e9  é | ea  ê | eb  ë | ec  ì | ed  í | ee  î | ef  ï |
| f0  ð | f1  ñ | f2  ò | f3  ó | f4  ô | f5  õ | f6  ö | f7  ÷ |
| f8  ø | f9  ù | fa  ú | fb  û | fc  ü | fd  ý | fe  þ | ff  ÿ | 
Joskus kuulee puhuttavan "8-bittisestä ASCII-merkistöstä" tai "high-ASCIIsta". Tämä on kuitenkin virheellistä, sillä historiallisesti on ollut käytössä useita keskenään yhteensopimattomia ASCII-laajennuksia. Esimerkiksi MS-DOSin käyttämät merkistöt poikkeavat laajennusmerkkien osalta täysin Windowsin merkistöistä, jotka perustuvat ISO 8859:ään.

Lisätietoja

Lisätietoja erilaisista merkistöistä löytyy osoitteesta http://www.cs.tut.fi/~jkorpela/merkit/ Luokka:tietotekniikka Luokka:ISO als:ASCII ms:ASCII zh-min-nan:ASCII ko:ASCII ja:American Standard Code for Information Interchange

ISO 8859-1

ISO 8859-1 on kahdeksanbittinen ASCII-merkistön laajennos johon on otettu mukaan useimmat länsieurooppalaiset merkit. Merkistö tukee virallisesti seuraavia kieliä: albania, baski, katalaani, tanska, hollanti, englanti, fääri, suomi, saksa, islanti, iiri, italia, norja, portugal, retoromaani, skotti, espanja, ruotsi. Lisäksi sitä voi käyttää ainakin afrikaansin, eteläsaamen ja swahilin kirjoittamiseen. Merkistön seuraaja on ISO 8859-15 joka täydentää ranskan ja suomen tukea ja lisää merkistöön euron merkin. ISO 8859-1 on kuitenkin niin käytetty, ettei sen korvaaminen ole realistisesti mahdollista.

Historia ja standardointi

ISO 8859-1 perustuu DEC Multilanguage Character Set -merkistöön jota käytettiin ensimmäisen kerran VT220 ja VT240 päätteissä vuonna 1982. DEC MCS eroaa ISO 8859-1-merkistöstä islantilaisten merkkien osalta. Virallisempi nimi merkistölle on ISO/IEC 8859-1 ja se tunnetaan myös nimellä Latin1 (Latinalainen 1). IANA:n standardoinnissa merkistö tunnetaan ISO-8859-1 -nimellä. IANA määrittelee myös merkitykset kontrollimerkeille 0-31 (vastaavat ASCII-merkistön merkityksiä), joihin ISO ei ota kantaa. Maaliskuussa 1985 ECMA (European Computer Manufacturer's Association) standardoi nykyisin nimillä ISO 8859-1:sta ISO 8859-4:aan tunnettavat merkistöt ECMA-94 nimellä. ISO standardointia saatiin kuitenkin odottaa vuoteen 1987. Vuonna 1987 julkaistiin MS-DOS 3.30 jossa oli mukana koodisivu CP850, joka sisältää samat merkit kuin ISO 8859-1, kuitenkin eri järjestyksessä. PC-koneissa ISO merkistöä muistuttava Windows koodisivu-1252 tuli käyttöön lopulta Windows-ympäristön mukana 1990-luvulla. UNIX puolella siirtymistä hidasti erilaisten päätelaitteiden kirjavuus, kattavaan 8-bittisen merkistön käyttöön päästiin vasta kun vanhat päätteet korvattiin itsenäisillä työasemakoneilla ja pääasialliseksi yhteydeksi UNIX-koneisiin tuli Windowsista otettu telnet- tai ssh-yhteys. ISO 8859-1 laajentaa ISO 646-IRV merkistöä kahdella lohkolla; ASCIIn kontrollimerkkien ja latinalaisen perusosan lisäksi merkistöön on lisätty laajennetut kontrollimerkit ja Latinalaisen merkistön täydennys Latin-1:ksi osa. Laajennetuille kontrollimerkeille ei ole keksitty käyttöä ja merkkipaikat ovat käyttämättä.

ISO 8859-1 merkit

0 01 02 03 04 05 06 07 
08 09 0a 0b 0c 0d 0e 0f 
10 11 12 13 14 15 16 17 
18 19 1a 1b 1c 1d 1e 1f 
20sp21!22"23#24$25%26&27'
28(29)2a
-
2b+2c,2d-2e.2f/
300311322333344355366377
3883993a:3b;3c<3d=3e>3f?
40@41A42B43C44D45E46F47G
48H49I4aJ4bK4cL4dM4eN4fO
50P51Q52R53S54T55U56V57W
58X59Y5aZ5b[5c\5d]5e^5f_
60`61a62b63c64d65e66f67g
68h69i6aj6bk6cl6dm6en6fo
70p71q72r73s74t75u76v77w
78x79y7az7b7e~7fdel
80 81 82 83 84 85 86 87 
88 89 8a 8b 8c 8d 8e 8f 
90 91 92 93 94 95 96 97 
98 99 9a 9b 9c 9d 9e 9f 
a0 a1¡a2¢a3£a4¤a5¥a6¦a7§
a8¨a9©aaªab«ac¬ad­ae®af¯
b0°b1±b2²b3³b4´b5µb6b7·
b8¸b9¹baºbb»bc¼bd½be¾bf¿
c0Àc1Ác2Âc3Ãc4Äc5Åc6Æc7Ç
c8Èc9ÉcaÊcbËccÌcdÍceÎcfÏ
d0Ðd1Ñd2Òd3Ód4Ôd5Õd6Öd7×
d8Ød9ÙdaÚdbÛdcÜddÝdeÞdfß
e0àe1áe2âe3ãe4äe5åe6æe7ç
e8èe9éeaêebëecìedíeeîefï
f0ðf1ñf2òf3óf4ôf5õf6öf7÷
f8øf9ùfaúfbûfcüfdýfeþffÿ
Merkistössö merkki 20 (32 desimaalisena) on tavallinen välilyönti ja A0 sitova välilyönti. Merkki AD, SOFT HYPHEN, on määritelty HTML-kielessä tavutusvihjeeksi, eikä sen pitäisi olla näkyvissä (vaikkakaan useimmat selaimet eivät tue tavutusta). Merkkiä 7F ei ole määritelty, mutta ASCII:ssa se on kontrollimerkki, joka saadaan BackSpace-näppäimestä.

Katso myös


- ASCII
- Unicode

Lisätietoja


- Eurooppalaisen merkistön merkkien suomenkieliset nimet http://www.ling.helsinki.fi/filt/info/mes2/ Luokka:ISO 8859

Heksadesimaaliluku

Heksadesimaalijärjestelmä on lukujärjestelmä, jonka kantaluku on 16. Sitä käytetään yleisesti tietotekniikassa, koska yksi 16-kantaisen järjestelmän merkki vastaa suoraan binäärijärjestelmän neljää peräkkäistä bittiä. Näin esimerkiksi 8-bittisen tavun arvo voidaan ilmaista kahden merkin pituisella heksadesimaaliluvulla. Heksadesimaalijärjestelmä käyttää normaalien numeroiden 0-9 lisäksi kirjainmerkkejä A-F merkitsemään numeroita 1010-1510. Laskenta tapahtuu samalla tavoin kun kymmenkantaisessa desimaalijärjestelmässä. Muunnos kymmenkantaiseksi tapahtuu kertomalla luvun paikkaa vastaava numero vastaavalla 16:n potenssilla. Esimerkiksi luku "FF16" on desimaalisena 16×15+15=25510. Pidempi luku "ABCD16" on desimaalisena 16×16×16×10+16×16×11+16×12+13=4398110. Ohjelmoinnissa merkitään esim. näin erottamaan ne desimaaliluvuista:
- \xAB
- 0xCD (esim. C ja johdannaiset)
- xEF
- $1A
- BC$
- &HDE
- 16h Hexadecimal-sanan otti ensimmäisenä käyttöön IBM, joka halusi korvata aiemman sextidecimal-sanan, jonka käyttöä muutamat insinöörit pitivät nolona. Sana on rakenteeltaan omituinen, koska alkuosa heksa tulee kreikasta ja desimaali latinasta.

Katso myös


- Oktaalijärjestelmä
- Binääri luokka:tietokonearitmetiikka ko:십육진법 ja:十六進記数法 th:เลขฐานสิบหก

A

A on latinalaisten, kreikkalaisten ja kyrillisten aakkosten ensimmäinen kirjain. Latinalaisissa ja kyrillisissä aakkosissa isoa A-kirjainta vastaa pieni kirjain a. Kreikkalaisissa aakkosissa vastaava pieni kirjain on alfa, α.

Historia

A-kirjain on todennäköisesti saanut alkunsa Egyptin hieroglyfien tai seemiläisten kirjoitusmerkkien härän päätä esittävästä piktogrammista. Noin vuoteen 1500 eaa. mennessä foinikialaiset olivat antaneet kirjaimelle suoraviivaisen muodon, johon sen seuraavat kehitysvaiheet perustuivat. Foinikialaiset lienevät omaksuneet merkin nimityksen todennäköisesti oman kielensä tai jonkin muun vanhan seemiläisen kielen härkää merkitsevästä sanasta alef. Antiikin kreikkalaiset ottivat kirjaimen käyttöönsä merkitsemään A-vokaalia nimittäen sitä alfaksi. Foinikialaisten alef vastasi eri äännettä (glottaaliklusiili), jolle kreikan kielessä ei ollut käyttöä. Varhaisimmissa kreikkalaisissa kirjoituksissa A-kirjain oli foinikialaiseen tapaan sivuittain. Myöhemmin se kääntyi nykyiseen asentoonsa, vaikka siitä esiintyikin useita paikallisia muunnoksia, joissa kirjain saattoi olla esim. hieman epäsymmetrinen tai sen keskellä oleva vaakaviiva saattoi olla vinossa. Etruskit toivat kreikkalaiset kirjoitusmerkit asuinsijoilleen nykyisen Italian alueelle ja ottivat A-kirjaimen käyttöön sellaisenaan. Myöhemmin roomalaiset alkoivat käyttää etruskien kirjaimia latinankielisissä kirjoituksissaan. Tämän kehityksen tuloksena A-kirjaimesta tuli osa latinalaisia aakkosia.

Käyttö

Eri merkityksiä A-kirjaimelle


- Ajoneuvojen kansallisuustunnuksissa
  - A on Itävallan tunnus
- Biokemiassa
  - A on alaniinin ja adenosiinin (tietyissä yhteyksissä Ado) tunnus
- Elektroniikassa
  - A on eräs paristojen standardikoko
  - A on elektroniputken hehkulangan jännitelähteen merkintä
  - A on anodin tunnus
- Fysiikassa
  - A on sähkövirran yksikön ampeerin tunnus
  - A on aktiivisuuden tunnus
  - a on kiihtyvyyden tunnus
- Kemiassa
  - a on aktiivisuuden tunnus
  - A on massaluvun tunnus
- Korttipeleissä
  - A on tyypillisessä ja Suomessakin tavallisessa 54 kortin angloamerikkalaisessa pelikorttipakassa kunkin maan ensimmäisen kortin, ns. ässän tunnus
- Koululaitoksessa
  - a merkitsee ylioppilastutkinnon tai yliopistossa suoritetun kokeen alinta hyväksyvää arvosanaa, approbaturia
- Lääketieteessä
  - A on yksi veriryhmistä
- Matematiikassa
  - A on heksadesimaaliluku joka on desimaalilukuna 10
- Musiikissa
  - A on C-duuriasteikon kuudes nuotti
  - A on brittiläinen rock-yhtye
- Oikeustieteessä
  - A tarkoittaa asetusta
- Paperin kokoluokitusstandardissa (ISO 216)
  - A yhdistettynä numeroon 0–10 määrittelee paperin koon A-sarjassa, esim. A0, A1, A2, A3, A4 jne.
- Poliittisessa ideologiassa
  - A piirrettynä ympyrän sisään on anarkistinen symboli
- SI-järjestelmässä
  - a on ajan lisäyksikön vuoden tunnus
  - a on atto-etuliitteen eli kerrannaisyksikön tunnus merkiten triljoonasosaa (10-18)
  - A on pinta-alan tunnus
  - a on pinta-alan lisäyksikön aarin tunnus
- Tietotekniikassa
  - tai on HTML-kielen elementti (engl. tag), jota käytetään HREF-attribuutin kanssa linkin määrittelemiseen

Käyttö merkistöstandardeissa

Tietokoneissa A ja a koodataan eri merkistöstandardeja käyttäen seuraavasti:
A a
ASCII 0x41 0x61
Unicode U+0041 (latinalainen)
U+0391 (kreikkalainen)
U+0410 (kyrillinen)
U+0061 (latinalainen)
U+0430 (kyrillinen)

Muita esitystapoja


- Morseaakkosissa
  - A merkitään: · - (Ti – Taa)
- Radioaakkosissa
  - A on suomalaisen standardin mukaan Aarne ja NATO-standardin mukaan Alfa
- Pistekirjoituksessa (Braille)
  - A merkitään (o = piste, · = ei pistettä):
o·
··
··

Katso myös


- Luettelo kirjaimista als:A ko:A ja:A simple:A

Tavu (tietotekniikka)

Tämä artikkeli käsittelee tavua tietoteknisessä merkityksessä. Artikkeli tavusta kielitieteellisessä merkityksessä löytyy täältä Tavu (kielitiede). Tavu on yleisesti tietotekniikassa käytetty mittayksikkö tallennuskapasiteetille, ja se on riippumaton tallennetun datan tyypistä . Se on myös yleinen tietotyyppi ohjelmointikielissä. Tavuja tai sen kerrannaisia käytettään ilmoittamaan tietokoneen keskusmuistin tai tallennuskapasiteetin määrä. Tavun ominaisuus on, että se on pienin tietokoneen muistiosoitteella osoitettava yksikkö. Tavun koko on vaihdellut aikojen saatossa, nykyaikaisissa tietokoneissa tavu on kahdeksan bittiä. Aikaisemmin myös käytettiin kuuden-, seitsemän- tai yhdeksän bitin tavuja. Epäselvyyksien ehkäisemiseksi kahdeksan bitin tavusta käytetään mm. tietoliikenteessä nimeä oktetti (lyh. o). Tavu lyhennetään tyypillisesti t (vain suomenkielinen lyhenne), mutta toinen yleinen ja täysin pätevä tapa, myös suomenkielisessä tekstissä, on kansainvälinen tavun yksikkö B (varsin usein myös virheellisesti b, joka on bitin lyhenne). Englanniksi tavua kutsutaan nimellä byte, joka on muunnos sanasta bite (haukkaisu). Suomessa termiksi on muodostunut tavu lähinnä siksi että tietokoneesta riippuen kahdesta tai useammasta tavusta muodostuu sana (engl. word).

Tavun monikerrat

Tavun monikertoina voidaan käyttää SI-järjestelmän mukaisia kerrannaisyksiköitä kilo-, mega-, giga-, jne. tai binäärijärjestelmän kahden potensseja kibi-, mebi-, gibi-, jne, jolloin kibitavu on 210 = 1 024 tavua, mebitavu 220 = 1 048 576 tavua ja gibitavu 230 = 1 073 741 824 tavua. Binäärikerrannaisyksiköt kuuluvat IEC:n vuonna 1998 hyväksyttyyn standardiin. Käytäntö ei ole kuitenkaan levinnyt laajalle ja monet ohjelmistot, esimerkiksi Microsoft Windows ja osa GNU/Linuxin ohjelmistoista, käyttävät edelleen merkinnöissään kiloa, vaikka kyse on binäärikilotavuista (binäärinen kilotavu, kibitavu) ja yksikkönä tulisi olla KiB. Näitä eri kerrannaisyksiköitä käytetään sekaisin. Yleensä tietokoneiden keskusmuistin kapasiteetti ilmoitetaan kahden potensseissa ja kiintolevyjen kapasiteetti ja tiedonsiirron nopeudet kymmenen potensseissa, mutta tästäkin säännöstä on merkittävän paljon poikkeuksia. [http://physics.nist.gov/cuu/Units/binary.html IEC-standardi binäärisista etuliitteistä]

Linkkejä


- Tieto Tieto, data ja informaatio.
- ASCIIn kehittäjä Bob Bemer: "Miksi tavu on kahdeksan bittiä?" - http://www.bobbemer.com/BYTE.HTM Luokka:Tietotekniikka ms:Bait ko:바이트 ja:バイト (情報) simple:Byte th:ไบต์

Nimipalvelu

DNS (Domain Name System) on Internetin nimipalvelujärjestelmä, joka muuntaa Internetin verkkotunnukset (esimerkiksi www.suomi.fi) kommunikaation mahdollistaviksi IP-osoitteiksi (esimerkiksi 212.42.10.8). Verkkotunnuksen perusteella voidaan kysyä nimipalvelimelta eri tietueita. Tavallisimmat tietueet ovat:
- A-tietue (Address) - verkkotunnusta vastaava IP-osoite
- MX-tietue (Mail Exchanger) - verkkotunnukselle osoitetun sähköpostin vastaanottajan IP-osoite Kuva:DNS.png Järjestelmän perustana ovat juurinimipalvelimet, joiden IP-osoitteet määritellään kiinteästi kaikkiin Internetin asiakasnimipalvelimiin. Jokainen Internet-verkkoon kytketty tietokone voi olla asiakasnimipalvelin, jolloin se suoraan kysyy kaikki osoitteet lähtien juurinimipalvelimesta. Yleisempi vaihtoehto esim. Windows-työasemissa on kuitenkin se, että asiakastietokoneessa on pelkkä osoitteiden kyselyn tekevä kirjasto (resolver library), joka kysyy verkkotunnukset erilliseltä asiakasnimipalvelimelta. Asiakasnimipalvelimen IP-osoite on joko kiinteästi määritelty asiakastietokoneeseen tai nimipalvelimen IP-osoite saadaan esimerkiksi DHCP-protokollan avulla samalla, kun asiakastietokone saa oman IP-osoitteensakin. DNS on keksitty vasta vuonna 1983 eli Internetin toiminnan alkuaikoina tällaista palvelua ei verkossa ollut.

Standardointi

DNS-järjestelmä määritellään RFC-dokumenteissa:
- RFC 1034
- RFC 1035

Yleisiä virheitä DNS-konfiguraatioissa

Lame delegation

Lame delegation eli hölmö delegointi on virhe, jossa tietyn DNS-verkkotunnuksen ylläpitäjä delegoi tunnuksensa nimipalvelimelle, joka ei tiedä mitään tunnuksesta. Jos ylläpitäjä lisää firma.fi-verkkotunnuksen Name Server- eli NS-tietueisiin nimipalvelimet ns1.google.com ja ns2.google.com, kyseessä on hölmö delegointi; kyseiset palvelimet eivät firma.fi-tunnuksesta varmasti mitään tiedä. Sen sijaan satunnaiset asiakkaat kyselevät varmasti myös noilta nimipalvelimilta firma.fi:n tietoja aiheuttaen turhaa liikennettä googlen nimipalvelimille ja viivettä toiminnassa.

Yksityisten tietojen sekoittaminen

Aivan liian monen verkkotunnuksen tiedoissa on yksityisiä verkkonimiä tai -osoitteita. Nimipalvelimen ei tulisi vuotaa julkiseen Internetiin yksityisiä tietoja vastaukseksi minkäänlaisiin kyselyihin. Monesti verkkotunnuksen MX- tai NS-tietueissa on nimiä kuten palvelin.bolaget.se, missä bolaget.se on olematon toimialue, jota yritys käyttää sisäverkossaan. Myöhemmät yritykset selvittää kyseisen palvelimen IP-osoite epäonnistuvat. Yleisempi tapa saastuttaa Internetiä yksityisillä osoitteilla ovat yksityiskäyttöön varattujen IP-osoitteiden viljeleminen A-tietueissa (ks. IP-osoite). Useimmat Internet-sovellukset toimivat naiivisti ja yrittävät ottaa kyseisiin osoitteisiin yhteyksiä.

Ohjelmistoja


- [http://www.isc.org/index.pl?/sw/bind/ BIND]
- [http://cr.yp.to/djbdns.html djbdns]

Aiheesta muualla


- [http://www.ficora.fi/suomi/document/Viestintavirasto37B2004M.pdf] Suomalaisten verkkotunnusten teknisistä määrittelyistä ja sallituista merkeistä (täsmentää RFC-standardien väljäksi jättämiä määrityksiä)
- RFC 1912, yleisimmät DNS-konfiguraatiovirheet luokka:Internet luokka:TCP/IP ms:Sistem Nama Domain ko:DNS ja:Domain Name System

Windows

Microsoft Windows on PC:lle tarkoitettujen graafisten käyttöliittymien ja käyttöjärjestelmien perhe, jonka Microsoft esitteli vuonna 1985. Se on nykyisin maailman käytetyin käyttöjärjestelmä ja sillä on suuri markkina-asema, koska se tulee yleensä uusien PC-koneiden mukana. Windows kehitettiin alun perin MS-DOSin käyttöliittymäksi, jolla pyrittiin helpottamaan PC-koneiden käyttöä ja parantamaan niiden kilpailumahdollisuuksia Applen Macintosh-koneita vastaan. Nykyisin Windows on maailman käytetyin käyttöjärjestelmä, joskin sen mainetta ovat tahranneet lukuisat monopolisyytökset ja epävakaus. Windows 3.0 julkaistiin 1990, ja sen myynti räjähti käsiin. Vähitellen suosituimmat DOS-ohjelmat alkoivat siirtyä graafiseen ympäristöön. Windows 95 oli seuraava askel, se mm. uudisti verkkotoiminnot ja käyttöliittymän. Windows-käyttöjärjestelmäpakettiin kiinteästi kytkettyjä sovellusohjelmia ovat mm. Windows Media Player ja Internet Explorer. Microsoft aloitti OS/2:een perustuvan Windows NT:n toimitukset 1993. NT suunniteltiin vakautta vaativiin työasemiin ja palvelimiin. Koska se ei tarvinnut alleen 16-bittistä DOS-käyttöjärjestelmää, se pystyi käyttämään täysipainoisesti hyväkseen 32-bittisten x86-suorittimien muistinsuojaus- ja moniajo-ominaisuuksia. NT tuki myös moniprosessorointia. Microsoft oli jo pitkään yrittänyt sulauttaa yritys- ja kotikäyttäjien Windowseja yhteen, mutta se tapahtui vasta 2001, kun julkaistiin Windows 98:n ja 2000:n yhdistelmä, NT-teknologiaan pohjautuva Windows XP. Ja kehitys on jatkunut, uusi käyttöjärjestelmä, Vista, julkaistaan vuonna 2006.. Windowsista julkaistiin ensimmäinen kannettaviin pienlaitteisiin tarkoitettu Windows CE-versio vuonna 1996. Windowsin käyttöliittymä kuuluu siihen visuaalisten käyttöliittymien perheeseen, joka pohjautuu Xeroxin alkuperäiseen tutkimushankkeeseen.

Windowsin versiot


- Windows 1.0 (1985)
- Windows 2.0 (1987)
- Windows 3.0 (1990)
- Windows 3.1 (1992)
- Windows 3.11 (1993)
- Windows NT 3.51 (1993)
- Windows 95 (1995)
- Windows 95 OSR2
- Windows 95 OSR 2.1
- Windows 95 OSR 2.5
- Windows CE (1996)
- Windows NT 4 (1996)
- Windows 98 (1998)
- Windows 98 SE (Second Edition, 1999)
- Windows 2000 (2000)
- Windows ME (Millennium Edition, 2000)
- Windows XP (2001)
- Windows Server 2003 (2003)
- Windows Vista (2006)

Emulointi

Emulointi ja virtuaalikoneiden käyttö mahdollistaa joidenkin Windows-sovelluksien käytön ilman Microsoft Windowsia tai toisen käyttöjärjestelmän sisään asennetussa Windowsissa jopa muilla kuin PC-yhteensopivilla koneilla.
- WINE
- Virtual PC
- ReactOS
- Win4Lin
- VMware

Aiheesta muualla


- [http://www.microsoft.com/windows/ Microsoftin oma Windows-sivu]
- [http://www.levenez.com/windows/ Historiaa: aikajana] ms:Microsoft Windows zh-min-nan:Microsoft Windows ko:마이크로소프트 윈도우즈 ja:Microsoft Windows simple:Microsoft Windows th:ไมโครซอฟท์วินโดวส์

Windows 2000

Windows 2000 on 32-bittinen yrityskäyttöön suunnattu graafinen käyttöjärjestelmä. Microsoft julkisti Windows 2000:n 17. helmikuuta 2000. Windows 2000 -käyttöjärjestelmän Professional-versio suunniteltiin ensisijaisesti yritysten työasemakäyttöön. Versiot Server, Advanced Server ja Datacenter Server on tarkoitettu käytettäviksi palvelimina toimivissa tietokoneissa. Microsoft on julkaissut Windows 2000 -käyttöjärjestelmään neljä päivityspakettia, joista uusin on 26. kesäkuuta 2003 julkaistu SP4 (Service Pack 4). Windows 2000:n seuraaja on Windows XP. ja:Microsoft Windows 2000

Symbian

Symbian OS Symbian Ltd:n kehittämä pienitehoisille ja vähillä resursseilla varustetuille laitteille tarkoitettu käyttöjärjestelmä. Symbian OS tukee mm. moniajoa ja on tehokas, pieni ja monipuolinen. Sitä käytetään mm. matkapuhelimissa, ja se pohjautuu Psionin PDA-laitteitaan varten vuodesta 1989 alkaen kehittämään EPOC-käyttöjärjestelmään. Symbian-ohjelmistoalustoja ovat:
- Series 60 (Nokia 6600, Nokia 6630, Nokia N-Gage, Siemens SX1)
- Series 80 (Nokia 9300, Nokia 9500)
- Series 90 (Nokia 7700, Nokia 7710)
- UIQ (Sony Ericsson, Motorola, BenQ, Arima

Versiot


- 5.0 (EPOC R5)
- 6.0
- 6.1
- 7.0
- 7.0s
- 8.0
- 8.1
- 9.1

Kaikki Symbian OS:lla varustetut puhelimet


- Arima U300 (UIQ)
- Arima ASP805 (UIQ)
- BenQ P30 (UIQ)
- BenQ P31 (UIQ)
- FOMA F700i
- FOMA F880iES
- FOMA F900i
- FOMA F900iC
- FOMA F900iT
- FOMA F901iC
- FOMA F901iS
- FOMA D901i
- FOMA D901iS
- FOMA F2051
- FOMA F2102V
- Lenovo P930 (Series 60)
- Motorola A920 (UIQ)
- Motorola A925 (UIQ)
- Motorola A1000 (UIQ)
- Motorola A1010 (UIQ)
- Nokia 3230 (Series 60 7.0s)
- Nokia 3620 (Series 60 6.1)
- Nokia 3650/3600 (Series 60 6.1)
- Nokia 3660/3620 (Series 60 6.1)
- Nokia 6260 (Series 60 7.0s)
- Nokia 6600 (Series 60 7.0s)
- Nokia 6620 (Series 60 7.0s)
- Nokia 6630 (Series 60 8.0a)
- Nokia 6670 (Series 60 7.0s)
- Nokia 6680 (Series 60 8.0a)
- Nokia 6681 (Series 60 8.0a)
- Nokia 6682 (Series 60 8.0a)
- Nokia 7610 (Series 60 7.0s)
- Nokia 7650 (Series 60 6.1)
- Nokia 7700 (Series 90 7.0s)
- Nokia 7710 (Series 90 7.0s)
- Nokia 9210 Communicator / Nokia 9210i Communicator / Nokia 9210c Communicator (Series 80 6.0)
- Nokia 9290 Communicator (Series 80 6.0)
- Nokia 9300 (Series 80 7.0s)
- Nokia 9500 Communicator (Series 80 7.0s)
- Nokia N-Gage (Series 60 6.1)
- Nokia N-Gage QD (Series 60 6.1)
- Nokia N70 (Series 60 8.1a)
- Nokia N90 (Series 60 8.1a)
- Nokia N91 (Series 60 9.1)
- Panasonic X700 (Series 60)
- Panasonic X800 (Series 60)
- Sendo X (Series 60)
- Sendo X2 (Series 60)
- Siemens SX1 (Series 60)
- Sony Ericsson P800 (UIQ) / Sony Ericsson P802 (UIQ)
- Sony Ericsson P900 (UIQ) / Sony Ericsson P908 (UIQ)
- Sony Ericsson P910 (UIQ)
- Sony Ericsson P910i (UIQ)

Ulkoiset linkit

[http://www.symbian.com/technology/technology.html Symbian OS sivut] Luokka:Käyttöjärjestelmät Luokka:Langaton viestintä ja:Symbian OS

ASCII

ASCII (American Standard Code for Information Interchange) on tietokoneiden merkistö, joka sisältää englannin kielen kirjaimet, numerot, joukon välimerkkejä ja joitakin ohjauskoodeja. Lähes kaikki nykyisin yleisessä käytössä olevat tietokoneiden merkistöt ovat ASCII-yhteensopivia eli niiden 128 ensimmäistä merkkiä ovat samat kuin ASCIIssa.

Historiaa

ASCII kehitettiin 1960-luvulla paperille tulostavien kaukokirjoitinlaitteiden ja tietokonepäätteiden merkistöksi ja ohjauskoodistoksi. Aikaisemmat laitteet käyttivät yleensä 5-bittistä Baudot-koodia. ASCIIn kehitti Bob Bemer. Tietokoneiden ja tietotekniikan kehitys on tapahtunut valtaosin Yhdysvalloissa, joten merkkivalinnat on tehty sen mukaan. Tämä on aiheuttanut jatkuvia ongelmia ei-englanninkielisen tekstin käsittelyssä: esimerkiksi suomen kielen aakkoset A-Z löytyvät kaikista ASCII-merkistön muunnoksista ja näkyvät siis käytännössä aina oikein, mutta niin kutsutut skandit (Å, Ä, Ö) aiheuttavat yllättävän usein yhteensopivuusongelmia vielä nykyäänkin.

US-ASCII

Ensimmäinen ASCII-määritys julkaistiin vuonna 1968 ANSI X3.4 -standardina. ASCIIsta tuli ISO-standardi vuonna 1972. Alkuperäisessä ISO-646-IRV (international reference version) standardissa dollarin merkin ($) tilalla oli valuuttamerkki (¤). Vuonna 1991 uudistettu versio palasi kuitenkin vallitsevaan käytäntöön ja ISO-646-IRV vastaa nykyään yhdysvaltalaista versiota ISO-646-US eli US-ASCII. ASCII-merkistö on otettu myös Unicode-merkistön pohjaksi ja se muodostaa Unicoden ensimmäisen, Latinalainen perusosa -nimisen lohkon. ASCII-merkistö määrittelee ensimmäiset 128 merkkiä. Tähän kuuluvat amerikanenglannin isot- ja pienet kirjaimet A–Z, numerot ja joukko sekalaisia erikoismerkkejä (!"#$%&'<>=?.,:;@\^_`) . Merkistön alkupäästä on osa varattu erilaisille kontrollikoodeille, joten merkkejä mahtuu merkistöön alle sata erilaista. US-ASCII ei sisällä skandinaavisia, eikä muitakaan euroopan kielissä tarvittavia merkkejä. Euroopan maissa kansalliset merkit saatiin käyttöön korvaamalla osa erikoismerkeistä muilla merkeillä. Tällaiset merkistöt olivat yleisiä vielä pääteaikakaudella (1980-luku). Toteutus on kömpelö, etenkin kun päätettä käytettiin ohjelmointiin, jolloin on usein tehtävä valinta skandinaavisten merkkien ja välttämättömien hakasulkujen välillä. Suomalainen versio merkistöstä (ISO-646-SF) korvasi merkit [\]^ merkeillä ÄÖÅÜ ja ~ merkeillä äöåü. @ korvattiin é:llä. Tämä standardi tunnetaan myös suomalaisella nimellä SF-2.

ASCII-merkistön merkit

| 00 nul| 01 soh| 02 stx| 03 etx| 04 eot| 05 enq| 06 ack| 07 bel| | 08 bs | 09 ht | 0a nl | 0b vt | 0c np | 0d cr | 0e so | 0f si | | 10 dle| 11 dc1| 12 dc2| 13 dc3| 14 dc4| 15 nak| 16 syn| 17 etb| | 18 can| 19 em | 1a sub| 1b esc| 1c fs | 1d gs | 1e rs | 1f us | | 20 sp | 21 ! | 22 " | 23 # | 24 $ | 25 % | 26 & | 27 ' | | 28 ( | 29 ) | 2a
- | 2b + | 2c , | 2d - | 2e . | 2f / | | 30 0 | 31 1 | 32 2 | 33 3 | 34 4 | 35 5 | 36 6 | 37 7 | | 38 8 | 39 9 | 3a : | 3b ; | 3c < | 3d = | 3e > | 3f ? | | 40 @ | 41 A | 42 B | 43 C | 44 D | 45 E | 46 F | 47 G | | 48 H | 49 I | 4a J | 4b K | 4c L | 4d M | 4e N | 4f O | | 50 P | 51 Q | 52 R | 53 S | 54 T | 55 U | 56 V | 57 W | | 58 X | 59 Y | 5a Z | 5b [ | 5c \ | 5d ] | 5e ^ | 5f _ | | 60 ` | 61 a | 62 b | 63 c | 64 d | 65 e | 66 f | 67 g | | 68 h | 69 i | 6a j | 6b k | 6c l | 6d m | 6e n | 6f o | | 70 p | 71 q | 72 r | 73 s | 74 t | 75 u | 76 v | 77 w | | 78 x | 79 y | 7a z | 7b | 7e ~ | 7f del|

ASCII-merkistön laajennukset

Latinalaisen merkistön täydennys Latin-1:ksi:
| a0 nbs| a1  ¡ | a2  ¢ | a3  £ | a4  ¤ | a5  ¥ | a6  ¦ | a7  § |
| a8  ¨ | a9  © | aa  ª | ab  « | ac  ¬ | ad  ­  | ae  ® | af  ¯ |
| b0  ° | b1  ± | b2  ² | b3  ³ | b4  ´ | b5  µ | b6  ¶ | b7  · |
| b8  ¸ | b9  ¹ | ba  º | bb  » | bc  ¼ | bd  ½ | be  ¾ | bf  ¿ |
| c0  À | c1  Á | c2  Â | c3  Ã | c4  Ä | c5  Å | c6  Æ | c7  Ç |
| c8  È | c9  É | ca  Ê | cb  Ë | cc  Ì | cd  Í | ce  Î | cf  Ï |
| d0  Ð | d1  Ñ | d2  Ò | d3  Ó | d4  Ô | d5  Õ | d6  Ö | d7  × |
| d8  Ø | d9  Ù | da  Ú | db  Û | dc  Ü | dd  Ý | de  Þ | df  ß |
| e0  à | e1  á | e2  â | e3  ã | e4  ä | e5  å | e6  æ | e7  ç |
| e8  è | e9  é | ea  ê | eb  ë | ec  ì | ed  í | ee  î | ef  ï |
| f0  ð | f1  ñ | f2  ò | f3  ó | f4  ô | f5  õ | f6  ö | f7  ÷ |
| f8  ø | f9  ù | fa  ú | fb  û | fc  ü | fd  ý | fe  þ | ff  ÿ | 
Joskus kuulee puhuttavan "8-bittisestä ASCII-merkistöstä" tai "high-ASCIIsta". Tämä on kuitenkin virheellistä, sillä historiallisesti on ollut käytössä useita keskenään yhteensopimattomia ASCII-laajennuksia. Esimerkiksi MS-DOSin käyttämät merkistöt poikkeavat laajennusmerkkien osalta täysin Windowsin merkistöistä, jotka perustuvat ISO 8859:ään.

Lisätietoja

Lisätietoja erilaisista merkistöistä löytyy osoitteesta http://www.cs.tut.fi/~jkorpela/merkit/ Luokka:tietotekniikka Luokka:ISO als:ASCII ms:ASCII zh-min-nan:ASCII ko:ASCII ja:American Standard Code for Information Interchange

Windows XP

Windows XP (koodinimi Whistler) on työasemakäyttöjärjestelmä Microsoftilta. Windows XP kuuluu Microsoftin Windows-käyttöjärjestelmäperheeseen ja on suoraa jatkoa Windows NT -tuoteperheelle (Windows XP on itse asiassa NT 5.1). Kirjaimet "XP" tulevat sanasta eXPerience. Windows XP julkaistiin 25. lokakuuta 2001. Windows XP:stä on olemassa kaksi tavallisesti saatavaa versiota: Home Edition ja Professional Edition. Home Edition on tarkoitettu kotikäyttäjille, ja Professional Edition tarjoaa liike-elämälle lisäominaisuuksia. Professional-version lisäominaisuuksiin kuuluvat esimerkiksi tuki toimialueille ja monelle prosessorille. Windows XP:stä on olemassa myös muita vähemmän käytössä olevia versioita. Windows XP Starter Edition on tarkoitettu pääasiassa köyhiin maihin, ja sen toimivuutta on rajoitettu tehokkaissa koneissa. Windows XP Media Center Edition on tarkoitettu myytäväksi vain erityisten media-PC -tietokoneiden kanssa, ja siinä on laajennettu tuki TV -käyttöä varten. Windows XP Tablet PC Edition on tarkoitettu käytettäväksi näppäimistömättömillä tablet-PC -laitteilla. Windows XP Embedded on tarkoitettu sulautetuille PC -pohjaisille laitteille. Windows XP Professional x64 Edition on oma versionsa tietokoneille joissa on 64-bittinen suoritin. Windows XP poikkeaa rakenteeltaan aikaisemmasta 9x/ME -sarjasta. Sen ydin pohjautuu Windows NT:n arkkitehtuuriin ja on aidosti 32-bittinen, minkä ansiosta käyttöjärjestelmän vakaus on kasvanut edeltäjiin verrattuna suuresti. Myös käyttöliittymää on pyritty tekemään käyttäjäystävällisemmäksi edeltäjiin verrattuna. Windows XP:stä on julkaistu kaksi erillistä päivitysversiota (Service Pack Version). Service Pack 1 julkaistiin vuonna 2002 ja Service Pack 2 vuonna 2004. Service Pack 2 toi uudistuksena parannettua tietoturvaa Windowsiin. Se laajensi sisäänrakennetun palomuurin ominaisuuksia sekä lisäsi tuen uusimpien suorittimien sisältämälle NX-bitille, jolla pyritään estämään mahdollisten puskuriylivuotojen aiheuttamat vahingot järjestelmälle. Verkkoyhteyksissä tarvittavaa TCP/IP-pinoa rajoitettiin päivityksen yhteydessä sallimaan vain tietty määrä ulospäin suuntautuvia yhteyksiä sekunnissa. Tällä pyritään estämään haittaohjelmien saastuttaman koneen aiheuttamaa häiriötä muulle verkolle. Vuonna 2005 on julkaistu Windows XP Media Center Edition 2005, jolla päivitetään aiemmat MCE 2003 ja 2004 julkaisut. Vuonna 2005 ilmestynyt Windows XP:n 64-bittinen versio, Windows XP 64-bit Edition.

Linkki


- [http://www.microsoft.com/finland/products/windowsxp/ Microsoft Windows XP] - käyttöjärjestelmän suomenkielinen kotisivu
- [http://www.levenez.com/windows/history.html Havainnollinen kaaviokuva Windowsin kehityskaaresta] zh-min-nan:Windows XP ja:Microsoft Windows XP

Luokka:Merkistöt

Merkistöjä käsitteleviä artikkeleja. Luokka:Tietotekniikka ja:Category:文字コード

alkomaty accommodation in valencia Pozycjonowanie gastronomia zycie










































:: RELATED NEWS ::
Alfa Centauri
Alfa Centauri reprezintă principalul sistem stelar (Stele triple) al constelaţiei Centauri. Cea mai apropiată stea de sistemul nostru solar este Proxima Centauri, una din cele trei stele ale Alfa Centauri, şi care se afla la 4,22 Read More...

Mariana Codruţ
Mariana Codrut (n. 1956, Iasi).

Studii

A absolvit Facultatea de Filologie (sectia romana-franceza) de la Universitatea „Al.I. Cuza” din Iasi. A ocupat functiile de corector, profesor, secretar literar, redactor la revistele Convorbiri literare si Sud-Est. In prezent, este redactor la Editura Universitatii „Al.I. Cuza” din Iasi. Este membra a Uniunii Scriitorilor din Romania si a PEN - Club international.

Volume publicate

Poezie

Macesul din magazia de lemne (poezie, 1982), Schita de autoportret (poezie, 1986), Tabieturile noptii de vara (poezie, 1989

Julio Cortazar
Julio Cortazar (1914-1984), romancier argentinian, unul dintre cei mai importanti autori ai scolii realismului magic sud-americani. Debuteaza in 1938 cu volumul de poeme „Prezente”.

Volume de povestiri

Bestiario(1951), Sfirsitul jocului” (1956), Armele secrete (1959), Povesti cu cronopi si glorii (
Leonard Cohen
Leonard Cohen (n. Montreal în 1934) este un poet, cantautor, şi romancier canadian.

Biografie

Şi-a făcut studiile la universităţile McGill şi Columbia. A debutat în 1956 cu volumul de versuri „Să comparăm mitologii” dar faima i-a adus-o cel de-al doilea ciclu, The Spice Box of Earth (Cutia cu mirodenii a planetei). Cohen a călătorit prin Europa şi s-a stabilit în insula grecească Hydra, unde a locuit timp de 7 ani alături de soţia
All Rights Reserved 2005 wikimiki.org