Monday, January 17, 2011

Unicode гэж юу вэ?

Юникод /Unicode/ гэдэг нь дэлхий дээрх бүх үсэг, тэмдэгт болон тэмдэглэгээг 16 битийн тоон кодоор дүрсэлсэн дүрслэл юм. "Uni" гэдэг нь <<нэг>>, "code" гэдэг нь <<код>> л гэсэн үг ба утгачилбал "нэгдсэн тэмдэглэгээ" гэж бууна. Анх тооцоолуур нь 127 тэмдэгт дүрслэх боломжтой буюу ASCII хэмээн алдаршсан 7 битийн дүрслэлтэйгээр зохиогдсон ба хожим 8 бит болгон өргөтгөгдөн 127-255 хүртэлх зайнд удирдах тэмдэгтүүд ба исо стандартын (ISO Latin-1) тэмдэгтийн олонлогуудыг байрлуулсан.
Тэмдэгтийн стандартуудын тухай энгийн тайлбарыг en.wikipedia.org/wiki/ISO_8859-1/ хуудсаас уншиж болно. Ингээд кодчилолын тусламжтай 192-224 байрлалд янз бүрийн улсын олон янзын тэмдэгтүүдийг кодлон дүрслэх болсон. Гэтэл энэ нь олон улсын өгөгдлийн солилцоонд тун бэрхшээлтэй зүйл болж мэдээллийн солилцоог ч удаашруулах нөхцөл болсон. Эдгээр асуудлыг шийдэж олон янзын кодчилолуудыг халж юникод хэмээх стандарт үүсчээ. Үүнийг ЮНИКОД консерциумаар 1991 оноос эхлэн хөгжүүлж ирсэн. Юникод консерциум анх өнөөг хүртэл мэдэгдэж байгаа тэмдэглэгээнүүдийн тоо нь 16 битийн бүхэл тоонд багтана гэж үзээд нийт 2-н 16 зэрэг буюу 65536 ширхэг тэмдэглэх боломжтойгоор гаргасан. Эхний 256 код нь үндсэн латин үсэг болон тэмдэгтүүдийг үлдсэн хэсэг нь бусад олон улсын тэмдэглэгээ манай кирилл болон монгол бичгийн тэмдэгтүүдийг дүрслэнэ. Гэтэл удалгүй 16 бит нь дэлхийн бүх тэмдэглэгээг тэмдэглэхэд хүрэлцэхгүй болж ахин 16 битийн муж нэмсэн ба тэр муж түвшин буюу англиар Plane нэмээн нэрлэгдэх болсон. Ингээд юникод 2.0 гэж шинэчилэгдсэн хувилбар гарсан. Илүү өргөн мэдэхийг хүсвэл UNICODE.ORG руу орж уншиж болно. Гэтэл бас өөр нэг стандарт болох ISO 10646 стандарт гэж байдаг. Азаар энэ 2-с өөр давхар байтын кодчилолын стандарт байхгүй. Энэ нь дэлхий дээрхи бүх тэмдэгт болон тэмдэглэгээний 16 битийн код(16 бит дүрслэл) юм. Үүнийг ЮНИКОД консерциумаар 1991 оноос хөгжүүлж ирсэн. Өнөөг хүртэл мэдэгдэж байгаа кодууд нь 16 битийн бүхэл тоонд багтана гэж үзэж байсан ба gЭхний 256 код нь Латин-1 -ын тэмдэгтүүдийг дүрслэнэ. Нийт 2-н 16 зэрэг буюу 65536 тэмдэгт дүрслэх боломжтойгоос одоогоор 49000-д хүрээд байгаагын 21000 нь хятад ханзанд хэрэглэгддэг. 16 битийн эхний 8 бит хэлийг сүүлийн 8 бит кодыг илтгэдэг.

Эх материал: http://badaa.mngl.net/mn/docs.php?p=what_unicode

No comments:

Post a Comment