താളിയോലകള്‍ക്ക്‌ സംഭവിച്ചത്‌...

...സോളമന്റെ ജ്ഞാനം ശ്രവിക്കാന്‍ അവള്‍ ഭൂമിയുടെ അതിര്‍ത്തിയില്‍ നിന്നും വന്നു; ഇതാ ഇവിടെ സോളമനേക്കാള്‍ വലിയവന്‍ (ബൈബിള്‍: മത്തായി: 12:42)  

യുണീക്കോഡ്

കയ്യുകൊണ്ട്‌ എഴുതുകയും കണ്ണുകൊണ്ട്‌ നോക്കി വായിക്കുകയും ചെയ്തിരുന്ന മനുഷ്യരായിരുന്നു നമ്മള്‍ ഇതുവരെ. കമ്പ്യൂട്ടറിന്റെ ആഗമനത്തോടെ നമ്മളുടെ ഭാഷ ഉപയോഗിക്കുന്ന വിദ്യകളില്‍ വലിയ ഒരു ശാസ്ത്ര ശാഖ തന്നെ തുറന്നു. ഇതിന്റെ പേരാണ്‌ ലാംഗ്വേജ്‌ ടെക്നോളജി അഥവാ ഭാഷാ ശാസ്ത്രസാങ്കേതികവിദ്യ. ഈ വിദ്യ ഒരു ശാഖയായി വളരാന്‍ പല കാരണങ്ങളുമുണ്ട്‌. പ്രധാനം ഇവിടെ ഭാഷ ഉപയോഗിക്കുന്നത്‌ മനുഷ്യനല്ല ഒരു യന്ത്രമാണ്‌ എന്നു തന്നെയാണ്‌. യന്ത്രങ്ങള്‍ക്ക്‌ മനുഷ്യന്റെ വിവേചന ബുദ്ധിയില്ലാത്തതിനാല്‍, യന്ത്രങ്ങള്‍ക്ക്‌ മനസ്സിലാകുന്ന മാതൃകയില്‍ ഭാഷ ഉപയോഗിക്കാന്‍ തക്കവണ്ണമുള്ള സൂത്രങ്ങള്‍ പുതുതായി കണ്ടുപിടിക്കേണ്ടിവന്നു. മനുഷ്യന്റെ സംസാരഭാഷയും കയ്യെഴുത്തും കമ്പ്യൂട്ടറിന്‌ മനസ്സിലാക്കിക്കൊടുക്കാന്‍ ഈ ശാസ്ത്രശാഖ ഇന്നു വളര്‍ന്നു കഴിഞ്ഞു. ഇത്തരുണത്തില്‍ ഈ ശാസ്ത്രശാഖയ്ക്ക്‌ വളരാന്‍ അനവധി കടമ്പകള്‍ കടക്കേണ്ടിവന്നു. ലോകത്തെ വിവിധഭാഷകളെ തിരിച്ചറിയുക അവയുടെ വൈവിധ്യമാര്‍ന്ന ലിപികള്‍ തിരിച്ചറിയുക മാത്രമല്ല ഉച്ചാരണത്തിലെ വൈവിധ്യങ്ങള്‍ അറിയുക എന്നിവയെല്ലാം വളരെ വിഷമം പിടിച്ച കടമ്പകളായിരുന്നു. ഭാഷാശാസ്ത്രഞ്ജരുടേയും കമ്പ്യൂട്ടര്‍ വിദഗ്ദ്ധരുടേയും ഒത്തൊരുമിച്ചുള്ള പ്രവര്‍ത്തനങ്ങള്‍ കാരണം ഇവയെല്ലാം ഒരു പരിധിവരെ ഇന്ന്‌ അതിജീവിച്ചിട്ടുണ്ട്‌.ഇക്കാരണത്താല്‍ തന്നെ ഇംഗ്ലീഷ്‌ മാതൃഭാഷയായിരുന്ന കമ്പ്യൂട്ടര്‍ ഇപ്പോള്‍ ലോകത്തില്‍ ഇന്നുപയോഗിക്കുന്ന മിക്കവാറും എല്ലാ ഭാഷകളിലും വിവരസംവേദനം നടത്തുന്നുണ്ട്‌. ഭാഷാസങ്കേതികവിദ്യ എന്നത്‌ ഭാഷാശാസ്ത്രത്തിന്റേയും കമ്പ്യൂട്ടര്‍ വിവരസാങ്കേതികവിദ്യയേയും ബന്ധിപ്പിക്കുന്ന ഒരു പുതിയ ശാസ്ത്ര ശാഖയായി ഇന്ന്‌ വളര്‍ന്ന്‌ കഴിഞ്ഞു.

ബിറ്റും ബൈറ്റും എന്നീ രണ്ട്‌ പദങ്ങള്‍ വിവരസാങ്കേതികവിദ്യയില്‍ വളരെ അടിസ്ഥനപരമായവയാണ്‌. ബിറ്റ്‌ എന്നത്‌ അടിസ്ഥാനപരമായി രണ്ട്‌ അവസ്ഥകളില്‍ ഒന്നാണ്‌. അതായത്‌ ഒരു ചോദ്യത്തിനുത്തരം ശരിയോ തെറ്റോ എന്നുചോദിച്ചാല്‍, ഒന്നുകില്‍ ശരി അല്ലെങ്കില്‍ തെറ്റ്‌ എന്നീ രണ്ട്‌ ഉത്തരങ്ങള്‍ മാത്രമേ അനുവദനീയമായുള്ളൂ എങ്കില്‍ ശരി എന്നതിനെയും തെറ്റ്‌ എന്നതിനേയും ഒരോ ബിറ്റുകൊണ്ട്‌ പ്രതിനിധാനം ചെയ്യാവുന്നതാണ്‌. അല്ലെങ്കില്‍ ശൂന്യതയും ശൂന്യമല്ലാത്ത (0,1)അവസ്ഥയേയും പ്രതിനിധാനം ചെയ്യുന്നതായും കണക്കാക്കാം. കമ്പ്യൂട്ടരിന്റെ ഭാഷയില്‍ അടിസ്ഥാനപരമായി ഇപ്പറഞ്ഞ പൂജ്യങ്ങളും ഒന്നുകളും മാത്രമേയുള്ളൂ. ഒരോ പൂജ്യവും ഒന്നുകളും ഒരോ ബിറ്റുകള്‍ ആയി കണക്കാക്കുന്നു. അങ്ങനെ എട്ടെണ്ണം കൂടിയാല്‍ ഒരു ബൈറ്റായി. ഇത്‌ "കിലോ","മീറ്റര്‍" തുടങ്ങി ഭാരത്തിനെയും ദൂരത്തിനെയും അളക്കാനുപയോഗിക്കുന്ന മാനദണ്ഡത്തിന്‌ സമാനമാണ്‌. ഒരു കിലോ ബൈറ്റെന്നുപറഞ്ഞാല്‍ ഏകദേശം ആയിരം ബൈറ്റായി കണക്കാക്കാം. കൃത്യമായി പറഞ്ഞാല്‍ 1024 ബൈറ്റ്‌സ്‌ ആയിരിക്കും ഒരു കിലോ ബൈറ്റ്‌. അങ്ങനെ മെഗാ, ഗിഗാ,ടെറാ ബൈറ്റുകള്‍ ആയി മുകളിലേക്ക്‌ കണക്കാക്കി പോകാം. ഇങ്ങനെ പൂജ്യങ്ങളും ഒന്നുകളും മാത്രം അടിസ്ഥനമ്മാക്കിയുള്ള സംഖ്യാക്രമത്തെ ബൈനറി നമ്പറിംഗ്‌ സിസ്റ്റം എന്നു പറയുന്നു. ഒന്നില്‍കൂടുതല്‍ ഉള്ള സഖ്യകളെ പ്രതിനിധാനം ചെയ്യുന്നത്‌ പൂജ്യങ്ങളെയും ഒന്നുകളെയും സംയോജിപ്പിച്ചുകൊണ്ടാണ്‌. എല്ലാം രണ്ടിനെ ഗുണിതങ്ങളായിരിക്കും.

ആദ്യകാലങ്ങളില്‍ കമ്പ്യൂട്ടരുകള്‍ ഇങ്ങനെ 8 ബിറ്റുകളെ ഒരു ഗ്രൂപ്പാക്കിയായിരുന്നു ആശയവിനിമയം നടത്തിയിരുന്നത്‌. ഇപ്പോളത്‌ 64 ബിറ്റുകളെ ഗ്രൂപ്പാക്കി തിരിച്ക്‌ സംവേദനം നടത്തുന്ന സ്ഥിതിയിലായിട്ടുണ്ട്‌. എട്ടുബിറ്റുകളുടെ ഒരു കൂട്ടത്തെ ഒരു ബൈറ്റെന്നുവിളിക്കാം. ഇതുപ്രകാരമുള്ള സംയോജനവിധിയനുസരിച്ച്‌ 256 അക്കങ്ങളേയോ അക്ഷരങ്ങളേയോ വരെ പ്രതിനിധാനം ചെയ്യാം (ദയവായി ഇവിറ്റുത്തെ അവ്യക്തത ഒന്നുകൂടി വിശദീകരിച്ച്‌ മാറ്റുക)

ഇതുപ്രകാരം നാം സാധാരണൗപയോഗിക്കുന്ന ഒരു അക്ഷരമോ അക്കമോ ഒരു കൂട്ടം ഒന്നുകളുടെയും പൂജ്യങ്ങളുടെയും സംയോജിതമായി കമ്പ്യൂട്ടരില്‍ രേഖപ്പെടുത്തിയിരിക്കുന്നു. സാധരണഉപയോഗിക്കുന്ന ചോദ്യചിഹ്നം പോലെയുള്ള ചിഹ്നങ്ങളെയും ഇങ്ങനെ അടയാളപ്പെടുത്തുന്നു. ഒരു പ്രത്യേക ഉദ്ദേശത്തോടെ, പ്രത്യേകമായി മാറ്റിവച്ച അതായത്‌ കോഡീകരിച്ച അക്ഷരക്കൂട്ടത്തെ ഉപയോഗിച്ചുകൊണ്ട്‌ വേറൊരു തരത്തിലുള്ള അക്ഷരക്കൂട്ടത്തെ, കമ്പ്യൂട്ടരിന്റെ സ്വന്തം ഭാഷയിലേക്ക്‌ (പൂജ്യങ്ങളും ഒന്നുകളും മാത്രമുള്ള) തര്‍ജമ ചെയ്യാം. ഇത്തരത്തിലുള്ള വിവിധങ്ങളായ കോഡീകരണം കൊണ്ട്‌ ലോകത്തിലെ പലഭാഷകളേയും കമ്പ്യൂട്ടറിന്റെ സ്വന്തം ഭാഷയിലേക്ക്‌ തര്‍ജ്ജമ ചെയ്യാം. കോഡീകരണങ്ങള്‍ അനവധി തരത്തിലുണ്ട്‌. തര്‍ജമ ചെയ്യുന്ന സാങ്കേതികരീതിയെ മാപ്പിംഗ്‌ എന്നു പറയാം.

ലോകത്തിലിന്ന്‌ നിലവിലുള്ള എല്ലാ ഭാഷകള്‍ക്കും ബാധകമായ ഒരു പൊതുനിയമാവലിയിടെ അടിസ്ഥാനത്തില്‍ വിപുലപ്പെടുത്തിയതാണ്‌ യൂണിക്കോഡ്‌ എന്ന കോഡീകരണരീതി. പോതുവായ ഒരു രീതിയായതിനാല്‍ കമ്പ്യൂട്ടരിന്‌ ഇംഗ്ലീഷെന്നോ മലയാളമെന്നോ ഭേദമില്ലാത്ത അവസ്ഥയില്‍ ആശയവിനിമയം നടത്താന്‍ സാധ്യമായി. കാലിഫോര്‍ണിയയിലുള്ള യൂണിക്കോഡ്‌ കണ്‍സോര്‍ഷ്യം ആണ്‌ ഇത്തരത്തിലൂള്ള പൊതുനിയമാവലിക്ക്‌ മേല്‍നോട്ടം വഹിക്കുന്നത്‌. ഒരോരാജ്യത്തേയും പ്രതിന്ധാനം ചെയ്ത്‌ അതതുരാജ്യത്തെ ഗവണ്മെന്റുകള്‍ നിര്‍ദ്ദേശിക്കുന്ന ഒരു സ്ഥപനം ഈ കണ്‍ശോര്‍ഷ്യത്തിലെ അംഗമായിരിക്കും. അവര്‍ക്ക്‌ വോട്ടവകാശവുമുണ്ടായിരിക്കും. ഭാരതത്തെ പ്രതിനിധാനം ചെയ്യുന്നത്‌ കേന്ദ്ര വിവരസാങ്കേതികവകുപ്പാണ്‌.

ബ്യൂറൊ ഓഫ്‌ ഇന്ത്യന്‍ സ്റ്റാന്‍ഡേഡ്‌സ്‌ എന്ന കേന്ദ്രസര്‍ക്കാര്‍ സ്ഥപനം ഇന്ത്യന്‍ സ്റ്റാന്‍ഡാര്‍ഡ്‌ ഫോര്‍ ഇന്‍ഫൊര്‍മേഷന്‍ ഇന്റര്‍ചേഞ്ച്‌ എന്ന ഒരു കോഡീകരണ രീതി ആദ്യമായി ഇന്ത്യന്‍ ഭാഷകള്‍ക്കു മാത്രമായി കൊണ്ടുവന്നു. മുകളില്‍ പറഞ്ഞ്‌ 256 അക്ഷരഗണത്തിലെ അവസാന 128 അക്ഷരഗണമാണ്‌ ഈ കോഡീകരണരീതിയില്‍ ഇന്ത്യന്‍ ഭാഷകള്‍ക്കു വേണ്ടി ഉപയോഗിച്ചിട്ടുള്ളത്‌.
ഇന്ത്യയില്‍ പതിനഞ്ച്‌ ഔദ്യോഗിക ഭാഷകളുണ്ട്‌. പേര്‍ഷ്യന്‍-അറബി രീതിയില്‍ ലിപിയുള്ള ചുരുക്കം ചില ഭാഷകള്‍ ഒഴിച്ച്‌ മറ്റുള്ളവയേല്ലാം "ബ്രഹ്മി" സമ്പ്രദായത്തിലുള്ള ലിപി രീതിയാണ്‌ ഉപയോഗിക്കുന്നത്‌. അതുകൊണ്ടുതന്നെ ഒരു പൊതുരീതി ഇവയ്ക്കിടയിലുണ്ട്‌.

കയ്യെഴുത്തുഭാഷയില്‍ "അ" എന്ന അക്ഷരം ശബ്ദത്തിന്റെ പ്രതീകമാണ്‌. വിവരസാങ്കേതികഭാഷയില്‍ "അ" എന്ന അക്ഷരം ഒരു തരം ചിത്രത്തെ പ്രതിന്ധാനം ചെയ്യുന്നു. ഇത്തരത്തിലുള്ള ചിത്രങ്ങളെ "ഗ്ലിഫ്‌സ്‌" എന്ന്‌ പറയുന്നു. ഒരു ഗ്ലിഫ്‌ എന്നുപറയുന്നത്‌ ഒരു അക്ഷരത്തിന്റേയോ അടുത്തടുത്തുള്ള അക്ഷരകൂട്ടങ്ങളേയോ പ്രതീകവല്‍ക്കരിക്കുന്നു. അടുത്തടുത്തുള്ള അക്ഷരങ്ങളെ പതിനിധീകരിക്കാന്‍ അടിസ്ഥാനപരമായ ഗ്ലിഫ്ഫില്‍ ചെറിയ വ്യത്യാസങ്ങള്‍ മതിയാകും എന്നര്‍ഥം. ഗ്ലിഫിനേയും അക്ഷരങ്ങളെയും ഏകതനമായ മാപ്പിംഗ്‌ വിദ്യ ഉപയോഗിച്ച്‌ കമ്പ്യൂട്ടറില്‍ അടയാളപ്പെടുത്തുകയോ കമ്പ്യൂട്ടര്‍ ഭാഷയിലേക്ക്‌ തര്‍ജ്ജമ ചെയ്യുകയോ ആകാം. പല ഭാഷാലിപികളിലും ഒരക്ഷരത്തിന്റെ ചിത്രരൂപം മറ്റു പല അക്ഷരങ്ങളേയും കൂട്ടിയുണ്ടാക്കാവുന്നതാണ്‌. അതിനാല്‍ ഒരക്ഷരത്തിന്‌ ഒരു ഗ്ലിഫ്ഫോ പല ഗ്ലിഫ്ഫുകളുടെ കൂട്ടമോ ആകാം. ഇത്‌ തിരിച്ച്‌ ഒരു ഗ്ലിഫ്ഫുകൊണ്ട്‌ പല അക്ഷരങ്ങളേയും പ്രതീകവല്‍ക്കരിക്കുകയും ആകാം. എഴുത്തുഭാഷയില്‍ "ല്ല" എന്നും "ല്‌ല" എന്നും എഴുതുന്നുണ്ട്‌. എങ്കിലും അതിനെല്ലാം ഒരേ രീതിയാണുപയോഗിക്കുന്നത്‌. ഈ ഏകരീതിയാണ്‌ യുണിക്കോഡില്‍ കോഡീകരിച്ച്‌ ഉപയോഗിക്കുന്നത്‌.

യൂണിക്കോഡില്‍ 16 ബിറ്റ്‌ രീതിയുപയോഗിച്ച്‌ 65536 അക്ഷരങ്ങളെ പ്രതീകവല്‍ക്കരിക്കുന്നു. ഇപ്പോളത്‌ കൂടുതല്‍ വിപുലീകരിച്ച്‌ ഏകദേശം പത്തുലക്ഷത്തോളം അക്ഷരങ്ങളെയും അക്കങ്ങളെയും ചിഹ്നങ്ങളേയും പ്രതീകവല്‍ക്കരിക്കാന്‍ തക്ക പ്രാപ്തി നേടിയിട്ടുണ്ട്‌.
Comments: Post a Comment

Links to this post:

Create a Link



<< Home

This page is powered by Blogger. Isn't yours?