ҚАЗАҚ ЖАЗУЫН ЛАТЫН ӘЛІПБИІНЕ КӨШІРУГЕ ҰСЫНЫС
Классикалық латын әліпбиі 26 әріптен тұрады: Аa, Bb, Cc, Dd, Ee, Ff, Gg, Hh, Ii, Jj, Kk, Ll, Mm, Nn, Oo, Pp, Qq, Rr, Ss,Tt, Uu,Vv,Ww, Xx,Yy, Zz. Ол роман, герман және басқа тілдердердің жазбаларының негізі.
Кейбір тілде белгілеуге сәйкес латын әріптері жоқ дыбыстарды белгілеу үшін латын әліпбиі кеңейтіледі. Кеңейтудің мынадай әдістері бар:
— әліпбиге жаңа әріптер қосу, мысалы, ŋ, ç, ş;
— диакритикаларды қосу, мысалы, á, ä, ğ;
— теріс диакритиканы қолдану, мысалы, ı — нүктесіз i;
— бір дыбысты белгілеу үшін бірнеше әріп қолдану, мысалы, ш дыбысы sh немесе sch арқылы белгіленеді;
— бір дыбысты белгілеу үшін бірнеше әріп және диакритикалық белгі қолдану, мысалы, x үшін c'h;
— әліпбидегі жеке әріптердің мәндерін өзгерту, мысалы, x әріпі
1) португал тілінде ш дыбысын белгілейді;
2) поляк тілінде ы дыбысын белгілейді.
Енді қазақ тілінің жазбасын осы әдістердің бірін пайдаланып латын әліпбиіне көшіруді талқыламас бұрын, осындай көшуді жүргізген түркі тілдес елдердің (Түркия, Түркменстан, Өзбекстан, Әзірбайжан) тәжірибелерін қарастырайық:
1928 жылы қабылданған түрік тілінің әліпбиі 29 әріптен тұрады, олардың ішінде классикалық латын әліпбиінен тыс 6 әріп ğ, ü, ş, ı, ö, ç бар;
1990-шы жылдары бірнеше рет өзгерген туркмен тілінің әліпбиі 30 әріптен тұрады, олардың ішінде классикалық латын әліпбиінен тыс 8 әріп ç, ä, ž, ň, ö, ş, ü, ẏ бар;
1993 жылы қабылданған өзбек тілінің әліпбиі классикалық латын әліпбиінен тыс 6 әріп ç, ş, ğ, ö, ñ, ɉ қамтыды, ал 1995 жылы оларды әліпбиден алып тастап, орфографиялық ережелерді қайта жазды: аталған әріптер ch, sh, g’, o’, ng және j-ға сәйкес ауыстырылды, мұндағы ’ – аксант эгю (апостроф) таңба алдында ‘ түрінде, ал таңба соңында ’ түрінде жазылады, мысалы, ‘alphabet – алфавит’;
2004 жылы қабылданған әзірбайжан тілінің әліпбиі 32 әріптен тұрады, онда классикалық латын әліпбиінен тыс 13 әріп ä, ö, ө, ç, ñ, ň, ſ, ü, ž, ş, ə, ẏ, ӱ бар.
Қазақ тілінің мемлекеттік тіл статусына сәйкес елімізде жасалынып жатқан электрондық ақпараттық ресурстар қазақ тілінде болғаны жөн. Ақпараттық ресурстарды жасау көп қаржы мен жұмысты талап ететін үдеріс болғандықтан, оларды барлық компьютердің пернетақталарында бар 26 әріптік классикалық латын әліпбиінде жасаған тиімді. Себебі, оларды басқа ұлттық әліпбиде жасау үшін қосымша қаржысыз әзірленбейтін шрифтер, драйверлер және сұрыптау мен іздеу программаларын қолдану қажет.
Қазақ тілінің 28 төл дыбысы бар, оның ішінде 9 дауысты және 19 дауыссыз. 1929 жылғы реформа кезінде дауыссыз «хы» дыбысы қосылып, жалпы дыбыстар саны 29 болды. Олар қолданыстағы әліпбиде былай таңбаланады: а, ә, е, о, ө, ұ, ү, ы, і ̶ дауыстылар; б, ғ, г, д, ж, з, й, қ, к, л, м, н, ң, п, р, с, т, у, ш, һ ̶ дауыссыздар (мұнда а, о, ұ, ы, е – фонемалар, ал ә, ө, ү, і – олардың алафондары және ғ-г мен қ-к ̶ бір дыбысқа біріккен бір фонеманың үндесім түрлері). Ал 1940 жылғы реформа кезінде орыс тілінен 11 дыбыс енген, олар орыс қолданыстағы әліпбиде в, ё, и, ц, ч, щ, ф, х, э, ю, я деп белгіленеді. Кейінгілердің ішінде қазақ тілінің фонологиялық заңдарын бүлдірмейтін в, х және ф дыбыстарына тоқталайық. Оның біріншісі адамдардың тегін (фамилиясын) жазуда кеңінен қолданып кеткен. Сонымен қатар, қазақ тіліне аударылмай етене еніп кеткен «валюта, вакуум, вакцина, вариант, вектор, вексель, викторина, вирус, виртуал, вице, вокал», «хаки, хаос, химия, хлор, хроника, хром, хрусталь» және «факт, факультет, фаза, файл, фауна, федерация, фельетон, физика, филармония, фильм, фонетика, формула, фракция, функция» сияқты көптеген термин сөздердің маңыздылығын ескеріп, кірме в, х және ф дыбыстарын қазақ дыбыстарының қатарында қалдыруға болады деген ой келеді. Бұдан қазақ тілі зиян шекпейді, қайта ол халықаралық терминдердің дұрыс оқылуына көмектеседі. Яғни, қазақ тілінде 31 дыбыс болады, олар: а, ә, б, в, ғ, г, д, ж, з, е, й, к, қ, л, м, н, ң, о, ө, п, р, с, т, у, ұ, ү, ф, х, ш, ы, і.
Осы айтылғандарды ескеріп, қазақ әліпбиінің латын графикасына көшірудің мынадай қағидаларын ұсынуға болады:
1. Жаңа әліпби тек қана қазақ тілінің дыбыстық жүйесіне негізделіп жасалуы керек, яғни, қазақ тілінің заңдылықтарына қайшылық тудыратын орыс тілінен енген кейбір дыбыстарды алып тастау қажет. Сондықтан, ең алдымен қазақ тілінің офографиясын тек қана қазақ дыбыстары негізінде қайта жасап, орфографиялық сөздік шығару қажет.
2. Қазақ тілі дыбыстарын классикалық латын әліпбиі қамтылған пернетақтадағы таңбалармен ғана белгілеу керек. Бұл компьютер және телекоммуникациялық құралдар арқылы қазақ тілінде ешқандай кедергісіз жазбаша қатынасуға мүмкіндік береді. Себебі олардың кейбірінде классикалық латын әліпбиінен тыс әріпі бар ұлттық тілдерді қолдауға мүмкіндік беретін қажетті пернетақта және шрифтер мен драйверлерді орнатуға мүмкіндік жоқ.
3. Қазақ тілі дыбыстар белгілерінің орналасу реті классикалық латын әріптерінің кодтауымен сәйкес және болуы қажет. Бұл қазақ тілін компьютер арқылы тиімді өңдеу мен дамытуға кең мүмкіншілік береді. Себебі, ұлттық әліпбилерді пайдаланып жасалынған ақпараттық ресурстар тек қажетті қаріптер мен драйверлерді ғана емес, оларға қоса, әліпбидегі әріптердің ретіне негізделіп құрылған барлық ақпараттық технологияларда қолданылатын сұрыптау (реттеу) және іздеу программаларын да талап етеді. Ал оларды жеке ұлттық тілге арнап жасау және мыңдап тарап жатқан ақпараттық технологияларда орнату тым қымбат. Сонымен қатар, оларды үзілмей шығып жатқан жаңа ақпараттық технологияларға да бағыттап жасау керек, яғни, осы мәселелермен тұрақты айналасу қажет.
Енді осы қағидаларға сәйкес қазақ тілінің дыбыстарын классикалық латын әріптерімен белгілеуін қарастырайық. Бізге берілгені классикалық латын әліпбиінде 26 әріп бар, ал қазақ тіліндегі дыбыс саны одан көп: төл дыбыстар саны 28, қосатын дыбыстар саны 3. Сондықтан біз мынадай 3 есепті шешуіміз керек:
1) Жалғыз әріппен ғана белгіленетін дыбыстарды анықтау.
2) Әріп пен арнаулы таңба тіркесімен белгіленетін дыбыстарды анықтау.
3) Көмекші таңбаны анықтау.
Осы есептерді шешу үшін біз компьютер арқылы қазақтың дыбыстық жүйесіндегі дыбыстардың түрлері мен қасиеттерін талқыладық және құрамында қолданыстағы әліпбидің 100 миллион әріптері бар қазақ мәтініндер жинағындағы әріптердің кездесу жиілігі анықтадық. Бұл ұсынылатын әліпбиде қазақ тілінің қай дыбысын қай әріппен және қай дыбысты қай әріпке қандай таңбаны тіркеу арқылы тиімді (сөздің жазуын ұзартпайтындай) етіп белгілеуді анықтауға қажет.
Қазақтың а, о, е, ұ, ү дауысты дыбыстарын мына Aa, Oo, Ee, Vv, Uu, 5 әріппен белгілейміз, ал қазақтың б, г, ғ д, з, ж, й, к, қ, л, м, н, ң, п, р, с, т, у, ш дауыссыз дыбыстарын мына Bb, Gg, Ff, Dd, Zz, Xx, Yy, Kk, Qq, Ll, Mm, Nn, Hh, Pp, Rr, Ss, Tt, Ww, Сс 19 әріппен белгілейміз. Мұнда бір фонеманың үндесім жұптары г, ғ және к, қ дыбыстарының әрқайсысын жеке әріппен белгілеген жөн, себебі олардың кездесу жиіліктері жоғары. Олардың бірінші жұбын Gg, Ff әріптерімен белгілеуді, ал екінші жұппен ‘қазақ’ дегенді ‘kazak’ немесе ‘qazaq’ деп жазғанның соңғысы дұрыс сияқты болғандықтан к, қ дыбыстарын Kk, Qq әріптерімен белгілеуді ұсынамыз. Осыдан кейін бізде қолданылмаған 1 ғана Ii әріпі қалды.
Біздің зерттеумен анықталған жиілігі жоғары i дыбысы жұрнақ пен жалғауларға қатысып, бір сөзде бірнеше рет кездеседі (мысалы, ‘бiлiктiлiктің’ дегенде оның саны 5). Кейбiр сөздердің жазылуын тым ұзын қылмас үшін, i дыбысын да жалғыз Ii әрiпімен белгілейміз. Оған сыңар ы дыбысын көрші Jj әрiпімен белгілейміз.
Сонымен біз классикалық латын әліпбиінің барлық 26 әріпін қолдандық. Ал бізде белгілеуі әлі анықталмаған 5 қазақтың дыбысы бар: ә, ө, в, х, ф. Оларды басқа тілдердегі сияқты екі таңбаның тіркесі арқылы белгілеуге болады. Әдеттегідей, тіркестің біріншісі ретінде белгілейтін дыбысқа жақын фонеманың әріпі Aa, Oo, Bb, Kk, Pp сәйкес болуы керек. Кейбір тілде тіркестің екіншісі ретінде де осы тілдің әліпбиінің әріпі алынады. Мысалы, ағылшын және өзбек тілінде ң дыбысы латын әліпбиінің n мен g әрпінің тіркесі арқылы белгіленген. Қазақ тілінде бұл әдісті қолданғанда «Кейбір сөздердің оқылуы дұрыс болмайды немесе бөлек сөздердің жазылулары бірдей болып кетеді» деген проблема шығады. Мысалы, егер біз г дыбысын g әріпімен белгілісек, онда «күнгі, күңі» сөздері «kungі» болып бірдей жазылады. Енді біз зерттеген мәтіндік корпуста ә, ө, в, х, ф әріптеріне тіркеспейтін әріп жоқ екендігін ескеріп, оларды белгілегенде Aa, Oo, Bb, Kk, Pp әріптерінің сыңары ретінде әріптен басқа таңба аламыз.
Әдетте біз мәтінді пернетақтаның тек төменгі регистрі арқылы (shif батырмасын баспай) тереміз. Бізге цифрлар, жақшалар, арифметикалық амалдар таңбалары, тыныс белгілері, тырнақшалар және көлденең сызықшалардан басқа таңба керек. Ондай таңбалар екеу ғана: ’ — аксант эгю (э батырмасы) және ` — аксант граф (ё батырмасы). Мұндағы аксант эгю таңбасы қосақталып мәтіндегі тырнақша ретінде, ‘ ’ жиі кездеседі, себебі ол кез келген таңбаның алдында ‘ түрінде, ал таңбадан кейін ’ түрінде бейнеленеді. Мысалы, жоғарыда ‘қазақ’ деген сөзде пайдаланылған (осы таңбаны өзбектер қолданған, яғни, ол ...).
Сонымен пернетақтада қолданылмаған жалғыз аксант граф (дәйекше) таңбасы қалды. Оны қазақтың ә, ө, в, х, ф дыбыстарын қос таңба арқылы белгілеу үшін қолданамыз, яғни, олар мынадай A`a`, O`o`, B`b`, Kk`, P`p` болады. Бұл сөздердің жазылуын тым ұзартпайды. Мысалы, әке = a`ke, өмір = o`mir.
Әліпби белгілі болғаннан кейін сөздердің жазу емлелерін анықтап, тілдің морфологиялық және синтаксистік ережелерін айқындау қажет. Оларды компьютерде жиналған тілдің мәтіндік корпусын зерттеу нәтижесін және осы күнге дейін жасалған морфологиялық және синтаксистік ережелердің математикалық моделдерін ескеріп жасау керек.
Енді ә, ө дыбыстарына сәйкес белгілердің, яғни, a`, o` қатысуымен жазылатын кейбір сөздерді көрсетейік:
1. Құрамында осы дыбыстар бір-ақ рет кездесетін жалаң сөздер: әдіскер=a`disker, әзірлеу=a`zirlew, әкімшілік=a`kimcilik, әңгіме=a`hgime, бәйге=ba`yge, бәсеке=ba`seke, өгейшілік=o`geycilik, өміршең=o`mirceh, өңгерілген=o`hgerilgen, өшіргіш=o`cirgic, бөбек=bo`bek.
2. Құрамындады осы дыбыстар бірнеше рет кездесетін күрделі сөздер: көздәрі=ko`zda`ri, көзкөрген=ko`zko`rgen, көзмөлшер=ko`zmo`lcer, көккөд=ko`kko`l, көкжөтел=ko`kz`o`tel, көкөніс=ko`ko`nis, көпмәнді=ko`pma`ndi, көркемөнер=ko`rkemo`ner.
3. Құрамында осы дыбыстар бірнеше рет кездесетін жалаң сөздер: әзәзіл = a`za`zil, зәмзәм= za`mza`m, нәмәрт = na`ma`rt, нәркүмән = na`rkuma`n, тәбәрік= ta`ba`rik.
Енді қазіргі кирилл әліпбиіндегі қазақ мәтінін латын әріптеріне көшірмес бұрын, оның ішіндегі қазақ тіліне жатпайтын барлық бөтен дыбыстарды белгілейтін әріптерден арылуымыз керек, себебі ұсыналған әліпбиде оларды белгілейтін әріптер де ережелер де жоқ. Олай болатыны, ешбір тілге басқа тілдің дыбыстарын заңдастырмай кіргізбейді және басқа тілдің дыбыстарын қолданып жасалған сөздерді өзінің фонетикалық ережесіне бағындырып сәйкес орфоэпия мен орфография емлелерін жасайды. Мысалы, орыс тілінде қазақ тіліндегі кейбір адам есімдерін, жер және су аттарын қазақша жазбай, өзіне түрлендіріп алады. Нәтижесінде Әділ = Адил, Іңкәр = Инкар, Ұзынағаш= Узунагач, Іле=Или болды. Мұндай әдіс әліпбилері бөлек кезкелген тілдерде де қолданылады. Сондықтан біз кирилл әліпбиіндегі кейбір қазақ сөздерінде кездесетін ё, и, э, ю, я, ц, ч, щ, ь, ъ әріптерінен арылу ережелерін жасап, оларды программалық жүзеге асырып конвертерді дайындадық.
Алтынбек Әмірұлы Шәріпбай, т.ғ.д, профессор, ҚР мемлекеттік сыйлығының лауреаты,
Л.Н.Гумилев атындағы ЕҰУ-нің «Жасанды интеллект» институты.
Түпнұсқа.
Кейбір тілде белгілеуге сәйкес латын әріптері жоқ дыбыстарды белгілеу үшін латын әліпбиі кеңейтіледі. Кеңейтудің мынадай әдістері бар:
— әліпбиге жаңа әріптер қосу, мысалы, ŋ, ç, ş;
— диакритикаларды қосу, мысалы, á, ä, ğ;
— теріс диакритиканы қолдану, мысалы, ı — нүктесіз i;
— бір дыбысты белгілеу үшін бірнеше әріп қолдану, мысалы, ш дыбысы sh немесе sch арқылы белгіленеді;
— бір дыбысты белгілеу үшін бірнеше әріп және диакритикалық белгі қолдану, мысалы, x үшін c'h;
— әліпбидегі жеке әріптердің мәндерін өзгерту, мысалы, x әріпі
1) португал тілінде ш дыбысын белгілейді;
2) поляк тілінде ы дыбысын белгілейді.
Енді қазақ тілінің жазбасын осы әдістердің бірін пайдаланып латын әліпбиіне көшіруді талқыламас бұрын, осындай көшуді жүргізген түркі тілдес елдердің (Түркия, Түркменстан, Өзбекстан, Әзірбайжан) тәжірибелерін қарастырайық:
1928 жылы қабылданған түрік тілінің әліпбиі 29 әріптен тұрады, олардың ішінде классикалық латын әліпбиінен тыс 6 әріп ğ, ü, ş, ı, ö, ç бар;
1990-шы жылдары бірнеше рет өзгерген туркмен тілінің әліпбиі 30 әріптен тұрады, олардың ішінде классикалық латын әліпбиінен тыс 8 әріп ç, ä, ž, ň, ö, ş, ü, ẏ бар;
1993 жылы қабылданған өзбек тілінің әліпбиі классикалық латын әліпбиінен тыс 6 әріп ç, ş, ğ, ö, ñ, ɉ қамтыды, ал 1995 жылы оларды әліпбиден алып тастап, орфографиялық ережелерді қайта жазды: аталған әріптер ch, sh, g’, o’, ng және j-ға сәйкес ауыстырылды, мұндағы ’ – аксант эгю (апостроф) таңба алдында ‘ түрінде, ал таңба соңында ’ түрінде жазылады, мысалы, ‘alphabet – алфавит’;
2004 жылы қабылданған әзірбайжан тілінің әліпбиі 32 әріптен тұрады, онда классикалық латын әліпбиінен тыс 13 әріп ä, ö, ө, ç, ñ, ň, ſ, ü, ž, ş, ə, ẏ, ӱ бар.
Қазақ тілінің мемлекеттік тіл статусына сәйкес елімізде жасалынып жатқан электрондық ақпараттық ресурстар қазақ тілінде болғаны жөн. Ақпараттық ресурстарды жасау көп қаржы мен жұмысты талап ететін үдеріс болғандықтан, оларды барлық компьютердің пернетақталарында бар 26 әріптік классикалық латын әліпбиінде жасаған тиімді. Себебі, оларды басқа ұлттық әліпбиде жасау үшін қосымша қаржысыз әзірленбейтін шрифтер, драйверлер және сұрыптау мен іздеу программаларын қолдану қажет.
Қазақ тілінің 28 төл дыбысы бар, оның ішінде 9 дауысты және 19 дауыссыз. 1929 жылғы реформа кезінде дауыссыз «хы» дыбысы қосылып, жалпы дыбыстар саны 29 болды. Олар қолданыстағы әліпбиде былай таңбаланады: а, ә, е, о, ө, ұ, ү, ы, і ̶ дауыстылар; б, ғ, г, д, ж, з, й, қ, к, л, м, н, ң, п, р, с, т, у, ш, һ ̶ дауыссыздар (мұнда а, о, ұ, ы, е – фонемалар, ал ә, ө, ү, і – олардың алафондары және ғ-г мен қ-к ̶ бір дыбысқа біріккен бір фонеманың үндесім түрлері). Ал 1940 жылғы реформа кезінде орыс тілінен 11 дыбыс енген, олар орыс қолданыстағы әліпбиде в, ё, и, ц, ч, щ, ф, х, э, ю, я деп белгіленеді. Кейінгілердің ішінде қазақ тілінің фонологиялық заңдарын бүлдірмейтін в, х және ф дыбыстарына тоқталайық. Оның біріншісі адамдардың тегін (фамилиясын) жазуда кеңінен қолданып кеткен. Сонымен қатар, қазақ тіліне аударылмай етене еніп кеткен «валюта, вакуум, вакцина, вариант, вектор, вексель, викторина, вирус, виртуал, вице, вокал», «хаки, хаос, химия, хлор, хроника, хром, хрусталь» және «факт, факультет, фаза, файл, фауна, федерация, фельетон, физика, филармония, фильм, фонетика, формула, фракция, функция» сияқты көптеген термин сөздердің маңыздылығын ескеріп, кірме в, х және ф дыбыстарын қазақ дыбыстарының қатарында қалдыруға болады деген ой келеді. Бұдан қазақ тілі зиян шекпейді, қайта ол халықаралық терминдердің дұрыс оқылуына көмектеседі. Яғни, қазақ тілінде 31 дыбыс болады, олар: а, ә, б, в, ғ, г, д, ж, з, е, й, к, қ, л, м, н, ң, о, ө, п, р, с, т, у, ұ, ү, ф, х, ш, ы, і.
Осы айтылғандарды ескеріп, қазақ әліпбиінің латын графикасына көшірудің мынадай қағидаларын ұсынуға болады:
1. Жаңа әліпби тек қана қазақ тілінің дыбыстық жүйесіне негізделіп жасалуы керек, яғни, қазақ тілінің заңдылықтарына қайшылық тудыратын орыс тілінен енген кейбір дыбыстарды алып тастау қажет. Сондықтан, ең алдымен қазақ тілінің офографиясын тек қана қазақ дыбыстары негізінде қайта жасап, орфографиялық сөздік шығару қажет.
2. Қазақ тілі дыбыстарын классикалық латын әліпбиі қамтылған пернетақтадағы таңбалармен ғана белгілеу керек. Бұл компьютер және телекоммуникациялық құралдар арқылы қазақ тілінде ешқандай кедергісіз жазбаша қатынасуға мүмкіндік береді. Себебі олардың кейбірінде классикалық латын әліпбиінен тыс әріпі бар ұлттық тілдерді қолдауға мүмкіндік беретін қажетті пернетақта және шрифтер мен драйверлерді орнатуға мүмкіндік жоқ.
3. Қазақ тілі дыбыстар белгілерінің орналасу реті классикалық латын әріптерінің кодтауымен сәйкес және болуы қажет. Бұл қазақ тілін компьютер арқылы тиімді өңдеу мен дамытуға кең мүмкіншілік береді. Себебі, ұлттық әліпбилерді пайдаланып жасалынған ақпараттық ресурстар тек қажетті қаріптер мен драйверлерді ғана емес, оларға қоса, әліпбидегі әріптердің ретіне негізделіп құрылған барлық ақпараттық технологияларда қолданылатын сұрыптау (реттеу) және іздеу программаларын да талап етеді. Ал оларды жеке ұлттық тілге арнап жасау және мыңдап тарап жатқан ақпараттық технологияларда орнату тым қымбат. Сонымен қатар, оларды үзілмей шығып жатқан жаңа ақпараттық технологияларға да бағыттап жасау керек, яғни, осы мәселелермен тұрақты айналасу қажет.
Енді осы қағидаларға сәйкес қазақ тілінің дыбыстарын классикалық латын әріптерімен белгілеуін қарастырайық. Бізге берілгені классикалық латын әліпбиінде 26 әріп бар, ал қазақ тіліндегі дыбыс саны одан көп: төл дыбыстар саны 28, қосатын дыбыстар саны 3. Сондықтан біз мынадай 3 есепті шешуіміз керек:
1) Жалғыз әріппен ғана белгіленетін дыбыстарды анықтау.
2) Әріп пен арнаулы таңба тіркесімен белгіленетін дыбыстарды анықтау.
3) Көмекші таңбаны анықтау.
Осы есептерді шешу үшін біз компьютер арқылы қазақтың дыбыстық жүйесіндегі дыбыстардың түрлері мен қасиеттерін талқыладық және құрамында қолданыстағы әліпбидің 100 миллион әріптері бар қазақ мәтініндер жинағындағы әріптердің кездесу жиілігі анықтадық. Бұл ұсынылатын әліпбиде қазақ тілінің қай дыбысын қай әріппен және қай дыбысты қай әріпке қандай таңбаны тіркеу арқылы тиімді (сөздің жазуын ұзартпайтындай) етіп белгілеуді анықтауға қажет.
Қазақтың а, о, е, ұ, ү дауысты дыбыстарын мына Aa, Oo, Ee, Vv, Uu, 5 әріппен белгілейміз, ал қазақтың б, г, ғ д, з, ж, й, к, қ, л, м, н, ң, п, р, с, т, у, ш дауыссыз дыбыстарын мына Bb, Gg, Ff, Dd, Zz, Xx, Yy, Kk, Qq, Ll, Mm, Nn, Hh, Pp, Rr, Ss, Tt, Ww, Сс 19 әріппен белгілейміз. Мұнда бір фонеманың үндесім жұптары г, ғ және к, қ дыбыстарының әрқайсысын жеке әріппен белгілеген жөн, себебі олардың кездесу жиіліктері жоғары. Олардың бірінші жұбын Gg, Ff әріптерімен белгілеуді, ал екінші жұппен ‘қазақ’ дегенді ‘kazak’ немесе ‘qazaq’ деп жазғанның соңғысы дұрыс сияқты болғандықтан к, қ дыбыстарын Kk, Qq әріптерімен белгілеуді ұсынамыз. Осыдан кейін бізде қолданылмаған 1 ғана Ii әріпі қалды.
Біздің зерттеумен анықталған жиілігі жоғары i дыбысы жұрнақ пен жалғауларға қатысып, бір сөзде бірнеше рет кездеседі (мысалы, ‘бiлiктiлiктің’ дегенде оның саны 5). Кейбiр сөздердің жазылуын тым ұзын қылмас үшін, i дыбысын да жалғыз Ii әрiпімен белгілейміз. Оған сыңар ы дыбысын көрші Jj әрiпімен белгілейміз.
Сонымен біз классикалық латын әліпбиінің барлық 26 әріпін қолдандық. Ал бізде белгілеуі әлі анықталмаған 5 қазақтың дыбысы бар: ә, ө, в, х, ф. Оларды басқа тілдердегі сияқты екі таңбаның тіркесі арқылы белгілеуге болады. Әдеттегідей, тіркестің біріншісі ретінде белгілейтін дыбысқа жақын фонеманың әріпі Aa, Oo, Bb, Kk, Pp сәйкес болуы керек. Кейбір тілде тіркестің екіншісі ретінде де осы тілдің әліпбиінің әріпі алынады. Мысалы, ағылшын және өзбек тілінде ң дыбысы латын әліпбиінің n мен g әрпінің тіркесі арқылы белгіленген. Қазақ тілінде бұл әдісті қолданғанда «Кейбір сөздердің оқылуы дұрыс болмайды немесе бөлек сөздердің жазылулары бірдей болып кетеді» деген проблема шығады. Мысалы, егер біз г дыбысын g әріпімен белгілісек, онда «күнгі, күңі» сөздері «kungі» болып бірдей жазылады. Енді біз зерттеген мәтіндік корпуста ә, ө, в, х, ф әріптеріне тіркеспейтін әріп жоқ екендігін ескеріп, оларды белгілегенде Aa, Oo, Bb, Kk, Pp әріптерінің сыңары ретінде әріптен басқа таңба аламыз.
Әдетте біз мәтінді пернетақтаның тек төменгі регистрі арқылы (shif батырмасын баспай) тереміз. Бізге цифрлар, жақшалар, арифметикалық амалдар таңбалары, тыныс белгілері, тырнақшалар және көлденең сызықшалардан басқа таңба керек. Ондай таңбалар екеу ғана: ’ — аксант эгю (э батырмасы) және ` — аксант граф (ё батырмасы). Мұндағы аксант эгю таңбасы қосақталып мәтіндегі тырнақша ретінде, ‘ ’ жиі кездеседі, себебі ол кез келген таңбаның алдында ‘ түрінде, ал таңбадан кейін ’ түрінде бейнеленеді. Мысалы, жоғарыда ‘қазақ’ деген сөзде пайдаланылған (осы таңбаны өзбектер қолданған, яғни, ол ...).
Сонымен пернетақтада қолданылмаған жалғыз аксант граф (дәйекше) таңбасы қалды. Оны қазақтың ә, ө, в, х, ф дыбыстарын қос таңба арқылы белгілеу үшін қолданамыз, яғни, олар мынадай A`a`, O`o`, B`b`, Kk`, P`p` болады. Бұл сөздердің жазылуын тым ұзартпайды. Мысалы, әке = a`ke, өмір = o`mir.
Әліпби белгілі болғаннан кейін сөздердің жазу емлелерін анықтап, тілдің морфологиялық және синтаксистік ережелерін айқындау қажет. Оларды компьютерде жиналған тілдің мәтіндік корпусын зерттеу нәтижесін және осы күнге дейін жасалған морфологиялық және синтаксистік ережелердің математикалық моделдерін ескеріп жасау керек.
Енді ә, ө дыбыстарына сәйкес белгілердің, яғни, a`, o` қатысуымен жазылатын кейбір сөздерді көрсетейік:
1. Құрамында осы дыбыстар бір-ақ рет кездесетін жалаң сөздер: әдіскер=a`disker, әзірлеу=a`zirlew, әкімшілік=a`kimcilik, әңгіме=a`hgime, бәйге=ba`yge, бәсеке=ba`seke, өгейшілік=o`geycilik, өміршең=o`mirceh, өңгерілген=o`hgerilgen, өшіргіш=o`cirgic, бөбек=bo`bek.
2. Құрамындады осы дыбыстар бірнеше рет кездесетін күрделі сөздер: көздәрі=ko`zda`ri, көзкөрген=ko`zko`rgen, көзмөлшер=ko`zmo`lcer, көккөд=ko`kko`l, көкжөтел=ko`kz`o`tel, көкөніс=ko`ko`nis, көпмәнді=ko`pma`ndi, көркемөнер=ko`rkemo`ner.
3. Құрамында осы дыбыстар бірнеше рет кездесетін жалаң сөздер: әзәзіл = a`za`zil, зәмзәм= za`mza`m, нәмәрт = na`ma`rt, нәркүмән = na`rkuma`n, тәбәрік= ta`ba`rik.
Енді қазіргі кирилл әліпбиіндегі қазақ мәтінін латын әріптеріне көшірмес бұрын, оның ішіндегі қазақ тіліне жатпайтын барлық бөтен дыбыстарды белгілейтін әріптерден арылуымыз керек, себебі ұсыналған әліпбиде оларды белгілейтін әріптер де ережелер де жоқ. Олай болатыны, ешбір тілге басқа тілдің дыбыстарын заңдастырмай кіргізбейді және басқа тілдің дыбыстарын қолданып жасалған сөздерді өзінің фонетикалық ережесіне бағындырып сәйкес орфоэпия мен орфография емлелерін жасайды. Мысалы, орыс тілінде қазақ тіліндегі кейбір адам есімдерін, жер және су аттарын қазақша жазбай, өзіне түрлендіріп алады. Нәтижесінде Әділ = Адил, Іңкәр = Инкар, Ұзынағаш= Узунагач, Іле=Или болды. Мұндай әдіс әліпбилері бөлек кезкелген тілдерде де қолданылады. Сондықтан біз кирилл әліпбиіндегі кейбір қазақ сөздерінде кездесетін ё, и, э, ю, я, ц, ч, щ, ь, ъ әріптерінен арылу ережелерін жасап, оларды программалық жүзеге асырып конвертерді дайындадық.
Алтынбек Әмірұлы Шәріпбай, т.ғ.д, профессор, ҚР мемлекеттік сыйлығының лауреаты,
Л.Н.Гумилев атындағы ЕҰУ-нің «Жасанды интеллект» институты.
Түпнұсқа.
Қолданыстағы әліпбидегі алғашқы мәтін:
Тек қазақ дыбыстар негізіндегі аралық мәтін:
Ұсынылатын әліпбидегі нәтижелі мәтін:
атағы дардай профессордың қатесі ме, әлде конвертерді жасаған программисттің қатесі ме?
Бір дыбысқа екі таңба пайдалану біздің дыбыстар тіркесінің статистикасы бойынша пайдалануға тіпті де келмейді.
ә — ае, о — ое, ү — uе деп. бірақ біреу ұсыныс жазыпты ә — аа, о — оо, ү — uu болса ше деп. Меніңше, шынымен жазуды оңайлататын секілді.
Бұл классикалық латын әліпбиі емес. Бұл латын графикасы негізінде жасалған ағылшын тілінің әліпбиі. Латын әліпбиінде w, j, u деген әріптер болмаған. Оны кейін басқа халықтар қосқан. Ол әріптер қосылған уақытта латын тілі әлдеқашан өлі тілге айналған еді.
«Кодировка» дегеннен түсінгенім, ағылшын әліпбиінде жоқ әріптермен кодировка барысында проблема туындайтын көрінеді. Төменгеділер — қазіргі заманғы итальян, француз, неміс, испан, швед, фин, португал тілдерінің әліпбилері. Барлығында да ағылшындардікінде жоқ әріптер бар. Сонда бұларда кодировка мәселесі қалай шешілген?