Қазақша Wikipedia дамыса, Интернетте қазақ тілді контент көбейетіні рас па?
Бүгін Google компаниясында қызмет ететін жалғыз қазақстандық — Рүстем Арзымбетовпен кездестім. Сөзінің басын «Wikipedia қазақшасын дамытсаңдар ғой жақсы болар еді» деп бастады. Менің ойым таяуда ғана translate.google.com-ға қосылған әзірбайжан тілін байқап, қазақ тілін де қосу мүмкіндігінің мән-жайына қанығу болатын.
Сөйтсем, Рүстемнің айтқанынан түсінгенім, Google Translate-те қазақ тілі болуы үшін қазақ тілінің өзге тілден аударылған корпусы болуы керек екен. Ал ондай тілдік корпус жасауға wikipedia тәрізді бірнеше тілдерден мақалалар аударылатын жобалардың берері мол (келесі бір жолы ол үкіметтің өзі қос тілді корпусты Google-ға ұсынуы, яки wikipedia сияқты өзге бір тәсілдер).
Яғни, егер wikipedia-да ағылшын тілінен аударылған жазбалар немесе қазақ тілінен ағылшын тіліне аударылған жазбалар көп болса, Google сол аудармалар негізінде аударма бағдарламасын түзеді-мыс.
Тіпті, біздің аударма материалдарды берумен шектелетін ресми сайттардың да осы орайда қосатын үлестері зор екен. Себебі Google Translate-тегі бағдарлама интернеттен қос тілді контенттерді іздеп, соның негізінде автоматты аударатын бағдарлама түзіп шығарады.
Әлі де сенімсіз болатыным, бұл мәліметтің анық-қанығын тағы тексере түссем, жұрттың осыған қатысты білері болса, оларды да тыңдасам деймін.
Бір білерім, біздің ҚР Ақпарат және Байланыс министрлігі де т.б. көптеген ресми орындар да тіпті қарапайым интернет қолданушылар да интернетте мәтінді (тек қана жекелеген сөздерді емес) қазақ тіліне аударатын онлайн аудармашының болғанына мүдделі. Қазір бірен-саран аударма бағдарламалар кездеседі. Олар әдетте қазақ тілінен орыс тіліне сосын орыс тілінен ағылшын тіліне аударады. Мәтінді тікелей қазақша-ағылшынша аударатын ресурс көрмедім.
«Тіл корпусы» деген сөзді алғаш естігенде менің де бұл не деп таң қалғаным бар. Көз алдыма неге екені бір қорап елестейтін. Тілтанушылардың айтқанынан түсінгенім тіл корпусы дегеніміз — белгілі бір тілдің электронды мәтіндері негізінде жинақталған ақпараттық-анықтамалық жүйе. Корпустан тілдің белгілі бір кездегі күллі болмысын (жанр, стиль, аймақтық және әлеуметтік сипаты т.с.с.) анықтауға болады екен.
Осыдан екі жылдай бұрын ҚР Мәдениет министрлігіне қарасты Тіл комитеті Қазақ тілінің корпусын жасауды қолға алған. Бірақ ол тек Қазақ тілінің корпусы болатын. Бұның өзі де қазақ тілінің дамуына жасалған үлкен жұмыс.
Тіл ұстарту блогының авторы Sagym-ның да көптеген жазбалары осы тақырыпқа арналған еді. Өкінішке қарай, тіл мамандары тарапынан бұл жазбаларға көп назар аударылмады. Бәлкім келешектің еншісіндегі іс болар.
Wikipedia-ға көбіне қазақша мақалалар енгізу керек деп түсінетінмін. «Мәссаған» жастар порталын құрушылардың бірі — Бақытнұр өз блогында да осы мәселеге қатысты ойларымен бөліскен:
Бұған үн қатқан Бақытүл де өз ойларын айтып еді:
Сөйтсем, wikipedia-ның өзге тілінен (мысалы, ағылшыннан) аудармалар көп болса, соғұрлым онлайн аударманың пайда болуына үлес қосады екенбіз. Енді осы мәліметтердің анықтығы рас болса, қазақ тілінің қос тілді корпусының тезірек пайда болуына мүдделі болуымыз керек сияқты.
Мұның бәрі бізге не береді десек, Wikipedia-да қазақша контенттің (аудармасы бар, тек қазақша түпнұсқадағысы бар)көбеюі өз кезегінде әр қазаққа әлемдік ақпаратқа оңай қол жеткізуге жол ашпақ.
Сөйтсем, Рүстемнің айтқанынан түсінгенім, Google Translate-те қазақ тілі болуы үшін қазақ тілінің өзге тілден аударылған корпусы болуы керек екен. Ал ондай тілдік корпус жасауға wikipedia тәрізді бірнеше тілдерден мақалалар аударылатын жобалардың берері мол (келесі бір жолы ол үкіметтің өзі қос тілді корпусты Google-ға ұсынуы, яки wikipedia сияқты өзге бір тәсілдер).
Яғни, егер wikipedia-да ағылшын тілінен аударылған жазбалар немесе қазақ тілінен ағылшын тіліне аударылған жазбалар көп болса, Google сол аудармалар негізінде аударма бағдарламасын түзеді-мыс.
Тіпті, біздің аударма материалдарды берумен шектелетін ресми сайттардың да осы орайда қосатын үлестері зор екен. Себебі Google Translate-тегі бағдарлама интернеттен қос тілді контенттерді іздеп, соның негізінде автоматты аударатын бағдарлама түзіп шығарады.
Әлі де сенімсіз болатыным, бұл мәліметтің анық-қанығын тағы тексере түссем, жұрттың осыған қатысты білері болса, оларды да тыңдасам деймін.
Бір білерім, біздің ҚР Ақпарат және Байланыс министрлігі де т.б. көптеген ресми орындар да тіпті қарапайым интернет қолданушылар да интернетте мәтінді (тек қана жекелеген сөздерді емес) қазақ тіліне аударатын онлайн аудармашының болғанына мүдделі. Қазір бірен-саран аударма бағдарламалар кездеседі. Олар әдетте қазақ тілінен орыс тіліне сосын орыс тілінен ағылшын тіліне аударады. Мәтінді тікелей қазақша-ағылшынша аударатын ресурс көрмедім.
«Тіл корпусы» деген сөзді алғаш естігенде менің де бұл не деп таң қалғаным бар. Көз алдыма неге екені бір қорап елестейтін. Тілтанушылардың айтқанынан түсінгенім тіл корпусы дегеніміз — белгілі бір тілдің электронды мәтіндері негізінде жинақталған ақпараттық-анықтамалық жүйе. Корпустан тілдің белгілі бір кездегі күллі болмысын (жанр, стиль, аймақтық және әлеуметтік сипаты т.с.с.) анықтауға болады екен.
Осыдан екі жылдай бұрын ҚР Мәдениет министрлігіне қарасты Тіл комитеті Қазақ тілінің корпусын жасауды қолға алған. Бірақ ол тек Қазақ тілінің корпусы болатын. Бұның өзі де қазақ тілінің дамуына жасалған үлкен жұмыс.
Тіл ұстарту блогының авторы Sagym-ның да көптеген жазбалары осы тақырыпқа арналған еді. Өкінішке қарай, тіл мамандары тарапынан бұл жазбаларға көп назар аударылмады. Бәлкім келешектің еншісіндегі іс болар.
Wikipedia-ға көбіне қазақша мақалалар енгізу керек деп түсінетінмін. «Мәссаған» жастар порталын құрушылардың бірі — Бақытнұр өз блогында да осы мәселеге қатысты ойларымен бөліскен:
Қазақ тілінде де Уикипедия Қазақша Ашық Энциклопедиясы деген бар. Бұл соңғы 2 жылдан бері үздіксіз жұмыстап келе жатқанын біреу біледі, біреу білмейді (мүмкін көпшілігіміз мүмкін ағылшын тіліндегін білетін шығармыз. ) не жалқауланып жүргендіктен ба әйтеуір Уикипедияны алып жүргізіп келе жатқан кісілер саны аз.
Бұған үн қатқан Бақытүл де өз ойларын айтып еді:
«Wikipedia энциклопедиясының неміс тілді бөлімі мемлекеттен қаржылай көмек алады. Германия шенеуніктері осы арқылы неміс тілінде жүргізілетін Wikipedia-ны одан да «нақты, дәл» мәліметтермен толықтырғылары келеді. Сонымен бірге осы уақытқа дейін аз ашылған тақырыптар төңірегінде ақпараттарды көбейту көзделіп отыр. Ол үшін мамандар таңдалып, әдейі дайындықтан өткізіледі. Осы үрдісті басқару Nova Institute –ке тапсырылған.» Иә, біздің де Мәдениет және ақпарат министрлігі, Тіл дамыту комитеті т.б. да осындай әрекеттерді де ойластырғаны артық болмас еді.
Сөйтсем, wikipedia-ның өзге тілінен (мысалы, ағылшыннан) аудармалар көп болса, соғұрлым онлайн аударманың пайда болуына үлес қосады екенбіз. Енді осы мәліметтердің анықтығы рас болса, қазақ тілінің қос тілді корпусының тезірек пайда болуына мүдделі болуымыз керек сияқты.
Мұның бәрі бізге не береді десек, Wikipedia-да қазақша контенттің (аудармасы бар, тек қазақша түпнұсқадағысы бар)көбеюі өз кезегінде әр қазаққа әлемдік ақпаратқа оңай қол жеткізуге жол ашпақ.
Түсінгенім, тек wikipedia ғана емес, Интернеттегі екі тілді аударма мәтіндер (қазақша орысша немесе қазақша ағылшынша) көп болған сайын, соғұрлым Google-дың аудармашы машинасының іске қосылуына көбірек жағдай туындамақ.
мен де солай ойлаймын, егер Викиде контент көбейсе біраз даму болады деп ойлаймын.
Baq.kz-ті google news-қа қосу мүмкіндігін сұрағанмын. Мүмкін нәрсе деп жатыр. Тек ол жердегі контенттің көлемі қанша дейді? Білмим дедім. :(
Wikipedia-ның қазіргі күйі мен ол жақта жүрген белсенді жігіттердің пікірлерін де білгім келеді.
студенттер рефераттар жазғанша, викиде мақаланы өзіндік жұмыс ретінде тапсырса да болады ғой
Одан кейін тағы қатты сөздер жазды. Мен де қолымды бір сілтедім.
Гугл-транслэйтты аудару өте-мөте қажет, қазақтар орыстілді контентпен шектеліп қалмай, балама ақпарат көздеріне қол жеткізе алар еді. Оны кез-келген адам аудара ала ма?