• Ешқандай Нәтиже Табылған Жоқ

Просмотр « Об Алматинском корпусе казахского языка»

N/A
N/A
Protected

Academic year: 2022

Share "Просмотр « Об Алматинском корпусе казахского языка»"

Copied!
6
0
0

Толық мәтін

(1)

Мадиева Г.Б., Уматова Ж.М.

Об Алматинском корпусе казахского языка

Современные информационные технологии и технические средства открывают новые возможности для лингвистического исследования на базе языковых корпусов. В статье представлено описание пилотной версии Алматинского корпуса казахского языка (АККЯ), как составляющей Национального корпуса казахского языка (НККЯ), представляющего справочно­информационную систему на основе обширного фонда размеченных текстов литературного казахского языка, созданного в рамках Государственной программы функционирования и развития языков (2011­2020).

Описана история создания, роль, наполненность, размеченность и целесообразность использования АККЯ в лингвистических исследованиях, в практике преподавания казахского языка, как родного и иностранного, в качестве источника для составления лексикографических изданий.

Ключевые слова: языковой корпус, национальный корпус, информационно­справочная система, подкорпус, разметка текстов, прикладное значение корпуса.

Madiyeva G.B., Umatova Zh.M.

About Almaty kazakh language corpus

Modern information technologies and technical means open new op­

portunities for linguistic research on the basis of language corpora. The description of the pilot version of Almaty Corpus of the Kazakh Language (ACKL), as a component of the National Corpus of the Kazakh Language (NCKL) representing the reference system on the basis of extensive fund of the marked texts of the literary Kazakh language created within the State program of functioning and development of languages (2011­2020) is pre­

sented in the article.

The history of creation, role, fullness, markedness and expediency of using ACKL in linguistic researches, in practice of teaching the Kazakh language, as a native and foreign one, as a source for drawing up lexico­

graphic editions is described.

Key words: language corpus, national corpus, reference system, sub­

corpus, marking of texts, applied value of the corpus.

Мадиева Г.Б., Уматова Ж.М.

Алматы қазақ тілі корпусы туралы

Қазіргі ақпараттық технология және техникалық құралдар тіл білімінде тілдік корпустар негізінде зерттеулер жасауға үлкен мүмкіндік тудырып отыр. Мақалада Қазақ тілінің ұлттық корпусын құраушы қазақ тілінің Алматы корпусының Мемлекеттік тілді дамыту мен жоспарлау бағдарламасы (2011­2020) аясында жасалған ақпараттық­анықтамалық жүйеде қазақ тілінің әдеби тілінің ауқымды фондық мәтіндері берілген. Алматы корпусының жасалу тарихы, рөлі, толықтырылуы, Алматы корпусының тілдік зерттеулер жасаудағы көмегі, қазақ тілін үйрету тәжірибесіндегі маңызы, ана тілі және шетел тіліндегі лексикографиялық басылымдар ретіндегі орны айтылады.

Түйін сөздер: тілдік корпус, ұлттық корпус, ақпараттық­

анықтамалық жүйе, корпус іші, мәтіндерге анықтама жасау, корпустың қолданбалы маңызы.

(2)

имени аль-Фараби, г. Алматы, Казахстан, e-mail: [email protected], [email protected]

Специалисты различных сфер деятельности: политологи, культурологи, экономисты и, в первую очередь, лингвисты, не- однократно отмечают, что за последние годы казахский язык все больше расширяет свои границы. Так, Ельдесов Д. пишет, что

«С приданием казахскому языку статуса государственного его роль в республике значительно усилилась, обеспечивая законо- дательным правом использоваться во всех функциях и сферах общения. Статусному положению языка, политическим и зако- нодательным мерам должно быть соответственное сугубо линг- вистическое наполнение, и в этом плане появилась проблема корпусного планирования – попытки стандартизировать, упо- рядочить и систематизировать язык. В Республике Казахстан в рамках Государственной программы функционирования и раз- вития языков (2011-2020), необходимо создать Национальный корпус казахского языка. Формирование национального корпу- са языка стало актуальной проблемой во многих республиках после распада Советского Союза, поскольку государственному статусу языка могут соответствовать лишь кодифицированные (нормированные) языки» [1].

Ведущий лингвист не только казахстанского, но и мирового сообщества Сулейменова Э.Д. отмечает: «Создание националь- ных корпусов базовых государственных языков ведущих стран мира возведено в ранг важных историко-культурных и поли- тических мероприятий современности. Большинство крупных языков мира уже имеет свои национальные корпуса (разли- чающиеся по полноте и уровню научной обработки текстов).

Общепризнанным образцом является, в частности, Британский национальный корпус.

Создание корпуса позволит изучать историю казахского языка, осуществить статистический мониторинг функциони- рования лексических, грамматических и стилистических язы- ковых средств, работать по лексикографической поддержке современного казахского языка, его стандартизации, создавать словари, учебники, справочные пособия. Национальный корпус казахского языка способен служить современным источником его кодификации и стандартизации, поскольку в корпусе ока- зывается зафиксированным письменный и звучащий язык в его максимально репрезентативном виде. Формирование На- ОБ АЛМАТИНСКОМ

КОРПУСЕ КАЗАХСКОГО ЯЗЫКА

(3)

Об Алматинском корпусе казахского языка

ционального корпуса казахского языка одна из важнейших, задач суверенного Казахстана» [2].

В Википедии лингвистический корпус опре- деляется как «совокупность текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой» [3]. Из чего можно заключить, «что национальный корпус казахского языка -

– это информационно-справочная система на базе электронного собрания письменных и звучащих текстов, сбалансированная и предста- вительная по объему (сотни миллионов словоу- потреблений), оснащенная всеми возможными видами полной и удобной разметки» (Сулейме- нова Э.Д.) [2].

Учитывая назревшую острую необходи- мость, в рамках идеи «Мәңгі ел – Мәңгі қазақ тілі»

в Казахском национальном университете имени аль-Фараби в мае 2012 г. при поддержке ректо- ра Г.М. Мутанова началась работа над проектом Корпуса. Силами кафедры общего языкознания и европейских языков факультета филологии и мировых языков под руководством заведующей кафедрой Г.Б. Мадиевой при участии сотруд- ников факультета филологии Национального исследовательского университета Высшая шко- ла экономики (Москва) Архангельского Т.А., Бонч-Осмоловской А.А., Даниэля М.А., Ляшев- ской О.Н., Толдовой С.Ю. в мае 2014 года была выпущена пилотная версия Алматинского кор- пуса казахского языка, представляющего собой интеллектуальную информационно-справочную систему на основе обширного фонда размечен- ных текстов в удобной для использования совре- менной виртуальной форме [4].

Для корпуса была адаптирована поисковая система Восточноармянского национального корпуса (EANC).

Это первая версия корпуса Национального корпуса казахского языка – НККЯ как справоч- но-информационной системы на основе обшир- ного фонда размеченных текстов литературного казахского языка, государственного языка Ре- спублики Казахстан. В настоящий момент раз- мер корпуса составляет около 1 миллиона слово- употреблений. Тексты корпуса были размечены с помощью автоматического морфологического анализатора, 75 % словоформ корпуса имеют грамматический разбор. Омонимия в корпусе не снималась, т.е. каждой словоформе приписаны все возможные варианты разбора без учета кон- текста.

Алматинский корпус казахского языка пред- ставлен письменными текстами современного казахского языка, которые сбалансированно рас- пределены по нескольким подкорпусам:

– художественный;

– научный;

– художественно-публицистический.

Ключевой особенностью любого корпуса яв- ляется наличие не только метатекстовой инфор- мации, но и дополнительной, так называемой разметки, позволяющей использовать его дан- ные для научных исследований. В Алматинском корпусе в настоящее время используется три вида разметки:

– морфологическая, т.е. частеречная размет- ка, которая включает не только признак части речи, но и признаки грамматических категорий, свойственных данной части речи. Схема морфо- логической разметки предполагает наличие, во- первых, набора тэгов каждого казахского слова, попавшего в словарь во-вторых, описания того, что каждый из них означает и, в-третьих, правил присвоения тэгов единицам текста;

– синтаксическая, как результат синтакси- ческого анализа или парсинга (от англ. parsing), т.е. это грамматика структур непосредственно составляющих;

– семантическая, при помощи специально- го кода, состоящего из букв и цифр или только цифр, в котором первая буква или цифра обо- значает общую семантическую категорию, в которую входит данное слово, а последующие символы – более узкие подкатегории, специали- зирующие его значение. В схемах семантиче- ской разметки предусмотрены те случаи, когда в качестве единицы смысла выступает не отдель- ное слово, а словосочетание.

Была разработана поисковая система корпу- са казахского языка, в которой поиск произво- дится не только по конкретному слову, но и по грамматическим признакам.

К настоящему времени текстовая база элек- тронных произведений представлена казахски- ми авторами, прежде всего, классиков казахской литературы: Абай, М. Ауэзов, А. Нуршаихов, И. Есенберлин, А. Нурпеисов, Г. Мусрепов, С. Торайгыров, С. Сейфуллин и др.; произве- дениями классиков мировой литературы, пере- веденные на казахский язык: Ч. Айтматов, пу- блицистика: газеты Егемен Казакстан, Айкын, Халык сөзі, Ана тілі, Айқын и др.; научные тек- сты: докторские и кандидатские диссертации, монографии, статьи.

(4)
(5)

Об Алматинском корпусе казахского языка

Кроме того, для полноты данных была со- ставлена таблица метаинформации, включаю- щая в себя все выходные данные.

Нужно отметить, что Алматинский корпус - в отличие от многих языковых корпусов, которые обладают только частеречной размет- кой (а иногда не имеют грамматической размет- ки вообще), обладает полной морфологической разметкой;

- в отличие от большинства корпусов, со- держит переводы слов на другой язык (русский), что облегчает работу пользователям, для кото- рых казахский язык не является родным. Корпус обладает интерфейсами на трех языках. Напри- мер, в Национальном корпусе русского языка нет переводов слов на английский, а английский интерфейс обладает урезанными возможностя- ми по сравнению с русским;

- обладает бесплатным общедоступным по- исковым интерфейсом с мощным функциона- лом, что характерно для большинства корпусов, созданных за последние годы в рамках россий- ской школы корпусной лингвистики и реже встречается в корпусах, создаваемых на Западе;

- в отличие от большинства корпусов малых языков России, созданных по схожей техноло- гии в последние 5 лет, является относительно хорошо сбалансированным и содержит большое количество текстов, относящихся к художе- ственной литературе.

Планируется, что в корпусе до конца года будет 2 млн. словоупотреблений. Сейчас в обра- ботке находится 111 тыс.

Тексты корпуса, в первую очередь, пред- назначены для поддержки работы лингвистов, лексикографов, переводчиков, литературоведов, специалистов в области компьютерных исследо- ваний, организации образовательной среды в це- лях изучения и исследования казахского языка широким кругом как отечественных, так и зару- бежных потребителей.

Алматинский корпус казахского языка спо- собствует проведению фундаментально-при- кладных исследований казахского языка на ос- нове информационных технологий, внедрению их результатов в учебный процесс.

Корпус в связи с активным выходом Казах- стана на мировую арену в последнее время при- обретает активное значение и для преподавания и изучения казахского языка в качестве не толь- ко родного, но и иностранного. Немаловажное значение при этом, как уже говорилось, имеет то, что в отличие от других корпусов мира, ка- захский имеет перевод на русский и английский

языки. В целях оптимизации преподавания род- ного и иностранного языков при составлении учебников имеется возможность наполнять их реальными примерами, что будет способство- вать навыку развития естественных высказыва- ний, поскольку у казахского языка нет такого широкого применения, в отличие от мировых и других более распространенных языков. Поми- мо этого существенным является то, что в насто- ящее время лексика казахского языка активно пополняется за счет английского и перевода уже имеющихся слов, ранее заимствованных из дру- гих языков.

По мере наполнения корпуса можно будет надеяться, что учебники и компьютерные обуча- ющие программы (КОПР) будут ориентированы на корпус.

Кроме того, большое практическое значение корпус казахского языка имеет и при составле- нии лексикографических источников. Нужно учитывать, что в настоящее время лексикогра- фия казахского языка не изобилует источника- ми различных направлений. Этот фронт работы нуждается в максимальной доработке.

Корпус позволит осуществить формирова- ние онлайнового электронного корпуса/подкор- пусов текстов на казахском языке.

Безусловно, поскольку в настоящее время Алматинский корпус казахского языка составля- ет пилотную версию, он будет дополняться, об- новляться как количественно, так и качественно, кроме того будет существенно улучшаться поис- ковая функциональность корпуса.

В перспективе для развития и усовершен- ствования Алматинского корпуса казахского языка предполагается следующее:

– лингвистически репрезентативный корпус;

– мощный поисковый аппарат для осущест- вления сложных лексико-морфологических за- просов;

– удобный инструмент для самостоятельно- го изучения казахского языка, дающий для боль- шинства словоформ лексико-морфологические разборы и русские/английские переводные экви- валенты;

– диахронически ориентированный корпус, покрывающий различные периоды истории со- временного казахского языка;

– диверсифицированный корпус, включаю- щий разножанровые письменные и устные тек- сты разных типов;

– аннотированный корпус, снабженный грам- матической и библиографической разметкой;

– корпус, находящийся в открытом доступе;

(6)

– электронная библиотека, включающая бо- лее 100 классических произведений казахской литературы.

Подводя итоги, можно сказать, что кор- пус казахского языка – это хранилище текстов,

предназначенных для создания цельной инфор- мационной базы, дающей пользователю доступ пользователю к самому материалу как в его со- временном состоянии, так и в исторической пер- спективе.

Литература

1 Ельдесов Д. Язык без корпуса: возродится ли казахский язык? // http://www.altyn-orda.kz/dastan-eldesov-yazyk-bez- korpusa-vozroditsya-li-kazaxskij-yazyk/. – 2012. – 21 июня.

2 Сулейменова Э.Д. Языковая политика – фактор укрепления национально-государственной идентичности // http://

dknews.kz/yazykovaya-politika-faktor-ukrepleniya-nacionalno-gosudarstvennojj-identichnosti/. – 2013. – 29 ноября.

3 Википедия // https://ru.wikipedia.org/wiki/.

4 Алматинский корпус казахского языка // http://web-corpora.net/KazakhCorpus/search/?interface_language=ru.

5 Корпус казахского языка // http://new.til.gov.kz/index.php/ru/the-corpus-of-kazakh-language.

6 Национальный корпус русского языка // http://www.ruscorpora.ru/.

7 Британский национальный корпус // http://www.natcorp.ox.ac.uk/.

References

1 Eldesov D. Yazyk bez corpusa: vozroditsya li kazakhskij yazyk? // http://www.altyn-orda.kz/dastan-eldesov-yazyk-bez- korpusa-vozroditsya-li-kazaxskij-yazyk/. – 2012. – 21 Yune.

2 Suleimenova E.D. Yazykovaya politika – factor ukrepleniya nacionalno-gosudarstvennoj identichnosti // http://dknews.kz/

yazykovaya-politika-faktor-ukrepleniya-nacionalno-gosudarstvennojj-identichnosti/. – 2013. – 29 November.

3 Wikipedia // https://ru.wikipedia.org/wiki/.

4 Almaty Corpus of Kazakh // http://web-corpora.net/KazakhCorpus/search/?interface_language=ru.

5 The Corpus of Kazakh language // http://new.til.gov.kz/index.php/ru/the-corpus-of-kazakh-language.

6 Russian National Corpus // http://www.ruscorpora.ru/.

7 British National Corpus // http://www.natcorp.ox.ac.uk/.

Ақпарат көздері

СӘЙКЕС КЕЛЕТІН ҚҰЖАТТАР

С помощью спонсорской поддержки и проектной деятельности Фонда Отандастар и ВАК осуществляется поддержка центров изучения казахского языка

The morphological analysis of language depends on language type. Kazakh Language belongs to Turkish Language group of Altaic Language Family, which are «agglutinative

Разрабатываемый авторами медиа-корпус казахского языка будет представлять собой публичный веб-портал, который станет новым инструментом

Көп тіл ді бі лу – жас ұр пақ тың бі лім ке ңіс ті гін де ер- кін сам ға уына жол аша тын, әлем дік ғы лым құ пияла ры на үңі- ліп, өз қа бі ле тін та ныт уына мүм кін

Қо ры та ке ле, етіс тік ма ғы на лы со ма ти ка лық фра зе оло ги зм дер сөй лем ді аяқ таушы пре ди кат бол ған дық тан ва ле нт ті лік жа сауға өте бейім.. Ал

Ин но ва циялық ба ғыт та қыз мет ете тін жо ға ры оқу орын да рын да сту дент пен оқы ту шы лық-про- фес сор лық құ рам ның бі лім алып, оқы ту ба ры сы өте жай

Интеграция этнических репатриантов в новое общество неизбежно приводит к контакту двух или нескольких языков: казахского, русского и языка той страны,

На том же уровне, где предпочтения в выборе языка менее регулируемы и определяются стихийно (бытовое обслуживание, торговля, здравоохра-