• Мнения
  • |
  • Обсуждения
Марк Блау Грандмастер

Экспериментальная ли наука языкознание? 1. Что такое корпус языка и для чего он нужен

Длительное время языкознание считалось наукой гуманитарной. Труды по филологии зачастую были пугающе толстыми. Но те, кому приходилось «перекапывать» эти сокровища научной мысли, случалось, извлекали из них довольно тощее резюме и, что хуже всего, не подтверждавшееся ничем, кроме сплетения словес — иногда изящного, иногда не очень.

Фото: pixabay.com

Сейчас языкознание превращается из науки гуманитарной в науку точную, то есть начинает использовать количественные методы, обеспечивающие воспроизводимость результатов исследований и предсказуемость выводов. При этом язык рассматривается как реально существующий объект, назначение которого — быть средством коммуникации (передачи информации) между людьми.

Такой подход к языку определили исследования американского ученого Джорджа Ципфа (George Kingsley Zipf; 1902 —1950). Он первый предложил количественную характеристику для больших текстовых массивов: частоту встречаемости слов. Он же вывел закон частотного распределения слов в тексте, справедливый для любого естественного языка.

Джордж Ципф
Джордж Ципф
Фото: ru.wikipedia.org

Закон Ципфа определил частотное распределение слов как универсальную и, вероятно, главную характеристику языка. Очень важно, что частоту распределения слов в языке можно подсчитать, а значит, более или менее однозначно интерпретировать.

Но во времена Дж. Ципфа подсчет частотного распределения слов в языке производился вручную и потому чисто технически был задачей нелегкой. В настоящее время это распределение легко рассчитать на компьютере. Таким образом, компьютер превращается в удобный инструмент, позволяющий производить эксперименты над языком.

Современные исследования и даже эксперименты над языком проводят на модельном объекте, который называется языковым корпусом.

Корпус языка похож на словарь, но это не словарь. В словаре перечисляются все слова, так или иначе входящие в язык. Если какое-то слово в словарь не входит, можно сомневаться в его принадлежности к языку. Вопрос о необходимости включения слова в словарь решают составители, и решение это может быть правильным, но это решение субъективное. Из-за такой субъективности и возникают анекдотические ситуации, изложенные в этой милой детской песенке, которую легко отыскать в Интернете.

Ситуация эта разруливается созданием специальных словарей, куда может включаться и лексика табуированная, и лексика преступников, арго, и всякого рода профессиональные жаргоны, например, язык моряков, о котором когда-то красиво написал В. Высоцкий:

Мы говорим не «штормы», а «шторма» —
Слова выходят коротки и смачны:
«Ветра» — не «ветры» — сводят нас с ума,
Из палуб выкорчевывая мачты.

Здесь же, на обочине серьезной работы по составлению словарей, кипят горячие дискуссии о том, не слишком ли много иностранных заимствований в русском языке (который по определению «велик и могуч») и не запретить ли приказным порядком употребление хорошего русского слова «мерчендайзинг»?

Кстати, кто из читателей сможет в двух словах объяснить, что это слово означает?

Корпус языка — это тоже список слов живого языка, но собирается он по другому принципу, нежели словарь. Специалисты по лингвистике считают, что объем корпуса языка должен быть не менее 1 миллиона слов, а составлять его следует, выбирая слова из самых разных источников, от газетных статей до классических текстов. А в некоторые корпусы включаются даже слова из различных записей устной речи.

Современная техника позволяет устранить разницу между словом записанным и словом изреченным.

То есть корпус — наиболее объективное отражение текущего состояния языка. А поэтому в него совершенно спокойно могут войти и слова, которые не нравятся пуристам, и слова, попросту неприличные. По какому праву? Да по праву их повсеместного и частого употребления.

Естественно, что и при составлении корпуса языка есть место «волюнтаризму» и субъективности. Так же, как находится место настоящему филологическому чутью и научной смелости. В современном языкознании составление корпусов языков — задача актуальная, популярная и необходимая.

Национальный языковой корпус — это не собрание слов, не словарь. Но его нельзя рассматривать также как некоторое собрание библиотечных текстов. Библиотеки, в том числе и электронные, формируются по субъективным критериям «интересности» или «полезности». Главное же при подборе текстов, на основе которых формируется корпус языка — их представительность. Для данного языка эти тексты должны быть наиболее характерными. А таковыми могут оказаться не только классические произведения художественной литературы, но и запись обычного телефонного разговора, и типовой договор, например, аренды помещения, и журнальные статьи, и роман второстепенного писателя.

Для формирования корпуса языка используют даже записи телефонных разговоров
Для формирования корпуса языка используют даже записи телефонных разговоров
Фото: pixabay.com

Подобно тому, как наравне с общими словарями существуют и словари специальные, наряду с общим корпусом языка существуют и поддерживаются корпусы специальные — например, корпус журнально-газетной лексики.

Еще одно важное отличие корпуса национального языка от словаря состоит в том, что корпус языка хранится не в виде книг, а формируется в виде электронного носителя. Это позволяет не только оперативно — вслед за изменением языка — изменять языковой корпус, но и надстраивать над ним некоторую систему дополнительной информации о свойствах входящих в корпус текстов.

Такая надсистема называется разметкой, или аннотацией. Именно разметка — главная ценность любого национального корпуса языка. Именно благодаря ей филологи могут экспериментировать над языком. В настоящее время в национальном корпусе русского языка используется пять видов разметки. Например:

  • Морфологическая разметка предполагает для каждого слова из корпуса указание его морфологических характеристик (какая это часть речи, какой у нее род, число, падеж, одушевленность и пр.).
  • Синтаксическая разметка определяет для каждого слова его положение в предложении (подлежащее, сказуемое, дополнение, обстоятельство, направление действия и другие).
  • Словообразовательная разметка указывает на взаимосвязь слов по их происхождению.
А вот составить корпус языка из словарных слов не получится - картина будет не полная
А вот составить корпус языка из словарных слов не получится — картина будет не полная
Фото: pixabay.com

Если в распоряжении филологов имеется корпус языка с хорошей разметкой, они могут сделать самые неожиданные открытия на основании зависимостей, которые раньше прятались «в курганах книг, похоронивших стих».

Один из флагманов Интернета, компания Google, стремится «пересчитать» и «учесть» не только информацию, содержащуюся в интернет-сайтах. В октябре 2004 года публике был представлен проект Google Book Search. Этот проект заключался в том, что компания Google начала сканировать и оцифровывать тексты книг, содержащихся в фондах крупнейших библиотек США и Великобритании. Оцифрованные тексты становятся частью базы данных Google. В результате появляется возможность полнотекстового поиска по содержимому печатной продукции: книг, журналов и газет. А самое главное, временные рамки информации, доступной обработке средствами Google, резко расширяются. Ведь если Интернет появился только во второй половине XX века, то печатные книги являются частью человеческой культуры с начала XVI века.

На основе этого проекта ученые-филологи неожиданно получили интересную возможность изучать процессы, происходящие в процессе развития естественных языков.

Продолжение следует…

Статья опубликована в выпуске 18.01.2019
Обновлено 21.07.2020

Комментарии (1):

Чтобы оставить комментарий зарегистрируйтесь или войдите на сайт

Войти через социальные сети:

  • Спасибо автору за очередную интересную статью, хотя многим далеким от этого читателям она может показаться заумной. Наука находится на стыке лингвистики и информационных технологий.

    Сама читаю студентам курс корпусной лингвистики и советую изучающим русский язык иностранцам, а также изучающим иностранный нашим студентам и аспирантам пользоваться НКРЯ , национальным корпусом русского языка. Так и вводите в поисковую строку.

    Проект начали , кажется в 2003 , но он все ещё развивается и с каждым годом пополняется. Интересно поработать с параллельным корпусом и увидеть, как одни и те же фрагменты текстов переведены разными профессиональными переводчиками. Для молодежи там уже и Гарри Поттера просклоняли, так что будет интересно.

    Оценка:5

    Оценка статьи: 5