Марк Блау Грандмастер

Как быстро определить язык, на котором написан текст?

Глобализация наступает. В любой момент вы можете столкнуться со строкой текста, написанном на иностранном языке, который вы не то что не знаете, но даже идентифицировать его будете не в состоянии.

Фото: wilhei, pixabay.com

Впрочем, сделать это, как правило, не сложно. Этот ответ услужливо дадут один-два символа, характерные только для данного языка, и ни для какого другого.

О языках, использующих кириллицу, мы в этой статье говорить не будем. Но у тех языков, которые пользуются латинской письменностью, для звуков, которые встречаются только в данном языке, используются уникальные символы или комбинации символов, которые помогут однозначно определить сам неизвестный язык.

Что это за символы?

Ã, ã: это почти наверняка португальский язык. Если, к тому же, язык этот похож на испанский, со 100%-й вероятностью португальский язык. Пример: São Paulo.

Ă, ă: A с «чашечкой» сверху встречается только в румынском языке и во вьетнамском. Но во вьетнамском короткие слова. Для подтверждения того, что перед вами румынский текст, поищите в нем символы Ţ / ţ и Ş / ş (T и S с запятой внизу).

Бухарест, Румыния
Бухарест, Румыния
Фото: freestocks-photos, pixabay.com

Ģ, ģ; Ķ, ķ; Ļ, ļ; Ņ, ņ: латышский язык. Только в этом языке есть четыре согласные буквы с запятыми, расположенными снизу, и это не Ţ / ţ и Ş / ş, как в румынском. Кроме того, над гласными буквами в латышском языке для обозначения его длительности ставят линию: Ā /ā, Ī / ī, Ō / ō, Ū / ū. В другом балтийском языке, литовском, длительность звуков обозначают иначе.

Ő, ő; Ű, ű: «Ежики» над этими гласными буквами — верный признак венгерского языка. Кроме того, в тексте довольно часто встречается сочетание gy для обозначения звука ДЬ. Например, самоназвание Венгрии, Magyarország, Мадьярорсаг. Заметили еще одно часто встречаемое в венгерском языке сочетание — sz? Так венгры обозначают звук С. Довольно неожиданно! Еще один признак венгерского: почти все слова непонятны, и то и дело встречаются довольно длинные слова. Например, megszentségteleníthetetlenség — эта черта не может быть осквернена.

Ř, ř: этот звук, средний между Р и Ж, существует только в чешском языке. Другая отличительная буква, встречающаяся только в чешском языке — Ů / ů. Ну, и, наконец, если то и дело встречаются слова, похожие на русские — значит, 100% чешский.

Станция метро в Праге, Чехия
Станция метро в Праге, Чехия
Фото: mh-grafik, pixabay.com

Другой славянский язык, польский, имеет уникальный звук, обозначаемый буквой Ł, ł: Łódź. Буква эта похожа на Л, но читается, как английская W — Уодзь. В польском языке слов, похожих на русские, еще больше, чем в чешском.

I, ı; İ, i: в турецком тексте вы встретите оба варианта буквы I, с точкой и без точки. Это два разных звука — Ы и И, соответственно. Столица Турции — İstanbul, Истанбул. Еще в турецком языке есть буква ğ. Она пишется, но не произносится. Например, Erdoğan — Эрдоан, а не Эрдоган.

Å, å: те, кто изучал физику, узнают эту букву. Так обозначается единица длины «ангстрём». Эта буква есть во всех скандинавских языках: норвежском, датском и шведском. Как различить эту веселую троицу? Если вы найдете в тексте еще ø и æ - это норвежский или датский. Если отыщете ö и ä - это шведский язык. Как отличить датский от норвежского? Ищите в тексте сдвоенную букву а: aa (как в фамилии известного датского философа Кьеркегора (Kierkegaard). У норвежцев нет такого звука и такого обозначения этого звука.

Уличный плакат в Рейкьявике, Исландия
Уличный плакат в Рейкьявике, Исландия
Фото: DCCom, pixabay.com

Есть еще два скандинавских языка — исландский и фарерский. Оба используют буквы Ð, ð; Þ, þ для обозначения звука, который в современном английском обозначается сочетанием th. Фарерский язык — достаточно редкий, так что указанные буквы почти наверняка — признак исландского. Но если хотите точности определения — в фарерском встречается буква ø, в исландском вместо нее используют ö (jökull, «ледник»).

Язык состоит из коротких слов, и почти над каждой гласной есть акцент или «чубчик»? Это вьетнамский язык. Пример из Википедии:

Hà Nội là thủ đô của nước Cộng hoà Xã hội chủ nghĩa Việt Nam và cũng là kinh đô của rất nhiều vương triều Việt cổ.

Ханой является столицей Социалистической Республики Вьетнам, а также является столицей многих древних вьетнамских династий.

Вьетнамский плакат
Вьетнамский плакат
Фото: falco, pixabay.com

Ñ, ñ, а также перевернутые вопросительный и восклицательный знаки (¡No pasaran!) присутствуют только в испанских текстах. Если слова в тексте вроде бы испанские (или французские), но часто встречаются буквы X / x — это каталанский язык. Редчайшую в испанском букву каталонцы используют для обозначения звука Ш.

В немецком языке используются гласные буквы с умлаутами Ä / ä, Ö / ö и Ü / ü. Кроме того, в немецком тексте довольно часто встречаются длинные слова, а также артикли der, die и das. В голландском языке встречаются сдвоенные гласные буквы (их используют для обозначения длинных звуков) и «сладкая парочка» ij (читается, как «ай»)

Кельтские языки (ирландский, шотландский гэльский и валлийский) характеризуются длинными словами. В ирландском и шотландском в тексте часто встречаются двухбуквенные сочетания согласных: bh, ch, dh, fh, gh, mh, ph, sh и th. Только ирландцы и шотландцы знают, как эти сочетания произносятся. Акцентированные гласные используются в обоих языках, но только в шотландском есть акценты, направленные в левую сторону, как, например, à в Gàidhlig.

Валлийский язык сильно отличается от других кельтских «братьев». В нем много сдвоенных букв ll и ff, а буква w является гласной (например, cwm).

Угро-финские «братья» — финский и эстонский. В текстах на этих языках трудно распознать даже «международные» слова. В финском языке могут встретиться очень длинные слова, например «moottoripyöräonnettomuus» — «мотоциклетная авария». Сдвоенные гласные в этих языках — обычное дело.

Уличный указатель в Таллине, Эстония
Уличный указатель в Таллине, Эстония
Фото: camux, pixabay.com

Как отличить текст на эстонском языке от финского текста? В эстонском языке есть слова, оканчивающиеся на b или g, а также символ õ. Ну, и конечно, если вам повезло, можно обнаружить самоназвания: у финнов Suomi, у эстонцев — Eesti.

В албанском языке используются буквы c и q, а также сочетание xh. В тексте на албанском языке можно встретить букву ë (например столица Албании Тирана пишется Tiranë). Албанский язык абсолютно не похож ни на один европейский. Самоназвание страны — Shqipëria.

Хорватский язык похож на русский еще сильнее, чем чешский и польский. В нем есть буква Đ / đ для обозначения звука «дж». Для смягчения звуков Л и Н используется буква j: Nj = Нь, Lj = Ль.

Если вы знакомы с украинским языком, то без труда прочтете почти любую надпись на словацком языке. Эти языки очень близки.

Словацкий народный театр в Братиславе
Словацкий народный театр в Братиславе
Фото: falco, pixabay.com

Вообще задача определения современного языка по небольшому отрывку текста на этом языке разрешима всегда. У каждого языка есть характерные признаки, которые позволяют это сделать. Эти особенности проанализированы в замечательном справочнике Р. С. Гиляревского и В. С. Гривнина «Определитель языков мира по письменностям» для большого числа языков. Книга эта очень полезная, хотя последнее ее издание вышло в 1965 году, поэтому кое в чем она устарела.

То, что можно свести в таблицу и классифицировать, можно и запрограммировать. Программу по автоматическому определению языка называют иногда guesser. Такая программа позволяет по введенным нескольким словам текста определить язык, на котором этот текст написан. Естественно, чем больше слов, тем точнее будет определение. Список таких программ можно найти в Интернете. Кроме того, с задачей определения языка, с которого осуществляется перевод иностранных слов, очень часто справляется и переводчик Google.

Обновлено 29.04.2018
Статья размещена на сайте 27.04.2018

Комментарии (1):

Чтобы оставить комментарий зарегистрируйтесь или войдите на сайт

Войти через социальные сети: