28 марта 2024, четверг, 16:49
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Статистика и родство языков

Вариант родословного древа австроазиатской семьи языков по данным лексикостатистики
Вариант родословного древа австроазиатской семьи языков по данным лексикостатистики
Paul Sidwell

20 – 22 марта в Институте восточных культур РГГУ состоялась конференция «Сравнительно-историческое языкознание в XXI веке: проблемы и перспективы». Она была посвящена 60-летию со дня рождения знаменитого отечественного компаративиста С. А. Старостина. Среди докладов, прозвучавших на конференции, большое внимание привлек ряд выступлений, так или иначе посвященных статистическим алгоритмам установления языкового родства и датировки языковых изменений.

В последние годы статистические методы в сравнительно-историческом языкознании переживают новый расцвет. Во многом это связано с влиянием бурного развития кладистики в биологии. Возможность построить родословное древо языковой семьи, используя строгие математические методы, привлекает многих ученых. Основу этого направления в лингвистике заложил еще в 1950-х годах Морис Сводеш, предположивший, что существует некоторое количество слов, которые во всех языках сохраняются наиболее долго. К таким словам относятся названия частей тела (рука, нос, глаз), термины родства (отец, мать), простые действия (идти, есть) и еще целый ряд слов. Для их общего названия часто применяют термин «базисная лексика». Выделенный список слов, для которых предполагается особая стабильность, назван «списком Сводеша». Он существует в вариантах из 110 и из 200 слов.

На мысль о глоттохронологии Сводеша вдохновил появившийся незадолго до этого метод радиоуглеродного анализа.

Лексикостатистика – это метод установления степени родства языков на основе того, какой процент общих слов из списка Сводеша они сохранили. Если мы возьмем произвольную пару славянских языков (например, русский и чешский или польский и болгарский), то окажется, что общих слов в списке Сводеша для них – 75-85%. Для пары славянского языка с языком балтийской группы (например, чешский и латышский) совпадений будет 45-50%, а для славянского языка с одним из германских – около 30%. Более сложный алгоритм – глоттохронология – основан на втором предположении Сводеша: скорость выпадения слов из базисной лексики постоянна. Поэтому, зная процент общих слов в двух родственных языках, мы можем вычислить дату их расхождения от языка-предка. На мысль о глоттохронологии Сводеша вдохновил появившийся незадолго до этого метод радиоуглеродного анализа.

Точность и достоверность результатов лексикостатистической классификации и глоттохронологической датировки зависит от того, насколько тщательно материал списков обработан с помощью сравнительно-исторического метода – верно ли выделены слова, которые исследователь считает общим наследием сравниваемых языков.

На прошедшей конференции слушатели узнали о новых результатах, полученных в рамках проекта «Глобальной лексикостатистической базы данных» (ГЛБД). Цель этого проекта – создать унифицированную и упорядоченную систему списков базисной лексики для языков мира, пригодную для дальнейшей работы. Доклад Анны Дыбо (РГГУ / Институт языкознания РАН) был посвящен семантическую анализу слов, включаемых в список Сводеша. Дело в том, что многие английские слова, используемые в качестве семантических ярлыков в списке Сводеша, сами потенциально многозначны, и в других языках их значения могут передаваться разными словами. Тогда возникает вопрос, какое именно из значений мы должны считать «сводешским»? На материале тюркских языков докладе анализировались возможные значения слов из списка Сводеша, выделялись наиболее стабильные из них, определялись сочетания значений и семантические переходы, наиболее характерные для этих слов.

Прозвучали и доклады о применении методов лексикостатистики к конкретным группам языков. О результатах работы в рамках проекта ГЛБД над лезгинской ветвью северо-кавказских языков рассказал Алексей Касьян (Институт языкознания РАН / РГГУ). Михаил Живлов (Институт языкознания РАН / РГГУ) выступил с докладом о лексикостатистическом исследовании хоканских языков.

Следует подчеркнуть, что исследования в рамках ГЛБД основаны на классическом методе сравнительно-исторического языкознания: в базисной лексике языков находятся регулярные звуковые соответствия, формулируются правила этих соответствий, порой довольно сложные. И лишь потом в дело вступает статистика, помогающая уточнить структуру генеалогического древа и даты расхождения его ветвей. «Общие» слова, процент которых вычисляется, это слова, которые восходят к одному и тому же слову праязыка. Лингвист не может просто объявить слова общими лишь из-за того, что они созвучны, он обязан продемонстрировать регулярность их звуковых соответствий.

Есть и другое направление в современной компаративистике, для которого характерен отказ от классической процедуры установления языкового родства. Исследователи в таком случае целиком полагаются на статистические данные, а слова признаются «общими» для сравниваемых языков на основании сходства, по тому или иному формальному алгоритму.

На конференции прозвучали доклады о двух проектах, сделанных в рамках этого направления. В первом из них Сёрен Вихманн (Институт Макса Планка, Лейпциг) рассказал о проекте The Automated Similarity Judgment Program (ASJP). Для оценки близости языков в нем используется «расстояние Левенштейна» – то есть количество замен, вставок или удалений фонемы, необходимых для того, чтобы одно слова превратилось в другое. Например, расстояние Левенштейна между русским словом ухо и украинским вухо равно единице (надо добавить в-), а между русским ухо и белорусским вуха – двум (добавить в- и заменить о на а). Создатели ASJP оценивают родство языков по суммарному расстоянию Левенштейна для слов отобранного списка базисной лексики. Понятно, что в случаях не очень далекого родства языков этот метод будет довольно хорошо выделять родственную группу. Сами разработчики ASJP признают, что их метод эффективен, когда языки разошлись не более, чем 5 тысяч лет назад. Применив такие подсчеты к языка ареала, недостаточно изученного классической компаративистикой (Южная Америка, Африка, Новая Гвинея, Восточная Азия), можно выделить группы языков, с высокой вероятностью родственных друг другу, а затем, уже используя классические методы сравнительно-исторической лингвистики, доказать их родство строго.

Вероятностную модель выявления этимологических связей предложил и Йоханн-Маттис Лист (Магдебургский университет). Она основана на предложенной А. Б. Долгопольским еще в 1964 году идее объединения согласных звуков в классы. В один класс попадают согласные звуки, которые в истории языков переходят друг в друга чаще, чем в другие звуки. Например, в один класс попадают все шумные губные согласные (б, п, ф), в другой – все сибилянты (с, з, ж, ш).

Слова из разных языков с совпадающими или близкими значениями сравниваются, и, если их соответствующие согласные попадают в один класс, считаются «совпадающими». В таком случае часть родственных слов может выпасть из «совпадающих», если согласные в них результате изменений попали в другой класс (так, не будут признаны родственными русское ухо и македонское уво), а также появится некоторое количество слов со случайно совпавшими согласными. Однако на достаточно больших словарных списках эти отклонения уравновешивают друг друга, и в результате для родственных языков мы получим число «совпадающих» слов, которое явно будет больше вероятности случайных совпадений. Й.-М. Лист развил эту идею, введя понятие позиции (отдельно рассматриваются позиции звука в начале слова, перед гласной и т. п.).

Пока соответствующая компьютерная программа не применялась к анализу языков с невыясненными родственными связями. Идет отладка методики на материале словарных списков из индоевропейских языков, родство которых уже давно установлено. Это позволяет оценить точность работы программы и внести необходимые поправки.

Материалы докладов и видеозаписи выступлений доступны на сайте конференции.

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.