ШАГИ/STEPS 2021, т. 7, № 1
Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry
D. S. Nikolaev
Российская академия народного хозяйства и государственной службы при Президенте РФ (Россия, Москва), Стокгольмский университет (Швеция, Стокгольм)
M. V. Shumilin
Российская академия народного хозяйства и государственной службы при Президенте РФ (Россия, Москва), И
DOI: 10.22394/2412-9410-2021-7-1-183-198
Keywords: стилометрия, латинская литература, распределение Дирихле, Дельта Берроуза, Random Forest, атрибуция текстов, стилистический анализ, машинное обучение
Abstract: В статье предлагается новый алгоритм для определения авторов латинских прозаических текстов, основанный на Дельте Берроуза и распределении Дирихле. Для демонстрации эффективности алгоритма проводится анализ фрагментов текстов 36 авторов классического и средневекового периода. Наш алгоритм показывает результаты, сопоставимые с результатами, полученными за счет применения Random Forest, одного из самых мощных универсальных классификационных алгоритмов. Преимущество нашего алгоритма заключается в том, что он требует очень мало времени и вычислительных ресурсов для обучения, его легко имплементировать на любом языке программирования общего назначения и его тривиально параллелизовать. Кроме того, поскольку алгоритм основан на эксплицитной модели порождения текста, параметры натренированной модели поддаются интерпретации: точность распределения (сумма его параметров) прямо соответствует стилистической гомогенности текстов соответствующего автора.
Статья подготовлена в рамках выполнения научно-исследовательской работы государственного задания РАНХиГС.
To cite this article: Nikolaev D. S., Shumilin M. V. Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry // Шаги/Steps. Т. 7. № 1. 2021. С. 183–198. https://doi.org/10.22394/2412-9410-2021-7-1-183-198.