logo
logo
EN
RU
logo
 

“Shagi / Steps” the Journal of the SASH

Issues

               
                   
                        
                   
                   
2023 :Vol. 9, N 1Vol. 9, N 2
2022 :Vol. 8, N 1Vol. 8, N 2Vol. 8, N 3Vol. 8, N 4
2021 :Vol. 7, N 1Vol. 7, N 2Vol. 7, N 3Vol. 7, N 4
2020 :Vol. 6, N 1Vol. 6, N 2Vol. 6, N 3Vol. 6, N 4
2019 :Vol. 5, N 1Vol. 5, N 2Vol. 5, N 3Vol. 5, N 4
2018 :Vol. 4, N 1Vol. 4, N 2Vol. 4, N 3–4
2017 :Vol. 3, N 1Vol. 3, N 2Vol. 3, N 3Vol. 3, N 4
2016 :Vol. 2, N 1Vol. 2, N 2–3 Vol. 2, N 4
2015 :Vol. 1, N 1Vol. 1, N 2

ШАГИ/STEPS 2021, т. 7, № 1

   pdf

Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry

D. S. Nikolaev
Российская академия народного хозяйства и государственной службы при Президенте РФ (Россия, Москва), Стокгольмский университет (Швеция, Стокгольм)
M. V. Shumilin
Российская академия народного хозяйства и государственной службы при Президенте РФ (Россия, Москва), И

DOI: 10.22394/2412-9410-2021-7-1-183-198

Keywords: стилометрия, латинская литература, распределение Дирихле, Дельта Берроуза, Random Forest, атрибуция текстов, стилистический анализ, машинное обучение

Abstract: В статье предлагается новый алгоритм для определения авторов латинских прозаических текстов, основанный на Дельте Берроуза и распределении Дирихле. Для демонстрации эффективности алгоритма проводится анализ фрагментов текстов 36 авторов классического и средневекового периода. Наш алгоритм показывает результаты, сопоставимые с результатами, полученными за счет применения Random Forest, одного из самых мощных универсальных классификационных алгоритмов. Преимущество нашего алгоритма заключается в том, что он требует очень мало времени и вычислительных ресурсов для обучения, его легко имплементировать на любом языке программирования общего назначения и его тривиально параллелизовать. Кроме того, поскольку алгоритм основан на эксплицитной модели порождения текста, параметры натренированной модели поддаются интерпретации: точность распределения (сумма его параметров) прямо соответствует стилистической гомогенности текстов соответствующего автора.

Статья подготовлена в рамках выполнения научно-исследовательской работы государственного задания РАНХиГС.

To cite this article: Nikolaev D. S., Shumilin M. V. Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry // Шаги/Steps. Т. 7. № 1. 2021. С. 183–198. https://doi.org/10.22394/2412-9410-2021-7-1-183-198.