logo
logo
EN
RU
logo
 


«Шаги / Steps» Журнал Школы актуальных гуманитарных исследований

Архив номеров

               
                   
                        
                   
                   
2021 :Т. 7, № 1
2020 :Т. 6, № 1Т. 6, № 2Т. 6, № 3Т. 6, № 4
2019 :Т. 5, № 1Т. 5, № 2Т. 5, № 3Т. 5, № 4
2018 :Т. 4, № 1Т. 4, № 2Т. 4, № 3–4
2017 :Т. 3, № 1Т. 3, № 2Т. 3, № 3Т. 3, № 4
2016 :Т. 2, № 1Т. 2, № 2–3Т. 2, № 4
2015 :Т. 1, № 1Т. 1, № 2

ШАГИ/STEPS 2021, т. 7, № 1

   pdf

Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry

D. S. Nikolaev
Российская академия народного хозяйства и государственной службы при Президенте РФ (Россия, Москва), Стокгольмский университет (Швеция, Стокгольм)
M. V. Shumilin
Российская академия народного хозяйства и государственной службы при Президенте РФ (Россия, Москва), И

DOI: 10.22394/2412-9410-2021-7-1-183-198

Ключевые слова: стилометрия, латинская литература, распределение Дирихле, Дельта Берроуза, Random Forest, атрибуция текстов, стилистический анализ, машинное обучение

Аннотация: В статье предлагается новый алгоритм для определения авторов латинских прозаических текстов, основанный на Дельте Берроуза и распределении Дирихле. Для демонстрации эффективности алгоритма проводится анализ фрагментов текстов 36 авторов классического и средневекового периода. Наш алгоритм показывает результаты, сопоставимые с результатами, полученными за счет применения Random Forest, одного из самых мощных универсальных классификационных алгоритмов. Преимущество нашего алгоритма заключается в том, что он требует очень мало времени и вычислительных ресурсов для обучения, его легко имплементировать на любом языке программирования общего назначения и его тривиально параллелизовать. Кроме того, поскольку алгоритм основан на эксплицитной модели порождения текста, параметры натренированной модели поддаются интерпретации: точность распределения (сумма его параметров) прямо соответствует стилистической гомогенности текстов соответствующего автора.

Статья подготовлена в рамках выполнения научно-исследовательской работы государственного задания РАНХиГС.

Для цитирования: Nikolaev D. S., Shumilin M. V. Identifying Latin authors through maximum-likelihood Dirichlet inference: A contribution to model-based stylometry // Шаги/Steps. Т. 7. № 1. 2021. С. 183–198. https://doi.org/10.22394/2412-9410-2021-7-1-183-198.