THE ENTROPY OF BIGRAMS AS FORMAL ANALYSIS METHOD OF LITERARY TEXTS
Keywords:
statistical methods, frequency, bi-gram, entropy, idiolect, array of textsAbstract
The article describes stages of formation, main objects and problems in the application of methods of quantitative linguistics in the study of the idiolect of writers on the material of their works. According to the literature analysis among the most common methods are the calculations of the number of syllables in a word, word length, sentence length, distribution of parts of speech / function words, the richness of vocabulary, etc. At the same time such objects of research like bigrams and their entropy are becoming more relevant nowadays. It is caused by the possibility of analyzing minor text fragments, as well as by the absence of the need for a costly and time-consuming process of preliminary preparation of texts (markup, part-of-speech attribution). The significance and relevance of this subject was stressed in connection with the development of computer technologies and software, namely, the creation of an appropriate research corps. It is noted that this method of research of literature will be able to complement literary studies and will allow bringing more objectivity into traditional methods. The novelty of the work is the application of the method of entropy analysis of bigrams as one of the promising in the study of information and statistical properties of literary texts with the purpose of qualitative analysis of the features of the creative manner of writers and its comparison with general language indicators. For the first time such technique was used to analyze novellas by V. Stefanyk and M. Yatskiv, as well as the poetry of P. Karmanskyi. This choice jf authors is due to the homogeneity of the chronological (for all three authors) and genre criteria (for the novelists V. Stefanyk and M. Yatskiv). Poetry by P. Karmansky was chosen to draw parallels between prose and poetic works. Further research perspectives based on the results are outlined.
References
Батура Т. В. Формальные методы установления авторства текстов и их реализация в программных продуктах / Т. Батура // Программные продукты и системы. – Изд-во : ЗАО НИИ «Центрпрограммсистем». – Тверь, 2013. – Вып. 4. – С. 286–295.
Верхозин С. С. К вопросу о лингвотеоретических основах методик авторизации текста / С. С. Верхозин // Учёные записки Забайкальского госуд. ун-та. Серия : Филология, история, востоковедение. – № 2 (49). – 2013. – С. 22–27.
Гоголева В. А. Математический подход к установлению авторства и времени создания текста на основе исследования его энтропии / В. А. Гоголева, А. П. Шкарапута // Вестник Пермского университета. Серия : Математика. Механика. Информатика. – Пермь, 2014. – № 4. – С. 22–28.
Журавлёва Н. Н. Применение количественных методов при анализе стиля автора и решении проблем атрибуции / Н. Н. Журавлёва // Вестн. Тюменского гос. ун-та. – 2012. – № 1. – С. 150–155.
Захаров В. Н. Программная система поддержки атрибуции текстов статей Ф. М. Достоевского / В. Н. Захаров, А. А. Леонтьев, А. А. Рогов, Ю. В. Сидоров // Труды Петрозаводского государ. ун-та. Сер. : Прикладная математика и информатика. – Петрозаводск : ПетрГУ, 2000. – Вып. 9. – С. 180–189.
Калимон Ю. О. Співвідношення термінів на позначення системи мовних засобів письменника / Ю. О. Калимон // Актуальні проблеми філології та перекладознавства. Вип. 12. – Хмельницький НУ, 2017. – С. 92–96.
Калимон Ю. О. Ідіолект, ідіостиль, індивідуальний стиль. Тотожне чи різне? / Ю. О. Калимон, І. М. Кульчицький, І. О. Ліхнякевич // Науковий вісник ВНУ ім. Лесі Українки. Серія : Філологічні науки. Мовознавство. – Луцьк, 2014. – № 6. – С. 226–229.
Карманський П. Поезії / П. С. Карманський. – К. : Укр. письменник, 1992. – 361 с.
Кульчицький І. М. Дослідження довжини речення та слова у творах Романа Іваничука / Ігор Кульчицький // Вісник Нац. ун-ту «Львівська політехніка». – Львів, 2017. – С. 139–148.
Кульчицький І. М. Технічні аспекти функціонування текстів у електронному інформаційному просторі / Ігор Кульчицький // Український інформаційний простір. Число 2. - Київський національний університет культури і мистецтв. – Київ 2014. – С. 101–108.
Родионова Е. С. Методы атрибуции художественных текстов // Структурная и прикладная лингвистика : межвуз. сб. / под ред. А. С. Герда. – СПб : Из-тво С.-Пб. ун-та, 2008. – Вып. 7. – С. 118–127.
Стефаник В. Межа / Василь Стефаник // Літературно-науковий вісник. – Т. 92, кн. 2. – Львів, 1927. – С. 97–98.
Стефаник В. Портрет : твори / Василь Стефаник. – Львів : ДВУ, 1929. – С. 94–95.
Стефаник В. Твори [з дереворитами В. Касіяна і М. Бутовича] / Василь Стефаник. – Львів : з друкарні Видавничої Спілки «Діло», 1933. – 222 с.
Стефаник В. Шкільник / Василь Стефаник // Рідна школа. – Львів, 1932. – № 1. – С. 2–4.
Суровцева Т. Г. О построении статистических критериев для атрибуции авторства литературных текстов / Т. Г. Суровцева , С. П. Чистяков . – Вестник СПбГУ, Сер. 10, Вып. 3. – 2009. – C. 137–142.
Хмелёв Д. В. Распознавание автора текста с использованием цепей А. А. Маркова / Д. В. Хмелёв // Вестник МГУ. Сер. 9: Филология. – № 2. – 2000. – С. 115–126.
Хозяинов С. А. Некоторые проблемы и методы квантитативно-структурного изучения авторских стилей / С. А. Хозяинов // Известия Рос. Госуд. педагог. ун-та им. А. И. Герцена. – 2008. – № 63(1). – С. 378–383.
Яцків М. Вибрані твори / Михайло Яцків. – Київ : Дніпро, 1973. – 453 с.
Grieve J. W. Quantitative Authorship Attribution: A history and an evaluation of techniques / J. W. Grieve. – Simon Fraser University. – 2005. – 282 p.
Holmes D. I. The Analysis of Literary Style-A Review / D. I. Holmes // Journal of the Royal Statistical Society. Series A (General), vol. 148, no. 4. – 1985. – P. 328–341.
Holmes D. I. ‘The Evolution of Stylometry in Humanities scholarship / D. I. Holmes // Literary and Linguistic Computing Vol.13(3). – 1998. – P. 111–117.
Hoover D. Quantitative Analysis and Literary Studies. In: A Companion to Digital Literary Studies / D. Hoover. [Electronic resource]. — Access mode : http://digitalhumanities.org/companion/view?docId=blackwell/ 9781405148641/ 9781405148641.xml&chunk.id=ss1-6-9&toc.id=0&brand=9781405148641_brand
Jones S. When Computers Read: Literary Analysis And Digital Technology / Jones S. // Bulletin of the American Society for Information Science and Technology. - Vol. 38. - No 4. – 2012. - P. 27–30.
Kešelj V. N-gram based author profiles for authorship attribution / V. Kešelj, F. Peng, N. Cercone, C. Thomas // Proceedings of the conference Pacific Association for Computational Linguistics, PACLING. – Vol. 3. – 2008. – P. 255–264.
Siemens R. A New Computer-assisted Literary Criticism? / R. Siemens // Computers and the Humanities. – 2002. – P. 259–267.
Wright D. Using word n-grams to identify authors and idiolects: A corpus approach to a forensic linguistic problem / D. Wright // International Journal of Corpus Linguistics. – Vol. 22(2). – 2017. – P. 212–241.
Downloads
Published
How to Cite
Issue
Section
License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.