ANALYSIS OF THE BIGRAMS FREQUENCY IN ROMAN IVANYCHUK’S, VASYL SHKLAR’S AND LINA KOSTENKO’S TEXTS

Authors

  • Igor Kulchytskyi
  • Olena Levchenko
  • Natalіia Lototska

Keywords:

idiolect, corpus text, statistical methods, statistical parameter, frequency analysis, entropy, bigrams

Abstract

The study of writer’s idiolect has become one of the leading areas of modern linguistics. The article presents the importance of computer technologies opportunities in research and description of language. The research deals with modern techniques and their value for studying writer’s language in linguistics. The methods of corpus linguistics concern such lingual phenomena in corpus texts that are difficult to explore without computer technologies. The term idiolect and his interpretation by Ukrainian and foreign linguists are presented. For multidimensional study of writer’s speech, it is worth doing a quantitative analysis of writer's text. The definition of corpus text and its importance in linguistic research are given. The text is referred to as the highest level in the language system, along with linguistic units such as phoneme, morpheme, word, phrase, sentence, united by communicative integrity, logical, grammatical and stylistic connections. Statistical research is used to identify the features of the functional language styles and individual author’s style, for the automatic processing of the text and determination of its author's and time attribution. The important characteristics in the language is the letter frequency (monograms), pairs of letters (bigrams), n-grams. The material of the research is Roman Ivanychuk’s, Vasyl Shklar’s and Lina Kostenko’s texts. Studying the bigrams frequency the entropy of the bigrams for the corresponding arrays of texts was analysed. In the texts we left the letters of the Ukrainian alphabet, the gap, the apostrophe and the hyphen (extended alphabet of the Ukrainian language). For each array of text, the number of extended alphabets, its frequency and entropy was calculated. In the process of texts analysis we investigated the selection of segment texts for random research yields a more stable value of the index than the choice of successive segments. In addition, the most frequent and common bigram for three writers has been observed. In consequence of the research, the bigrams frequency is analyzed, and the results are presented in the form of lists and diagrams. Subsequently, these data can be used to compare the texts of other authors.

References

Арнольд И. В. Основы научных исследований в лингвистике : учеб. пособ. – М. : Высш. шк., 1991. – 140 с.

Бук С. Сучасні методи дослідження мови письменника у слов’янознавстві / С. Бук // Проблеми слов’янознавства .– 2012 .– Вип. 61 . С. 86–95.

Демська-Кульчицька О. М. Базові поняття корпусної лінгвістики / О. М. Демська-Кульчицька // Українська мова. – 2003. – №1. – С. 42–47.

Іваничук Роман. Євангеліє від Томи: триптих повістей / Роман Іваничук. – Харків : Фоліо, 2011.– 316 c.

Іваничук Роман. Манускрипт з вулиці Руської: іст. роман / Роман Іваничук. – Львів : Піраміда, 2011. – 201 с

Іваничук Роман. Хресна проща: романний триптих / Роман Іваничук. – Львів : Піраміда, 2011. – 281 с.

Кульчицький І. М. Технологічні аспекти укладання корпусів текстів / І. М. Кульчицький // Дані текстових корпусів у лінгвістичних дослідженнях : монографія / В. А. Широков, І. В. Шевченко, А. П. Загнітко та ін. ; за ред. О. П. Левченко. – Львів : Вид-во «Львівської політехніки», 2015. – С. 29–45. 8. Костенко Л. В. Вибране / Л. В. Костенко. – К. : Дніпро, 1989. – 559 с

Павличко О. О. Щодо статистичних параметрів авторського стилю (на матеріалі творів Е. М. Ремарка) / Оксана Олексіївна Павличко // Мовні і концептуальні картини світу : зб. наук. пр. – К. : ВПЦ «Київський університет», 2010. – Вип. 29. – С. 186–191.

Перебийніс В. І. Що дає статистика лінгвістам? // Вісник Київського лінгвістичного університету. Серія філологія. Т. VI. – 2003. – № 2. – С. 27–32.

Пиотровский Р. Г. Математическая лингвистика : учеб. пособие / Р. Г. Пиотровский. – М. : Высш. шк., 1977. – 383 с.

Ставицька Л. Про термін ідіолект / Л. О. Ставицька // Українська мова. – 2009. –№ 4. – С. 3–15.

Статистичні параметри стилів / за ред. В. С. Перебийніс. – Київ : Наукова думка, 1967. – 260 с.

Шкляр В. Елементал / В. Шкляр. –Х. : Книжковий клуб «Клуб сімейного дозвілля», 2013. – 222 с.

Шкляр В. Кров кажана / В. Шкляр. –Х. : Книжковий клуб «Клуб сімейного дозвілля», 2013. – 272 с.

Шкляр В. Тінь сови / В. Шкляр. –Х. : Книжковий клуб «Клуб сімейного дозвілля», 2014. – 304 с.

Diccionario de Lingüistica / Dubois, J., Giacomo, M., Guespin, L., Marcellesi, C., Marcellesi, J-P., Mével. J-P. – Madrid : Alianza, 1994. – 636 p.

Fucks W Mathematische Analyse von Sprachele-menten, Sprachstil und Sprachen / W. Fucks. – Koln und Oplade, 1955. – 110 p.

Herdan G. Language as Choice and Chance / G. Herdan. – Noordhoff : Groningen, 1956. – 356 p.

Neveu F. Dictionnaire des sciences du langage / F. Neveu. – Paris : A. Colin, 2004. – [Electrinic resourse]. – Mode of access : http://www.franckneveu.fr/mediapool/76/768102/data/IDIOLECTE.pdf

Ross A. Philological Probability Problems / A. Ross // «Statist. Soc.». – Vol. XII. – 1950. – P. 19–59.

Shannon C. Weaver W. The Mathematical Theory of Communication / C. Shannon, W. Weaver. – Univ of Illinois Press, 1949. – 117 p.

Zipf G. K. Human Behavior and the Principle of Least Effort / G. K. Zipf. – Addison-Wesley, 1949. – 573 p.

Практическая криптология [Електронний ресурс] / С. А. Сушко. – Режим доступу : http://bit.nmu.org.ua/ua/student/metod/cryptology/%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D1%202.pdf

Published

2021-06-22

How to Cite

Kulchytskyi І., Levchenko О., & Lototska Н. (2021). ANALYSIS OF THE BIGRAMS FREQUENCY IN ROMAN IVANYCHUK’S, VASYL SHKLAR’S AND LINA KOSTENKO’S TEXTS. Current Issues of Foreign Philology, (8), 183–190. Retrieved from http://journals.vnu.volyn.ua/index.php/philology/article/view/2645