ТОП авторов и книг ИСКАТЬ КНИГУ В БИБЛИОТЕКЕ
), повесть
"Юность" (написана в 1856 г.), рассказ "Набег" (написан в 1852
г.), повесть "Утро помещика" (написана в 1856 г.), повесть
"Казаки" (написана в 1863 г.), роман "Война и мир" (написан в
1863-1869 гг.), роман "Анна Каренина" (написан в 1873-1877 гг.),
роман "Воскресение" (написан в 1899 гг.), М., 1960-1964.
ПИСАТЕЛИ XX ВЕКА:
16) ГОРЬКИЙ А.М. (1868-1936) - рассказ "Макар Чудра"
(написан в 1892 г.), рассказ "Дед Архип и Ленька" (написан в 1894
г.), рассказ "Старуха Изергиль" (написан в 1894-1895 гг.),
рассказ "Ошибка" (написан в 1895 г.), рассказ "Однажды ночью"
(написан в 1895 г.), рассказ "Озорник" (написан в 1896 г.),
рассказ "Товарищи" (написан в 1897 г.), рассказ "Супруги Орловы"
(написан в 1897 г.), рассказ "Бывшие люди" (написан в 1897 г.),
рассказ "Мальва" (написан в 1897 г.), рассказ "Скуки ради"
(написан в 1897 г.), рассказ "Варенька Олесова" (написан в 1898
г.), рассказ "Дружки" (написан в 1898 г.), рассказ "Читатель"
(написан в 1898 г.), М., 1939. Далее: повесть "Детство" (написана
в 1912-1913 гг.), повесть "В людях" (написана в 1914-1915 гг.),
повесть "Мои университеты" (написана в 1923 г.), повесть "Дело
Артамоновых" (написана в 1925 г.), М., 1967.
17) БУНИН И.А. (1870-1953) - рассказ "Антоновские яблоки"
(написан в 1900 г.), повесть "Деревня" (написана в 1909-1910
гг.), повесть "Суходол" (написана в 1911 г.), рассказ "Захар
Воробьев" (написан в 1911-1912 гг.), рассказ "Братья" (написан в
1916 г.), рассказ "Господин из Сан-Франциско" (написан в 1915
г.), рассказ "Божье дерево" (написан в 19130 г.), рассказ
"Натали" (написан в 1941 г.), рассказ "Чистый понедельник"
(написан в 1944 г.), М., 1973.
18) НОВИКОВ-ПРИБОЙ А.С. (1877-1944) - рассказ "По-темному"
(написан в 1911 г.), рассказ "Бойня" (написан в 1906 г.), рассказ
"Пошутили" (написан в 1913 г.), рассказ "Порченный" (написан в
1912 г.), повесть "Море зовет" (написана в 1919 г.), роман
"Капитан первого ранга" (написан в 1936-1944 гг.), роман "Цусима"
(написан в 1905-1941 гг.), М., 1963.
19) ФЕДИН К.А. (1892-1977) - роман "Города и годы" (написан
в 1924 г.), роман "Братья" (написан в 1928 г.), М., 1974.
20) ЛЕОНОВ Л.М. (род. 1899) - роман "Русский лес" (написан в
1953 г.), М., 1974.
21) ШИШКОВ В.Я. (1873-1945) - повесть "Тайга" (написана в
1916 г.), повесть "Пейнус-озеро" (написана в 1931 г.), роман
"Угрюм-река" (написан в 1918-1932 гг.), М., 1960.
22) ФАДЕЕВ А.А. (1901-1956) - роман "Разгром" (написан в
1926 г.), роман "Молодая гвардия" (написан в 1945 г.).
23) ШОЛОХОВ М.А. (1905-1984) - собрание сочинений в 8 томах,
М., 1962: ранние рассказы - том 1, роман "Тихий Дон" - тома 2-5,
роман "Поднятая целина" - тома 6,7, рассказы - том 8.
6. ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ
Для каждого из этих писателей мы в 1974-1977 годах полностью
обработали все указанные в списке сочинения. А именно, вдоль всех
этих многотомных текстов были просчитаны значения девяти
перечисленных лингвистических параметров. В результате, мы
построили частотные графики для выборок размером в 2000, 4000,
8000, 16000 слов. Вся эта огромная работа была выполнена нами
"вручную", поскольку мы не располагали компьютеризированными
версиями всех этих книг (мы не уверены, что таковые существуют
даже сегодня).
Принцип построения частотных графиков был таков. По
горизонтали откладывались номера последовательных выборок, а по
вертикали - численные значения лингвистических параметров. В
результате каждому писателю отвечает некоторая ломаная кривая.
Колебания параметров, их отклонения от среднего значения,
подсчитывались по формуле
d = (H.макс - H.мин) / H.сред
где H.макс, H.мин, H.сред - максимальное, минимальное и среднее
значения соответственно.
7. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТА
Оказалось, что все перечисленные параметры за исключением
параметра 3 при росте объема выборки либо не стабилизируются
вообще, либо разброс их значений для одного автора сравним с
максимальной разностью значений для разных авторов. Другими
словами, в этом последнем случае "все авторы склеиваются", их
невозможно численно отделить друг от друга. Ясно, что такие
параметры не могут служить для различения хотя бы некоторых групп
авторов.
Типичным примером первой ситуации (отсутствие стабилизации с
ростом объема выборки) является эволюция параметра 1 - количества
слов в предложении (рис.2). Отчетливо видно, что даже при объеме
выборок в 16000 слов кривые хаотичны, сильно перемешаны и размах
колебаний слишком велик.
Типичным примером второй ситуации ("слипание всех
писателей") является поведение параметра 2 - количества слогов в
слове (рис.3). Хотя при объеме выборок в 16000 слов кривые
начинаются выпрямляться, стабилизироваться, однако все траектории
практически сливаются друг с другом, слипаются, что делает
невозможным различение авторов.
Аналогичная картина наблюдается и для параметров
4,5,6,7,8,9. Например, кривые параметра 9 не стабилизируются и
перемешиваются. Поведение параметра 8 похоже на поведение
параметра 2 - хотя при большом объеме выборок кривые
выравниваются, однако они становятся очень близкими друг к другу,
стремятся к одному и тому же значению, определяемому,
следовательно, общими законами русского языка, а не
индивидуальными особенностями писателя.
На этом основании нам представляется крайне сомнительным
использование параметров 1,2,4,5,6,7,8,9 для различения авторов.
8. ЧАСТОТА УПОТРЕБЛЕНИЯ СЛУЖЕБНЫХ СЛОВ ОКАЗЫВАЕТСЯ
АВТОРСКИМ ИНВАРИАНТОМ
Замечательным исключением является параметр 3 - частота
употребления всех служебных слов - ПРЕДЛОГОВ, СОЮЗОВ И ЧАСТИЦ.
Эволюция этого параметра в зависимости от роста объема выборки
показана на рис.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224
"Юность" (написана в 1856 г.), рассказ "Набег" (написан в 1852
г.), повесть "Утро помещика" (написана в 1856 г.), повесть
"Казаки" (написана в 1863 г.), роман "Война и мир" (написан в
1863-1869 гг.), роман "Анна Каренина" (написан в 1873-1877 гг.),
роман "Воскресение" (написан в 1899 гг.), М., 1960-1964.
ПИСАТЕЛИ XX ВЕКА:
16) ГОРЬКИЙ А.М. (1868-1936) - рассказ "Макар Чудра"
(написан в 1892 г.), рассказ "Дед Архип и Ленька" (написан в 1894
г.), рассказ "Старуха Изергиль" (написан в 1894-1895 гг.),
рассказ "Ошибка" (написан в 1895 г.), рассказ "Однажды ночью"
(написан в 1895 г.), рассказ "Озорник" (написан в 1896 г.),
рассказ "Товарищи" (написан в 1897 г.), рассказ "Супруги Орловы"
(написан в 1897 г.), рассказ "Бывшие люди" (написан в 1897 г.),
рассказ "Мальва" (написан в 1897 г.), рассказ "Скуки ради"
(написан в 1897 г.), рассказ "Варенька Олесова" (написан в 1898
г.), рассказ "Дружки" (написан в 1898 г.), рассказ "Читатель"
(написан в 1898 г.), М., 1939. Далее: повесть "Детство" (написана
в 1912-1913 гг.), повесть "В людях" (написана в 1914-1915 гг.),
повесть "Мои университеты" (написана в 1923 г.), повесть "Дело
Артамоновых" (написана в 1925 г.), М., 1967.
17) БУНИН И.А. (1870-1953) - рассказ "Антоновские яблоки"
(написан в 1900 г.), повесть "Деревня" (написана в 1909-1910
гг.), повесть "Суходол" (написана в 1911 г.), рассказ "Захар
Воробьев" (написан в 1911-1912 гг.), рассказ "Братья" (написан в
1916 г.), рассказ "Господин из Сан-Франциско" (написан в 1915
г.), рассказ "Божье дерево" (написан в 19130 г.), рассказ
"Натали" (написан в 1941 г.), рассказ "Чистый понедельник"
(написан в 1944 г.), М., 1973.
18) НОВИКОВ-ПРИБОЙ А.С. (1877-1944) - рассказ "По-темному"
(написан в 1911 г.), рассказ "Бойня" (написан в 1906 г.), рассказ
"Пошутили" (написан в 1913 г.), рассказ "Порченный" (написан в
1912 г.), повесть "Море зовет" (написана в 1919 г.), роман
"Капитан первого ранга" (написан в 1936-1944 гг.), роман "Цусима"
(написан в 1905-1941 гг.), М., 1963.
19) ФЕДИН К.А. (1892-1977) - роман "Города и годы" (написан
в 1924 г.), роман "Братья" (написан в 1928 г.), М., 1974.
20) ЛЕОНОВ Л.М. (род. 1899) - роман "Русский лес" (написан в
1953 г.), М., 1974.
21) ШИШКОВ В.Я. (1873-1945) - повесть "Тайга" (написана в
1916 г.), повесть "Пейнус-озеро" (написана в 1931 г.), роман
"Угрюм-река" (написан в 1918-1932 гг.), М., 1960.
22) ФАДЕЕВ А.А. (1901-1956) - роман "Разгром" (написан в
1926 г.), роман "Молодая гвардия" (написан в 1945 г.).
23) ШОЛОХОВ М.А. (1905-1984) - собрание сочинений в 8 томах,
М., 1962: ранние рассказы - том 1, роман "Тихий Дон" - тома 2-5,
роман "Поднятая целина" - тома 6,7, рассказы - том 8.
6. ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ
Для каждого из этих писателей мы в 1974-1977 годах полностью
обработали все указанные в списке сочинения. А именно, вдоль всех
этих многотомных текстов были просчитаны значения девяти
перечисленных лингвистических параметров. В результате, мы
построили частотные графики для выборок размером в 2000, 4000,
8000, 16000 слов. Вся эта огромная работа была выполнена нами
"вручную", поскольку мы не располагали компьютеризированными
версиями всех этих книг (мы не уверены, что таковые существуют
даже сегодня).
Принцип построения частотных графиков был таков. По
горизонтали откладывались номера последовательных выборок, а по
вертикали - численные значения лингвистических параметров. В
результате каждому писателю отвечает некоторая ломаная кривая.
Колебания параметров, их отклонения от среднего значения,
подсчитывались по формуле
d = (H.макс - H.мин) / H.сред
где H.макс, H.мин, H.сред - максимальное, минимальное и среднее
значения соответственно.
7. РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТА
Оказалось, что все перечисленные параметры за исключением
параметра 3 при росте объема выборки либо не стабилизируются
вообще, либо разброс их значений для одного автора сравним с
максимальной разностью значений для разных авторов. Другими
словами, в этом последнем случае "все авторы склеиваются", их
невозможно численно отделить друг от друга. Ясно, что такие
параметры не могут служить для различения хотя бы некоторых групп
авторов.
Типичным примером первой ситуации (отсутствие стабилизации с
ростом объема выборки) является эволюция параметра 1 - количества
слов в предложении (рис.2). Отчетливо видно, что даже при объеме
выборок в 16000 слов кривые хаотичны, сильно перемешаны и размах
колебаний слишком велик.
Типичным примером второй ситуации ("слипание всех
писателей") является поведение параметра 2 - количества слогов в
слове (рис.3). Хотя при объеме выборок в 16000 слов кривые
начинаются выпрямляться, стабилизироваться, однако все траектории
практически сливаются друг с другом, слипаются, что делает
невозможным различение авторов.
Аналогичная картина наблюдается и для параметров
4,5,6,7,8,9. Например, кривые параметра 9 не стабилизируются и
перемешиваются. Поведение параметра 8 похоже на поведение
параметра 2 - хотя при большом объеме выборок кривые
выравниваются, однако они становятся очень близкими друг к другу,
стремятся к одному и тому же значению, определяемому,
следовательно, общими законами русского языка, а не
индивидуальными особенностями писателя.
На этом основании нам представляется крайне сомнительным
использование параметров 1,2,4,5,6,7,8,9 для различения авторов.
8. ЧАСТОТА УПОТРЕБЛЕНИЯ СЛУЖЕБНЫХ СЛОВ ОКАЗЫВАЕТСЯ
АВТОРСКИМ ИНВАРИАНТОМ
Замечательным исключением является параметр 3 - частота
употребления всех служебных слов - ПРЕДЛОГОВ, СОЮЗОВ И ЧАСТИЦ.
Эволюция этого параметра в зависимости от роста объема выборки
показана на рис.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224