ТОП авторов и книг ИСКАТЬ КНИГУ В БИБЛИОТЕКЕ
4,5,6,7.
В список служебных слов мы внесли следующие слова:
ПРЕДЛОГИ - в, на, с, за, к, по, из, у, от, для, во, без, до,
о, через, со, при, про, об, ко, над, из-за, из-под, под.
СОЮЗЫ - и, что, но, а, да, хотя, когда, чтобы, если, тоже,
или, то есть, зато, будто.
ЧАСТИЦЫ - не, как, же, даже, бы, ли, только, вот, то, ни,
лишь, ведь, вон, то-есть, нибудь, уже, либо.
Итого - 55 служебных слов. Хотя список неполон, он оказался
вполне достаточным для различения авторов.
ВАЖНЫЙ ЭКСПЕРИМЕНТАЛЬНЫЙ ФАКТ.
1) При величине выборок в 16000 слов процентное содержание
служебных слов для каждого автора из нашего списка (за
исключением одного писателя, о котором речь пойдет ниже)
оказалось приблизительно постоянным вдоль всех его произведений,
т.е. частотный график изображается практически горизонтальной
прямой. Эта стабилизация происходит для всех 22 писателей (из 23
исследованных). См. рис.7.
2) Разность между максимальным и минимальным значениями
параметра 3 (минимум и максимум взяты по всем исследованным
писателям) значительно больше амплитуды его колебаний внутри
произведений отдельных авторов. Амплитуда колебаний параметра 3
по разным писателям достаточно велика - от 19% до 27,5%.
См.рис.7. Отсюда следует, что параметр 3 хорошо различает многих
авторов.
На этом основании назовем параметр 3 - АВТОРСКИМ
ИНВАРИАНТОМ.
Он может служить для атрибуции неизвестных произведений и
для обнаружения плагиата, хотя и с определенной осторожностью,
поскольку мы обнаружили писателей с очень близкими авторскими
инвариантами, например, Фонвизин Д.И. и Толстой Л.Н. (см. ниже).
Кроме того, для достаточно уверенных выводов нужны тексты
большого объема.
Главным выводом здесь является нетривиальное утверждение о
существовании авторского инварианта русских литературнрых
текстов. Было бы интересно продолжить эксперименты с целью
обнаружения других авторских инвариантов.
Подчеркнем, что подобные выводы можно делать только после
проведения обширного вычислительного эксперимента.
Лишь после того, как будет экспериментально доказано, что тот или
иной параметр действительно стабилизируется внутри произведений
каждого писателя, можно считать, что мы обнаружили инвариант.
Причем обработанный список авторов должен быть достаточно велик -
по крайней мере несколько десятков. Строить же какие либо теории
лишь на основе сравнения текстов одного или двух писателей - по
нашему мнению необоснованно.
Интересно, что обнаруженный нами авторский инвариант
практически не зависит от временной эпохи: в указанном списке
авторов представлены писатели трех веков - от XVIII до XX.
9. ЧИСЛЕННЫЕ ПРИМЕРЫ
Поскольку, как выяснилось, основной интерес представляют
графики для выборок в 16000 слов, то ограничимся именно этим
случаем.
Для произведений И.С.Тургенева и Л.Н.Толстого приведем
таблицу значений следующих параметров:
3 - количество всех служебных слов (в процентах),
1 - количество слов в предложении,
2 - количество слогов в слове,
9 - количество служебных слов в предложении,
7 - количество предлога "в" (в процентах),
8 - количество частицы "не" (в процентах).
-----------------------------------------------------------------
параметры: ! 3 ! 1 ! 2 ! 9 ! 7 ! 8 !
-----------------------------------------------------------------
ТУРГЕНЕВ 22,01 11,26 2,17 2,44 2,36 2,19
22,36 15,58 2,16 3,49 2.05 1,87
22,38 13,35 2,21 3,04 - -
-----------------------------------------------------------------
среднее знач. 22,24 13,40 2,17 2,98 2,20 2,04
отклонение 0,016 0,322 0,023 0,35 0,14 0,16
----------------------------------------------------------------
параметры: ! 3 ! 1 ! 2 ! 9 ! 7 ! 8 !
----------------------------------------------------------------
ТОЛСТОЙ 23,67 13,13 2,11 3,09 2,10 2.05
23,34 20,75 2,15 4,79 2,56 1,72
23,45 14,27 2,28 3,35 2,38 1,67
23,58 18,93 2,16 4,62 2,46 1,87
23,78 14,86 2,15 3,64 2,74 1,88
23,35 16,33 2,19 3,80 2,71 1,93
23,77 14,23 2,11 3,47 2,15 2,17
23,82 15,24 2,11 5,75 2,19 2,07
23,77 14,97 2,20 3,42 2,49 1,75
----------------------------------------------------------------
среднее знач. 23,62 15,95 2,16 3,81 2,36 1,92
отклонение 0,020 0,477 0,08 0,45 0,27 0,26
---------------------------------------------------------------
Отчетливо видно, что наименьшими отклонениями обладают
параметры 3 и 2, а именно - 0,016 и 0,023 для Тургенева и 0,020 и
0,08 для Толстого. Но параметр 2 не может служить авторским
инвариантом, так как его значения для подавляющего большинства
разных авторов из нашего списка чрезвычайно близки. Например,
2,17 для Тургенева и 2,16 для Толстого. Поэтому с точки зрения
параметра 2 все писатели "сливаются в одного", что не позволяет
их различать.
Параметр 3 - частота служебных слов - оказывается не только
инвариантом, но и различает достаточное число авторов. Например,
для Тургенева он равен 22,24, а для Толстого 23,62. Разность
равна 1,38, что превышает колебания этого параметра внутри
произведений Тургенева и Толстого.
Для изученных нами писателей параметр 3 может принимать
значения от 19,4 процентов до 27,5 процентов, т.е. диапазон его
значений достаточно велик по сравнению с колебаниями параметра
внутри текстов отдельных авторов.
Приведем теперь таблицу значений параметров 3,7 и 8 для
Гоголя, Герцена, Достоевского, Леонова и Фадеева.
-------------------------------------------------------------------
параметры: ! 3 ! 7 ! 8 ! параметры: ! 3 ! 7 ! 8 !
-------------------------------------------------------------------
ГОГОЛЬ 23,82 2,25 2,10 ! ГЕРЦЕН 22,42 2,87 2,03
23,54 2,29 1,86 ! 22,87 3,10 2,04
23,61 2,61 1,82 !
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224
В список служебных слов мы внесли следующие слова:
ПРЕДЛОГИ - в, на, с, за, к, по, из, у, от, для, во, без, до,
о, через, со, при, про, об, ко, над, из-за, из-под, под.
СОЮЗЫ - и, что, но, а, да, хотя, когда, чтобы, если, тоже,
или, то есть, зато, будто.
ЧАСТИЦЫ - не, как, же, даже, бы, ли, только, вот, то, ни,
лишь, ведь, вон, то-есть, нибудь, уже, либо.
Итого - 55 служебных слов. Хотя список неполон, он оказался
вполне достаточным для различения авторов.
ВАЖНЫЙ ЭКСПЕРИМЕНТАЛЬНЫЙ ФАКТ.
1) При величине выборок в 16000 слов процентное содержание
служебных слов для каждого автора из нашего списка (за
исключением одного писателя, о котором речь пойдет ниже)
оказалось приблизительно постоянным вдоль всех его произведений,
т.е. частотный график изображается практически горизонтальной
прямой. Эта стабилизация происходит для всех 22 писателей (из 23
исследованных). См. рис.7.
2) Разность между максимальным и минимальным значениями
параметра 3 (минимум и максимум взяты по всем исследованным
писателям) значительно больше амплитуды его колебаний внутри
произведений отдельных авторов. Амплитуда колебаний параметра 3
по разным писателям достаточно велика - от 19% до 27,5%.
См.рис.7. Отсюда следует, что параметр 3 хорошо различает многих
авторов.
На этом основании назовем параметр 3 - АВТОРСКИМ
ИНВАРИАНТОМ.
Он может служить для атрибуции неизвестных произведений и
для обнаружения плагиата, хотя и с определенной осторожностью,
поскольку мы обнаружили писателей с очень близкими авторскими
инвариантами, например, Фонвизин Д.И. и Толстой Л.Н. (см. ниже).
Кроме того, для достаточно уверенных выводов нужны тексты
большого объема.
Главным выводом здесь является нетривиальное утверждение о
существовании авторского инварианта русских литературнрых
текстов. Было бы интересно продолжить эксперименты с целью
обнаружения других авторских инвариантов.
Подчеркнем, что подобные выводы можно делать только после
проведения обширного вычислительного эксперимента.
Лишь после того, как будет экспериментально доказано, что тот или
иной параметр действительно стабилизируется внутри произведений
каждого писателя, можно считать, что мы обнаружили инвариант.
Причем обработанный список авторов должен быть достаточно велик -
по крайней мере несколько десятков. Строить же какие либо теории
лишь на основе сравнения текстов одного или двух писателей - по
нашему мнению необоснованно.
Интересно, что обнаруженный нами авторский инвариант
практически не зависит от временной эпохи: в указанном списке
авторов представлены писатели трех веков - от XVIII до XX.
9. ЧИСЛЕННЫЕ ПРИМЕРЫ
Поскольку, как выяснилось, основной интерес представляют
графики для выборок в 16000 слов, то ограничимся именно этим
случаем.
Для произведений И.С.Тургенева и Л.Н.Толстого приведем
таблицу значений следующих параметров:
3 - количество всех служебных слов (в процентах),
1 - количество слов в предложении,
2 - количество слогов в слове,
9 - количество служебных слов в предложении,
7 - количество предлога "в" (в процентах),
8 - количество частицы "не" (в процентах).
-----------------------------------------------------------------
параметры: ! 3 ! 1 ! 2 ! 9 ! 7 ! 8 !
-----------------------------------------------------------------
ТУРГЕНЕВ 22,01 11,26 2,17 2,44 2,36 2,19
22,36 15,58 2,16 3,49 2.05 1,87
22,38 13,35 2,21 3,04 - -
-----------------------------------------------------------------
среднее знач. 22,24 13,40 2,17 2,98 2,20 2,04
отклонение 0,016 0,322 0,023 0,35 0,14 0,16
----------------------------------------------------------------
параметры: ! 3 ! 1 ! 2 ! 9 ! 7 ! 8 !
----------------------------------------------------------------
ТОЛСТОЙ 23,67 13,13 2,11 3,09 2,10 2.05
23,34 20,75 2,15 4,79 2,56 1,72
23,45 14,27 2,28 3,35 2,38 1,67
23,58 18,93 2,16 4,62 2,46 1,87
23,78 14,86 2,15 3,64 2,74 1,88
23,35 16,33 2,19 3,80 2,71 1,93
23,77 14,23 2,11 3,47 2,15 2,17
23,82 15,24 2,11 5,75 2,19 2,07
23,77 14,97 2,20 3,42 2,49 1,75
----------------------------------------------------------------
среднее знач. 23,62 15,95 2,16 3,81 2,36 1,92
отклонение 0,020 0,477 0,08 0,45 0,27 0,26
---------------------------------------------------------------
Отчетливо видно, что наименьшими отклонениями обладают
параметры 3 и 2, а именно - 0,016 и 0,023 для Тургенева и 0,020 и
0,08 для Толстого. Но параметр 2 не может служить авторским
инвариантом, так как его значения для подавляющего большинства
разных авторов из нашего списка чрезвычайно близки. Например,
2,17 для Тургенева и 2,16 для Толстого. Поэтому с точки зрения
параметра 2 все писатели "сливаются в одного", что не позволяет
их различать.
Параметр 3 - частота служебных слов - оказывается не только
инвариантом, но и различает достаточное число авторов. Например,
для Тургенева он равен 22,24, а для Толстого 23,62. Разность
равна 1,38, что превышает колебания этого параметра внутри
произведений Тургенева и Толстого.
Для изученных нами писателей параметр 3 может принимать
значения от 19,4 процентов до 27,5 процентов, т.е. диапазон его
значений достаточно велик по сравнению с колебаниями параметра
внутри текстов отдельных авторов.
Приведем теперь таблицу значений параметров 3,7 и 8 для
Гоголя, Герцена, Достоевского, Леонова и Фадеева.
-------------------------------------------------------------------
параметры: ! 3 ! 7 ! 8 ! параметры: ! 3 ! 7 ! 8 !
-------------------------------------------------------------------
ГОГОЛЬ 23,82 2,25 2,10 ! ГЕРЦЕН 22,42 2,87 2,03
23,54 2,29 1,86 ! 22,87 3,10 2,04
23,61 2,61 1,82 !
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224