Шведские ученые разработали новый способ выявлять автора текста - они установили, что роль "отпечатков пальцев" писателей может ать частота встречаемости новых слов в их текстах.
В статье, опубликованной в четверг в научном издании New Journal of Physics, группа шведских физиков из университета Умео под руководством Себастьяна Бернгардсона описала новый метод, который позволяет на основе статистических данных определить автора текста.
Исследователи проверяли, как в текстах трех писателей - Томаса Харди, Генри Мелвилла и Дэвида Лоуренса - реализуется так называемый закон Ципфа. Этот закон, открытый в 1935 году лингвистом Джорджем Ципфом, гласит, что частота какого либо слова в текста обратно пропорциональна его рангу - месту в списке слов текста, отсортированных по частоте.
Так, например, второе по частоте слово будет встречаться в тексте примерно в два раза реже, чем первое, третье - в три раза реже и так далее.
Шведские физики в своей статье показали, что этот закон не так универсален, как считал Ципф. Они обнаружили, что частота появления новых слов по мере роста объема текста меняется у разных авторов по- разному, причем эта закономерность не зависит от конкретного текста, а только от автора.
Статистический анализ показал, что закономерность остается постоянной в любых текстах одного и того же автора - романах, главах из романов, рассказов, и может служить своеобразными "отпечатками пальцев".
Авторы исследования, наблюдая за этими статистическими закономерностями, выдвинули идею так называемой "метакниги" - воображаемого бесконечного текста, в котором описан мир глазами того или иного автора. "Создавая произведение, автор "вытаскивает" куски текста из этой большой "материнской книги" и перекладывает их на бумагу, сохраняя, однако, частотные характеристики концептов в этой метакниге", - пишут ученые.
Статистические методы определения авторства известны довольно давно, и шведские исследователи просто предложили еще один, относительно простой способ, сказала лингвист Елизавета Былинина из Утрехтского университета (Нидерланды).
"Традиционно считается, что авторский стиль хорошо характеризуется распределением служебных слов, и другими незначимыми, и потому плохо заметными глазу, а хорошо заметными статистике характеристиками - средняя длина предложения, количество вводных слов", - сказала собеседница агентства.
По ее словам, Бернгардсон и его соавторы попытались представить некоторую частотную "карту" произведений, и нашли, что она постоянна для каждого автора, даже без всяких других "хитростей".
"Это хороший результат, но не сенсационный", - считает лингвист, сообщает РИА "Новости".
Инф. mignews