Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции “Диалог-2002″.
Традиционно лексико-статистический анализ текста сводится к определению частотности слов, и это, безусловно, дает четкую объективную характеристику текста. Но четкое перечисление составляющих текста, с указанием частоты их встречаемости подобно каталогу картинной галереи без фотографий – каталогу, перечисляющему предметы, животных и людей, изображенных на картинах, с указанием их количества, с подробным перечислением и подсчетом деталей, например, смокингов, сюртуков, косовороток и т.д. и т.п.
Все это объективно, правильно и информативно, но такие общие для совокупности картин подробности заслоняют их суть, которая не может выражаться абсолютной величиной; следовательно, такое «бухгалтерское» перечисление деталей уводит от понимания ценности картины, заключающейся, прежде всего, в уникальности каждой картины. Даже знаменитый «черный квадрат» Малевича знаменит именно тем, что посередине белого холста «покоится» (?) («находится» (?), «висит» (?), «есть» (?), «нарисована» (?)) правильная геометрическая фигура, и эта фигура в виде квадрата, и она черного цвета! Важна совокупность признаков, но именно этихпризнаков, потому что нигде (среди картин) такого нет (по крайней мере, не было!). Или, скажем, «Джоконда» – это не просто женский портрет на фоне пейзажа, это портрет женщины с «загадочным» лицом, а точнее, улыбкой.
Если говорить о текстах, а не о картинах, что, собственно, и является темой данной статьи, то читателя сначала интересует, О ЧЁМ текст (стоит ли его читать?), а потом – ЧТО интересного в нем. И даже если это интересное «растворено» в тексте, и даже если приятно «растворяться» в процессе чтения, то все равно в результате остаетсянечто, а не все.
Поисково-аналитическая система «Зум» работает именно как указка опытного экскурсовода, высвечивающая те составляющие картины (или текста), которые делают ее ценной для всей «галереи» (или библиотеки). Выражаясь лингвистическими терминами, данная система показывает рематические единицы базы данных, которые для конкретных документов этой базы являются тематическими. Суть (и новизна) данного инструмента заключается в том, что на фоненекоторой совокупности текстов (базы данных) оценивается лексический состав полученной по запросу выборки. То есть происходит не простое выстраивание слов (словосочетаний) выборки по частоте их встречаемости там, а отбор слов (словосочетаний), характеризующих отличие этой выборки от всего остального, имеющегося в базе.
Например, слово «любовь» в конкретных текстах очень часто обладает высокой частотностью, но высокая значимость у него может быть только при условии, что либо его частотность в рассматриваемой выборке еще выше, чем обычно, либо все другие слова в данной выборке употребляются с меньшей частотой. При этом какая-нибудь фамилия, встречающаяся только в данном тексте, будет иметь высокую значимость, и тем выше, чем меньше текстов будет в этой выборке и больше – в фоновой базе.
В связи с этим возникает сомнение: правильно ли значимость слова (словосочетания) понижать только потому, что оно значимо везде? Рассмотрим пример со словом «любовь». Если в исследуемой базе всепроизведения о любви – значит, все равно должно быть что-то другоедостойное, чем эти тексты интересны и что отличает их друг от друга: именно это и будет достоянием, наиболее значимым словом. Если в исследуемой базе только часть произведений на данную тему, то это слово уже должно иметь высокую значимость, если именно эту выборку мы анализируем. И самый главный аргумент в пользу данного инструмента лексико-статистического анализа текста: этот инструмент определяет именно специфичность лексического содержания конкретной выборки текстов, он служит для обработки (своего рода скорочтения) большого текстового массива; это такойинструмент и служит он для таких целей.
Для каких целей нужно определение подобной специфичности? Что представленный инструмент может дать, в частности, для литературоведения? Очевидно, что с его помощью можно выделить характерные, ключевые для конкретного текста слова, словоформы, словосочетания.
Еще раз подчеркнем, что это инструмент, а не разум: выводы о результатах объективного исследования с помощью точного инструмента должен делать ученый, который так или иначе будет доказывать или опровергать свои субъективные ощущения. Интерпретация может быть разной, но она будет тем правильнее, чем больше будет материала для сравнения, потому что этот инструмент в основе своей имеет алгоритм сравнения – сравнения с базой данных – для выявления наиболее характерных для данной выборки слов (словосочетаний).
Исследование
Вопросы исследования
Попытавшись применить нашу систему для исследования художественных текстов, мы задались некоторыми литературоведческими вопросами: можно ли по значимым словам и словосочетаниям определить авторство, жанр, стиль писателя?
Для этого был проведен с помощью представляемой поисково-аналитической системы сравнительный анализ лексического состава и стилистических особенностей произведений Н. Гоголя, Л. Толстого, Ф. Достоевского, А. Чехова, М. Булгакова;
Результаты исследования лексического состава и стилистических особенностей произведений Н. Гоголя, Л. Толстого, Ф. Достоевского, А. Чехова, М. Булгакова
Н. Гоголь
Приоритет: фамилии, отчества, профессии, ранги, национальности;
Есть ругательства («собачий сын», «чертов сын», «всякая дрянь»).
Эпитеты: табель о рангах (коллежский, куренной, статский), возрастной статус («старый козак», «старый тарас», «покойный дед»).
Глаголы: «оборотиться», «изволить», «позабыть», «признаваться», «нюхать», «вскрикнуть», «обступить», «понюхать», «изобразить», «уставить», «мелькать», «попадаться», «показываться», «напечатать», «прибавить», «почитать», «отзываться», «отворить», «отзывать» и т.д.
По отдельным произведениям:
«Вечера на хуторе…»: примерно так же, но акцент на возрастном статусе персонажей («покойный дед», «молодая жена», «старый человек»), на времени («каждый год», «прошлый год», «другой день», «другой раз»).
«Тарас Бульба»: практически совпадает с общей картиной по Гоголю.
«Ревизор»: в целом совпадает; очень «сюжетно-показательные» глаголы («изволить», «жаловать», «проезжать», «осмелиться», «берет»). Но среди значимых нет ругательств:
вероятно, это объясняется социальным статусом персонажей конкретной пьесы.
«Мертвые души»: примерно совпадает с общей картиной, но акцент на социальном статусе («губернаторская дочка», «новый генерал», «херсонский помещик», «трактирный слуга»). В отличие от других произведений, присутствует автор («наш герой», «знакомый читатель»).
Посмотрим на информационные картины по жанрам.
В рассказах и повестях, как и в пьесе («Ревизор»), наиболее значима «табель о рангах» («коллежский асессор», «значительное лицо», «ваше превосходительство», «статский советник» и т.п.),
в «поэме» («Мертвые души») – и «лирические отступления» («в некотором роде», «сие слово»). Это по словосочетаниям; по словам практически не различаются: и там и там имена и звания – как и в целом у Гоголя.
Интерпретация: галерея мещанских портретов.
Л. Толстой
Приоритет: фамилии, имена, отчества (вперемежку), титулы, внешность (части тела, лица), чувства, временная лексика..
Эпитеты: «ее/его», «это/то», «всякий», «нынешний», «весь», «общий», «свой», «другой».
Это подтверждается и по отдельному произведению (например, по «Анне Карениной» («ее/его», «свой», «это/то», «первый»), по «Детству» («мой», «это/то», «свой»), по «Хаджи Мурату» ( «его», «этот», «свой»).
Интересно, что в «Хаджи Мурате» вообще нет никаких значимых отдельных слов, кроме имен. В других же произведениях («Анна Каренина» и «Детство» среди отдельных значимых не имен собственных очень много «рефлексивной» лексики – оценочные наречия и абстрактные существительные, выражающие различные состояния. Эмпирически именно так и представляется Л.Толстой.
Интерпретация: философские размышления о людях.
Ф. Достоевский
Приоритеты: фамилии (достаточно вычурные), имена, отчества – много героев, и необычных; очень много слов и словосочетаний, характеризующих время («последний», «былой», «вчерашний», «третий день», «одно мгновение», «другой раз», «вечный муж», «минута», «время», «день»); заметна «раздражительная» лексика («вздор», «дескать», «низкий человек»).
Эпитеты: указательно-притяжательные местоимения, выполняющие как бы «приземляющую» функцию («этот господин», «другой день», «эта минута», «ваша мамаша», «ваша сестрица», «этот день», «нашострог», «наша камера», «своя каморка»…); отдающее тревогой прилагательное «последний» («последнее слово», «последнее время», «последняя степень»); «положительные» прилагательные («деловой человек», «приличный человек», «порядочный человек», «милостивый государь», «высшее общество», «ваше превосходительство», «этот господин») – выглядят подчеркнуто неестественно на фоне просторечных, пренебрежительных и «мрачных» слов («давеча», «воротиться», «мамаша», «девица», «сестрица», «подружка», «повеситься», «пьяный», «вскричать»).
Интерпретация: мрачный мир населяют жалкие люди, живущие в раздражении, неуважении, буре эмоций – поглощающие время и поглощенные им.
А. Чехов
Приоритет. Очень много значимых слов и словосочетаний – титулы, место («правая дверь», «грязные обои»), время, точнее, «периодичность» («целый день», «всякий раз», «другой день»), отчества, фамилии; имена (– только женские!; «деноминация» мужчин?), описание внешности («большие глаза», «плачущий голос», «резиновые калоши»). Очень много значимых словосочетаний со словом «человек» («образованный человек», «добрый человек», «честный человек», «порядочный человек», «счастливый человек», «хороший человек», «умный человек»), при этом отдельно слова «человек» нет среди значимых! Видимо, подобные словосочетания характеризуют лейтмотив творчества Чехова: тема «положительного» человека – это одна из главных его тем.
Эпитеты: очень много эпитетов. Особых предпочтений не наблюдается, но наиболее частотные из значимых – «весь» («вся ночь», «все лето», «весь день», «весь вечер», «все тело», «вся душа», «вся дорога», «весь сад», «весь двор», «весь город») порядковые числительные, «такой» («такое выражение», «такой тон», «такое чувство», «такая жизнь», «такое слово», «такой вид»). Подобную «определенность» можно, конечно, по-разному интерпретировать, но что бы за ней ни стояло (желание быть понятым, или бескомпромиссность, или инерционность, или что-то другое) – она есть и на нее стоит обратить внимание.
Глаголы: «изволить», «уезжать», «заплакать», «стучать», «погодить», «умолять», «сконфузиться», «замучиться», «обнимать», «женить», «кушать», «сердиться», «презирать», «бормотать», «постареть», «отворять», «обедать», «помереть», «спиться», «надоесть», «влюбить», «напевать», «целоваться», «бранить» и т.д. Достаточно разнообразно, но, все же, на первом месте именно «изволить», достаточно значимы «погодить» и «сконфузиться» – тема «маленького чиновника». Интересно, что в пьесах (как совокупности) вообще отсутствуют значимые глаголы.
Интерпретация: жизнь обывателей, как калейдоскоп картинок, состоящий из деталей интерьера, одежды, внешности, – на фоне быстротекущего времени, что только подчеркивает однообразную суету жизни.
Чехов-драматург и Чехов-писатель («рассказчик») очень характерно различаются при сравнении отдельных значимых слов: в пьесах значимыми оказываются только имена и совсем нет глаголов, а в рассказах – пафосные слова (типа «преосвященный», «превосходительство»), «надменные» («изволить», «братец»), «простецкие» («Дмитрич», «Иваныч», «Андреич», «тетка») – то есть такие, совокупность которых и создает атмосферу мещанской пошлости.
«Вишневый сад» подтверждает это, «Три сестры» – исключение, подтверждающее правило: помимо имен, сравнительно значимыми оказываются глаголы «замучиться», «надоесть». В пьесах Чехова очень значим эпитет «мой» – монологичность.
М. Булгаков
(в базе не было драматических произведений Булгакова)
Приоритет: одушевленные существительные (имена, фамилии, прозвища, «профессии»); встречаются и локативные существительные («театр», «больница», «варьете», «ялта», «приемная»); есть ругательства («дурная боль», «тот черт», «сукин сын», «этот негодяй», «чертова матерь»). Явно просматриваются 3 основные темы – медицина, литература и театр, «местоположение» (адреса). Главной характеристикой оказывается голос: «бабий», «дикий», «страшный», «сиплый», «тонкий», «чужой», «женский», «хриплый», «мужской». Почти нет значимых глаголов (разве что «тяпнуть» в «Собачьем сердце». Все перемешано («священный нил» и «задняя лапа», «гипофиз» и «фить», «домком» и «гренада», «мессир» и «буфетчик», «гражданин» и «афраний», «лысая гора» и «садовая улица»).
Эпитеты: явное предпочтение «черного» («черная мазь», «черное окно», «черный снег», «черная мгла», «черный кот», «черная пасть», «черная магия», «черный маг», «черный ход», «черный волос», «черный глаз») и «белого» («белая марля», «белый халат», «белое пятно», «белый колпак», «белый плащ», «белое лицо»). В «Мастере и Маргарите» фоном проходит «черное» («черная магия», «черный кот», «черный маг»). Но при этом заметны и другие краски – «зеленая петлица», «желтое масло», «зеленая лампа», «красный луч», «розовая краска», «желтоватая кожа», «зеленый огонь», «золотая буква», «серый костюм».
Глаголы: «молвить», «лечить», «вскричать», «лечиться», «тяпнуть», «впрыснуть», «заведовать», «помещаться», «бормотать», «шепнуть», «выписать», «помещать», «резать», «помниться», «зарезать», «втирать», «помереть», «шептать», «ущемить», «потухать», «сыпать», «потухнуть», «помиловать», «прокричать», «утихнуть», «осведомиться», «щуриться», «загреметь», «лакировать» и т.п. Обозначены несколько нелепые действия, и очень много «голосовых» глаголов, и тоже не вполне нормальных.
Интерпретация: Основное действие – в мешанине и перемещении разных «типов», которые характеризуются, в основном, своими именами и рангами, то есть «неотъемлемыми» признаками, и специфическими голосами, создающими какофонию. При этом, несмотря на «золотые буквы» и «зеленые петлицы» (на вычурность), все достаточно просто (черное или белое).