Решение предназначено для повышения эффективности работы организаций, как органов государственной власти, так и крупных коммерческих структур, осуществляющих оказание услуг физическим лицам.
В организацию может поступать от нескольких сот до нескольких тысяч обращений в день. Каждое обращение должно пройти первичную сортировку и затем должно быть передано в соответствующее подразделение организации. В больших организациях, пока сообщение дойдет до конечного исполнителя, может потребоваться несколько этапов сортировки (департамент, управление, отдел). Если при этом обращение подразумевает стандартный ответ (ссылка на инструкцию и т.п.), или требует уточнения информации, автор через большой промежуток времени получит практически бессодержательный ответ, что безусловно испортит его мнение об организации. Кроме того, несвоевременное реагирование на обращение может привести к негативным последствиям (поскольку сообщение может содержать угрозу должностному лицу, угрозу подачи иска, негативную информацию, широкое распространение которой в сети отрицательно скажется на репутации организации).
Мы обладаем технологиями, позволяющими автоматизировать решение задачи первичного разбора обращений, а также извлечения различной фактографической информации из сообщения, что в конечном счете позволит избежать лишних этапов обработки, повысит оперативность ответа исполнителя, а также накапливать фактографическую информацию для последующего анализа (мы также можем построить фактографическую БД, проанализировав архив сообщений).
Преимущества для органов государственной власти:
- Выявление темы обращения;
- Определение типа обращения (заявление, предложение, жалоба, резюме);
- Выявление упоминаний органов государственной власти;
- Выявление упоминаний должностных лиц;
- Выявление ссылок на нормативно-правовые акты, судебные решения;
- Выявление упоминаний адресов, геопонятий (топонимики);
- Выявление оценочной, ненормативной лексики, угроз;
- Выявление информационных дублей (массовые жалобы/обращения по одному шаблону);
- Оценка читабельности и осмысленности сообщения.
Преимущества для контактных центров крупных коммерческих компаний:
- Выявление темы обращения;
- Выявление типовых обращений (формирование автоматического ответа с использованием извлеченной из сообщения информации);
- Выявление упоминаний номеров телефонов, номеров лицевых счетов, филиалов, денежных сумм, адресов электронной почты;
- Выявление терминоподобных словосочетаний (анализ тематики обращений).
Для качественного решения задачи разбора обращений граждан недостаточно простого выделения заданного набора слов и словосочетаний даже в части отнесения сообщения к рубрике классификатора. Тематика сообщений может быть очень близкая, темы могут сильно пересекаться лексически, и при отнесении сообщения к той или иной рубрике помимо лексики могут быть важны такие признаки, как порядок следования слов в тексте, паттерны, синтаксические связи, семантические шаблоны.
Например, есть два сообщения, относящиеся к разным рубрикам:
«Мне поступило сообщение о просроченной задолженности на 89169999999, прошу дать объяснения по данному вопросу. Кредитов в Банке не имею.»
«Я просил выдать мне кредит на сумму 350000 руб., но мне сообщили об отказе по причине якобы просроченной задолженности по предыдущему кредиту. Объясните, откуда она взялась.»
По лексическому составу оба эти сообщения близки, в обоих фигурируют такие термины, как «кредит», «просроченная задолженность», «сообщить/сообщение», однако же тематически это разные рубрики. Первый пример – это жалоба на ошибочную рассылку уведомлений, второй – жалоба на отказ в кредите.
Первое сообщение содержит такой характерный признак, как номер телефона, в второе – денежную сумму. Опираясь на эти признаки можно значительно повысить точность рубрицирования. Однако обычные рубрикаторы не позволяют опираться на подобные сущности, т.к. их нельзя перечислить конечным списком.
Рассмотрим следующий пример:
«Прошу сообщить о наличии задолженности по кредиту за прошедший месяц»
«Мне сообщили о наличии задолженности по кредиту,однако кредитов в Банке я не брал. Прошу разобраться.»
Оба сообщения содержат термин «наличие задолженности по кредиту» и, если решать задачу рубрицирования классическим методом, с большой долей вероятности попадут в одну рубрику. Однако эти сообщения относятся к разным темам: первое – запрос о наличии задолженности, второе – жалоба. Их можно разделить, если применить более тонкую настройку с учетом синтаксических связей и использованием семантических шаблонов.
Таким образом, с помощью общепринятого метода рубрикации, основанного на использовании поисковых выражений, состоящих из слов и словосочетаний, в качестве классификационных признаков, результат получается грубым, тяжело достичь высокой полноты и точности. Для решения данной задачи требуется более тонкая настройка, с использованием не только статистических, но и лингвистических методов. Использование паттернов (цепочек слов со сложными ограничениями на грамматические атрибуты и с семантикой регулярных выражений) и семантико-синтаксических шаблонов (фактов) позволяет значительно расширить возможности рубрикатора.
Для решения задачи разбора обращений клиентов мы используем возможности наших продуктов RCO Text Categorization Engine (классификация текстов) и RCO Fact Extractor SDK (извлечение информации из текстов), что позволяет дополнительно использовать в качестве классификационных признаков термины, паттерны, сущности и факты.
В качестве сущностей выступают денежные суммы, номера телефонов, адреса электронной почты, почтовые адреса, даты, номера счетов и прочее. Как было видно из приведенных выше примеров, для выявления жалоб на ошибочные уведомления полезно уметь ловить номера телефонов и адреса электронной почты, для выявления документов по тематике кредитования могут быть полезны денежные суммы. Для выявления тем, касающихся недовольства клиента работой определенного филиала, полезно уметь автоматически отлавливать в тексте номера филиалов. Когда речь в сообщении идет о сроках рассмотрения обращения или сроках погашения кредита, в тексте часто фигурируют даты. Эти сущности можно будет использовать и как самостоятельные термины, и в составе более сложных цепочек.
Примеры полезных классов фактов: «выдача кредита», «наличие задолженности по кредиту», «реструктуризация кредитной задолженности», «отказ в выдаче кредита», «подача жалобы». RCO Fact Extractor выделяет в тексте различные классы сущностей (персоны, организации, предметы, действия, атрибуты и др.), и строит между ними сеть отношений, обеспечивает семантическую интерпретацию результатов разбора текста – поиск описаний ситуаций, удовлетворяющих заданным семантическим шаблонам. При этом неважен порядок следования слов в тексте, но учитываются синтаксические связи. Так, RCO Fact Extractor отождествит предложения «клиенту перечислили сумму» и «сумма была перечислена клиенту», но отличит от «клиент перечислил сумму».
В данном решении используются следующие продукты RCO: