Тематическая классификация обращений
Для качественного решения задачи разбора обращений недостаточно простого выделения заданного набора слов и словосочетаний даже в части отнесения сообщения к рубрике классификатора. Тематика сообщений может быть очень близкая, темы могут сильно пересекаться лексически, и при отнесении сообщения к той или иной рубрике помимо лексики могут быть важны такие признаки, как порядок следования слов в тексте, паттерны, синтаксические связи, семантические шаблоны.
Например, есть два сообщения, относящиеся к разным рубрикам:
«Мне поступило сообщение о просроченной задолженности на +7 XXX-XX-XX, прошу дать объяснения по данному вопросу. Кредитов в Банке не имею.»
«Я просил выдать мне кредит на сумму 350000 руб., но мне сообщили об отказе по причине якобы просроченной задолженности по предыдущему кредиту. Объясните, откуда она взялась.»
По лексическому составу оба эти сообщения близки, в обоих фигурируют такие термины, как «кредит», «просроченная задолженность», «сообщить/сообщение», однако же тематически это разные рубрики. Первый пример – это жалоба на ошибочную рассылку уведомлений, второй – жалоба на отказ в кредите.
Первое сообщение содержит такой характерный признак, как номер телефона, в второе – денежную сумму. Опираясь на эти признаки можно значительно повысить точность рубрицирования. Однако обычные рубрикаторы не позволяют опираться на подобные сущности, т.к. их нельзя перечислить конечным списком.
Рассмотрим следующий пример:
«Прошу сообщить о наличии задолженности по кредиту за прошедший месяц»
«Мне сообщили о наличии задолженности по кредиту, однако кредитов в Банке я не брал. Прошу разобраться.»
Оба сообщения содержат термин «наличие задолженности по кредиту» и, если решать задачу рубрицирования классическим методом, с большой долей вероятности попадут в одну рубрику. Однако эти сообщения относятся к разным темам: первое – запрос о наличии задолженности, второе – жалоба. Их можно разделить, если применить более тонкую настройку с учетом синтаксических связей и использованием семантических шаблонов.
Таким образом, с помощью общепринятого метода рубрикации, основанного на использовании поисковых выражений, состоящих из слов и словосочетаний, в качестве классификационных признаков, результат получается грубым, тяжело достичь высокой полноты и точности. Для решения данной задачи требуется более тонкая настройка, с использованием не только статистических, но и лингвистических методов. Использование паттернов (цепочек слов со сложными ограничениями на грамматические атрибуты и с семантикой регулярных выражений) и семантико-синтаксических шаблонов (фактов) позволяет значительно расширить возможности рубрикатора.
Для решения задачи разбора обращений клиентов мы используем возможности наших продуктов RCO Text Categorization Engine (классификация текстов) и RCO Fact Extractor SDK (извлечение информации из текстов), что позволяет дополнительно использовать в качестве классификационных признаков термины, паттерны, сущности и факты.
Мониторинг упоминаний людей, компаний, брендов, наименований продуктов и услуг
Разрабатываем UI для работы с массивом информации по требованиям заказчика, содержащий простые и расширенные средства поиска, фильтрации, построения отчетов.
Россия, 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214
Телефон: +7 (495) 287-98-87
E-mail:
© ООО «ЭР СИ О», 2024. Все права защищены
Политика конфиденциальности
Карта сайта
Россия, 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214
Телефон: +7 (495) 287-98-87
E-mail: info@rco.ru
Я согласен на обработку персональных данных
Сценарии применения
Продукты
Нейросети