Упоминания особых объектов

01.06.2014

Не только в базах данных, но и в текстах на естественном языке могут встречаться упоминания особых объектов, отличающихся специального вида написанием — наименования почтовых адресов, различных видов идентификационных и паспортных данных, марки товаров и модели устройств, формулы, ссылки на нормативные документы и т.п. Правила написания подобных объектов выходят за рамки грамматики естественного языка и обычно настраиваются на предметную область или тип документов.

Для распознавания в тексте обозначений подобных объектов, извлечения их требуемых атрибутов и стандартизации имен разработан специальный программный компонент RCO Pattern Extractor со своим формальным языком, который позволяет оперировать как формальными особенностями написания текста, используя, в частности, язык регулярных выражений, так и всеми грамматическими атрибутами слов: частью речи, родом, числом, падежом и т.д. Образцы сложных конструкций могут строиться иерархически, включая образцы более простых. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание.

Ниже перечислены классы объектов, для выделения которых из текста нами уже разработаны комплексы правил (на русском и английском языках):

Даты и обстоятельства времени, даты рождения;
Денежные суммы, обозначения физических измерений (координаты, температура и т.п.);
Марки автомобилей и ряда других артефактов, товаров;
Почтовые адреса и географические места;
Электронные адреса;
Паспортные и другие персональные данные;
Номера банковских счетов, кредитных карт, социальной страховки и т.п.;
Телефонные номера;
Номера автомобилей (идентификационные, регистрационные);
ИНН, ОГРН, ОКПО и другие номера организаций;
Номера уголовных и розыскных дел;
Ссылки на Статьи Уголовного Кодекса и другие нормативно-правовые документы.

Продукты, использующие технологию:

RCO Fact Extractor SDK