Не только в базах данных, но и в текстах на естественном языке могут встречаться упоминания особых объектов, отличающихся специального вида написанием — наименования почтовых адресов, различных видов идентификационных и паспортных данных, марки товаров и модели устройств, формулы, ссылки на нормативные документы и т.п. Правила написания подобных объектов выходят за рамки грамматики естественного языка и обычно настраиваются на предметную область или тип документов.
Для распознавания в тексте обозначений подобных объектов, извлечения их требуемых атрибутов и стандартизации имен разработан специальный программный компонент RCO Pattern Extractor со своим формальным языком, который позволяет оперировать как формальными особенностями написания текста, используя, в частности, язык регулярных выражений, так и всеми грамматическими атрибутами слов: частью речи, родом, числом, падежом и т.д. Образцы сложных конструкций могут строиться иерархически, включая образцы более простых. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание.
Ниже перечислены классы объектов, для выделения которых из текста нами уже разработаны комплексы правил (на русском и английском языках):
- Даты и обстоятельства времени, даты рождения;
- Денежные суммы, обозначения физических измерений (координаты, температура и т.п.);
- Марки автомобилей и ряда других артефактов, товаров;
- Почтовые адреса и географические места;
- Электронные адреса;
- Паспортные и другие персональные данные;
- Номера банковских счетов, кредитных карт, социальной страховки и т.п.;
- Телефонные номера;
- Номера автомобилей (идентификационные, регистрационные);
- ИНН, ОГРН, ОКПО и другие номера организаций;
- Номера уголовных и розыскных дел;
- Ссылки на Статьи Уголовного Кодекса и другие нормативно-правовые документы.
Продукты, использующие технологию: