Решение предназначено для структуризации информации, т.е. сбора фактографических данных из текстовых неструктурированных и слабоструктурированных документов. Система обрабатывает тексты лингвистическими методами и извлекает формализованную информацию, представляя ее в стандартном формате. Извлечение объектов из документов обеспечивается отлаженной технологией адаптации к различным областям знаний.
Система извлекает из текста упоминания персон и организаций, наименования почтовых и электронных адресов, различные идентификационные и паспортные данные, марки товаров и моделей автомобилей и других устройств, ссылки на нормативные документы и многое другое. Система легко настраивается на различные предметные области, быстро обрабатывает большие объемы текстов и просто масштабируется.
Источниками информации могут быть сообщения СМИ, посты соцсетей, форумов, разнообразные документы (решения арбитражных судов, решения ФАС, договоры), отчеты и справки. Выходные данные системы могут быть загружены в реляционные БД, агрегированы статистическими методами и представлены в виде графиков, диаграмм связей и отчетов.
Решение может быть использовано для построения фактографических баз данных, гипертекстовых систем, систем защиты персональных данных, статистической отчетности, анализа связей.
В качестве иллюстрации приведем, что наш инструментарий инструментарий позволяет извлекать из различных типов документов на уже разработанных на данный момент настройках.
Материалы СМИ, соцсетей:
- Упоминания персон, организаций, брендов, геопонятий;
- Атрибуты и связи между упомянутыми объектами;
- Факты и события с участием объектов (поездки, встречи, конфликты, и т.п.)
- Оценка характера упоминаний объектов;
- Высказывания персон;
- Тематика сообщения.
Решения арбитражных судов:
- Название суда;
- Номер дела;
- Номер постановления;
- Тип решения;
- Дата заседания;
- Место заседания;
- Роли участников (персоны, организации) – Истец, Ответчик, Третье лицо, Иное лицо, Представители истца, ответчика, третьего лица;
- Предмет иска;
- Сумма иска;
- Взысканные суммы (с кого, сколько, в чью пользу, вид взыскания);
- Упоминания и атрибуты всех персон (имя, ИНН, ОГРНИП, адрес регистрации, место рождения, дата рождения, документ, удостоверяющий личность, должность), организаций (наименование, ИНН, ОГРН, адрес регистрации, город местонахождения), документов (тип, номер, серия, кем и когда выдан), договоров (номер, дата, денежная сумма), государственных контрактов (номер в реестре), автомобилей (модель, марка, государственный номер, год выпуска, VIN, цвет, номер кузова), земельных участков, квартир;
- Упоминания пунктов и статей нормативно-правовых актов;
- Связи между упомянутыми объектами – связи персон и организаций, отношения между организациями (дочерняя-головная), заключение договора, доля в уставном капитале, купля-продажа (покупатель, продавец, цена, товар), владение собственностью.
Договор купли-продажи недвижимости:
- Роли – продавец, покупатель;
- Объекты недвижимости и их атрибуты – земельные участки (площадь, кадастровый номер, категория земли, адрес), квартиры (общая площадь, жилая площадь, адрес);
- Цена договора, цена объектов;
- Порядок оплаты (авансирование, этапность).
Наш инструментарий можно настроить практически на все возможные типы извлекаемой информации благодаря неоднократно подтвердившей свою эффективность технологии.
В данном решении используются следующие продукты RCO: