Разбор частично-структурированного текста

24.03.2015

На практике часть интересующей информации в текстовых документах уже бывает представлена в структурированном виде — например, описание проектов на web-сайте может содержать, помимо полнотекстовой аннотации к проекту, еще такие выделенные поля, как имена исполнителей, названия организаций, области знаний, и д.р. А многие документы, такие как ленты новостей, сводки, протоколы, досье могут вообще представлять собой конкатенацию множества одно- или даже разнотипных документов, каждый из которых никак не связан с прочими. Другим примером сложного частично-структурированного текста является досье на персону, содержащее внутри себя вложенные досье на членов его семьи и близких людей…

В документах подобного вида лингвистический анализ может проводиться корректно только в пределах определенных изолированных блоков текста. При этом именно типы и расположение блоков документа, из которых извлекается текстовая информация, определяют смысл и связи этой информации с другой информацией в документе. Типы и связи блоков определяются по стилевым признакам оформления документов, которые являются уникальными для каждого типа документов, вследствие чего требуют обязательной настройки шаблонов извлечения и связывания информации.

Для комплексной обработки частично-структурированных документов предназначен программный компонент RCO Block Parser SDK.