Сегодня темой многих исследований является построение автоматизированных человеко-машинных систем, которые реализуют комплекс функций, обозначаемых словами “извлечение/управление/обработка знаний”. В большинстве случаев под знаниями понимается нечто, выражающееся на естественном языке и изначально содержащееся либо в тексте, либо в голове человека-эксперта.
Полный процесс управления знаниями (knowledge management) в общем случае содержит фазу извлечения знаний и фазу их обработки, которые реализуются в автоматизированной системе управления знаниями — АСУЗ. При этом технологические составляющие фазы извлечения определяют, каким образом данные превращаются в элементарные знания (аксиомы), а составляющие фазы обработки определяют, как из элементарных знаний порождается новое знание, используемое для принятия решений.
Сегодня в мире не существует полноценной АСУЗ, совмещающей в себе фазу извлечения знаний из текста с фазой их обработки. Прикладных программ, использующих методы искусственного интеллекта, способных нетривиально перерабатывать извлеченные из текста элементы знаний (интерпретировать, обобщать, выявлять зависимости, прогнозировать и т.п.), сегодня не существует даже для английского языка.
Такая ситуация обусловлена двумя причинами.
Во-первых, слабым распространением систем лингвистического анализа текста, способных интерпретировать отношения между словами и потому действительно извлекать знания как некие элементы, обладающие внутренней структурой и пригодные для нетривиальной смысловой обработки искусственным мозгом — такие системы понимания текста на мировом и российском рынках только недавно начали появляться и еще не успели обрасти приложениями.
Во-вторых, потенциально низкой достоверностью автоматически извлекаемых из текста утверждений и фактов, что обусловленно как несовершенством алгоритмов интерпретации текста, так и низким качеством источников информации, поскольку практически интересно извлечение знаний не из научной литературы, а из различного рода “текстовых помоек”, к каковым относятся социальные сети Интернет, современные СМИ, и даже архивы научно-технических отчетов.
В итоге, несмотря на бум вокруг извлечения знаний из текста и их обработки, поднятый сегодня разработчиками и продавцами систем knowledge management, ясно, что практические исследования в этой области только начинаются, и что даже состав задач, в которых могли бы помочь такие системы, еще плохо определен.
В то же время, современное состояние Интернета позволяет рассматривать его в качестве источника самых разнообразных знаний, которые скрываются в корпоративных интернет-порталах и домашних страничках экспертов, блогах и форумах, аналитических статьях.
Из разбросанных по Интернету знаний мы выделяем следующие классы, представляющие утилитарный интерес для обширных целевых аудиторий и поддающиеся машинной обработке:
- Знания о технических и качественных характеристиках товаров и услуг, позволяющие произвести их сравнение и выбрать оптимальный вариант для покупки: электронные устройства и бытовая техника, автомобили; услуги по туризму, ремонту, лечению и т.д.;
- Знания о способах и особенностях использования технологий: ремонт и отделка жилья, устранение неполадок автомобилей и т.п.;
- Научные, технологические и общественно-политические события: открытия и находки, появление новых продуктов и технологий, происшествия и прогнозы;
- Полезные факты различной природы, характеризующие деятельность людей и организаций: историко-биографические факты, взаимоотношения и связи.
Возможность практического извлечения и утилизации подобных знаний сегодня исследуется в нашей компании с использованием собственного лингвистического анализатора русского текста. Наши практические исследования показывают, что автоматизированные системы извлечения и обработки знаний, не нашедшие пока практического применения за пределами узкоспециализированных областей, имеют реальную перспективу войти в повседневную жизнь в ближайшем будущем, используя Интернет в качестве источника знаний.
Наше видение проблем в области обработки знаний, а также практический опыт извлечения знаний из Интернета описаны в приведенной ниже статье.