Применение нейросетей
в продуктах RCO

01

Вопросно-ответная система на основе LLM в заданной предметной области (Retrieval-Augmented Generation, RAG)

Что такое RAG?

RAG — это технология, которая расширяет возможности больших предварительно обученных языковых моделей (LLM) путем интеграции с внешними источниками информации. 
1. RAG позволяет использовать для поиска ответа данные, которые не использовались при обучении модели (то есть модель ничего о них не знает. Например, это могут быть корпоративные информационные архивы, базы данных, наборы неструктурированных документов.
2. RAG позволяет предоставить модели наиболее актуальные данные без необходимости переобучения/до-обучения модели. 
3. RAG позволяет модели в ответах давать ссылки на источники информации.

Как работает RAG?
1. Весь имеющийся массив данных, который мы хотим использовать для расширения знаний LLM необходимо предварительно обработать (привести к единому формату, преобразовать в текст, провести лемматизацию, очистку от незначащих слов, и т.д.)
2. Далее нужно разделить все данные на блоки, которые помещаются в окно контекста LLM. Получение моделью этих сфокусированных фрагментов, а не целых документов, дает LLM возможности для формирования более точных ответов.
3. Затем нужно векторизовать полученные блоки и сохранить их в векторной базе данных. 
4. Запрос пользователя также необходимо предварительно специальным образом обработать (привести к нормальной форме, выделить ключевые элементы, удалить ненужное), а затем также преобразовать в вектор.
5. Далее необходимо произвести поиск в векторной базе данных и найти блоки, наиболее подходящие под запрос пользователя. 
6. Далее мы объединяем найденные блоки с запросом пользователя, и подаем на вход LLM как дополнительный контекст. 
Таким образом, мы даем возможность LLM найти правильный ответ используя предварительно подготовленный контекст. 

Таким образом технология RAG совместно с LLM открывает возможность создания продвинутых поисковых систем. В традиционных поисковых системах пользователь в ответ на запрос получает список релевантных документов/сайтов, на которых может оказаться ответ.
Используя RAG и поисковую выдачу, можно ускорить процесс поиска ответа: вместе с запросом пользователя подать языковой модели набор предварительно отобранной релевантной запросу информации, из которых она и сгенерирует точный ответ.

Для успешной реализации вопросно-ответных и  поисковых систем на базе LLM с использованием RAG важны методики и технологии используемые на каждом шаге. Только в совокупности они могут дать действительно качественный результат.
02

Точная идентификация объектов в тексте

RCO Deep Learning Indentification

В задачах семантической разметки текста, извлечения сущностей (NER) и фактов часто появляется задача точной идентификации объектов. Продукт RFO Fact Extractor SDK позволяет извлекать сущности и факты, основываясь на их лексическом описании и семантике. Однако одни и те же сущности или факты при практически одинаковом написании могут иметь разное значение (например, исторический деятель и спортсмен современной эпохи), и для их точной идентификации надо использовать еще и контекст их упоминания. Таким образом можно определить один и тот же объект упомянут или это разные объекты.

Для решения данной задачи существует расширение - RCO Deep Learning Indentification, которое предназначено для сравнения фрагментов текстов с использованием технологий глубокого обучения (deep learning) и нейронных сетей с целью установления между ними смыслового сходства. Оно принимает на вход два текстовых фрагмента (под фрагментом понимается как предложение, так и абзац, и документ целиком), а на выходе выдает коэффициент смысловой (семантической) схожести данных фрагментов (число от 0 до 100).

Данное ПО использует  открытые (свободно распространяемые) библиотеки и языковые модели (TensorFlow, BERT).
03

Тематическая классификация текстов с использованием нейросетей

RCO Deep Learning Categorization

В задачах тематической категоризации текстов классическая модель классификации на основе лексических профилей, реализованная в продукте RCO Categorization Enginе, в отдельных случаях может работать неоптимально. В основном это касается категоризации коротких сообщений или записей, особенно с сокращениями, жаргонизмами, слабо связанным текстом и т.п. Это, например, сообщения из чатов, комментарии, потоки коротких сообщений вроде назначений платежей и т.п.

Для классификации таких потоков данных существует расширение - RCO Deep Learning Categorization, предназначено для автоматической категоризации с использованием технологий глубокого обучения (deep learning) и нейронных сетей. Оно принимает на вход текстовый документ, а в ответ, на основе подготовленной языковой модели выдает набор категорий, соответствующих  данному документу.  

Для предварительного обучения языковой модели должны использоваться корпуса предварительно классифицированных текстов.

Подберём продукты
и решения для вашей задачи

Заполните форму и мы свяжемся с вами для консультации о продуктах и решениях RCO
Подпишитесь на обновления о наших последних разработках

© ООО «ЭР СИ О», 2024. Все права защищены

Политика конфиденциальности

Карта сайта

Россия, 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214

Телефон: +7 (495) 287-98-87 

E-mail: 

info@rco.ru

© ООО «ЭР СИ О», 2024. Все права защищены

Политика конфиденциальности

Карта сайта

Россия, 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214

Телефон: +7 (495) 287-98-87 

E-mail: info@rco.ru

Подпишитесь на обновления о наших последних разработках

Я согласен на обработку персональных данных

Оставить заявку

Укажите интересующий Вас продукт*

Отправляя сведения через электронную форму, вы даете согласие на обработку, сбор, хранение представленной вами информации на условиях Политики конфиденциальности

Оставить заявку

Отправляя сведения через электронную форму, вы даете согласие на обработку, сбор, хранение представленной вами информации на условиях Политики конфиденциальности