RAG и LLM как средства сделать языковые модели полезными

Александр Жуков
директор по развитию бизнеса · 12 апреля, 2024

Технологии искусственного интеллекта сейчас буквально лежат под ногами. Но до 2023 года использование генеративных языковых моделей в критических областях бизнеса было затруднено из-за вероятной недостоверности получаемой информации. Шумиха вокруг искусственного интеллекта достаточно большая, но реальные применения до сих пор весьма своеобразны. Это и картинки с людьми с шестью пальцами, тексты, которые копирайтер средней руки может написать куда лучше, и т.д.

Прошедший год сильно поменял правила игры, поскольку появилась технология, которая позволяет добиться от языковых моделей относительно правдоподобной информации.

В отличие от традиционных ML-моделей, генеративный AI способен на создание новой информации.

Консалтинговая компания McKinsey оценивает, что наибольшее влияние появление генеративных моделей окажет на области принятия решений менеджерами различного рода и управление данными. А также прогнозирует существенный рост инвестиций в проекты, связанные с искусственным интеллектом.

Но существуют и определённые проблемы применения LLM:

Проекты по использованию LLM в традиционном подходе требуют дообучения модели на своих данных. При этом отличить ситуацию, когда модель знает, что отвечает, и когда она генерирует “связный бред” – “галлюцинирует”, практически невозможно.
Требуется использование платных облачных сервисов. Процесс плохо контролируется и есть проблемы с безопасностью данных. Это крайне нежелательно для работы с документацией, содержащей персональные данные и коммерческую тайну.
Существуют сложности с аналитикой релевантности и качества ответов.
Рынок испытывает серьезный дефицит специалистов и подвергается множеству рисков; целевые сроки срываются, процессы внедрения происходят медленно и дорого.

Отдельно стоит отметить такой момент, как галлюцинации языковых моделей.

Если современную LLM-модель дообучить на массиве новых документов, то она сможет отвечать на некоторые вопросы по ним, однако в случаях, когда у модели не хватает информации, она переходит в режим “галлюцинирования”, когда она генерирует правдоподобный текст, не основываясь на фактах.

Бывает так, что ответ на вопрос не содержится в той информации, которую загрузили в нейросеть. При обобщении информации, зачастую нельзя сделать выводы на базе единственного поступившего документа, всегда нужно анализировать связанную с ним информацию. Понять, что требуется нейросети для того, чтобы она стала выдавать релевантные ответы, а не правдоподобные “галлюцинации”, достаточно сложно.

Задачу можно сильно облегчить. В 2023 году появились две технологии, которые позволяют снизить уровень затрат на проектах, связанных с искусственным интеллектом.

Локальные LLM (большие языковые модели) на базе LLama, преимуществом которых является полная безопасность и дешевизна.
RAG (Retrieval Augmented Generation), которая обеспечивает минимизацию галлюцинаций и релевантность ответов.

RAG

Retrieval Augmented Generation (буквально – поисковая расширенная генерация) представляет собой способ избавить большие языковые модели (LLM) от галлюцинаций и недостоверных фактов.

В целом у больших языковых моделей есть проблема. В процессе обучения нейросети текстовая и языковая информация, то есть та информация, которая связана со структурой языка, очень сильно перемешивается с фактами, которые она из этого текста выхватывает. То есть знание языка перемешано со знанием мира, базирующимся на тексте, поскольку факты она проверять не может. Сеть может что-то выдавать за факты и изложить как некую логическую историю. На деле же это безосновательно.

RAG же достаточно жестко задает контекст в виде фрагментов текста, на базе которых LLM должна скомпоновать ответ, то есть нейросеть не обучают на нем, а используют непосредственно в момент генерации. И RAG использует LLM для извлечения информации из цепочек связанных документов путем интеллектуального анализа, а не разметки страниц.

Retrieval – часть системы, которая отвечает за поиск и извлечение релевантной информации.

Retrieval Augmented – дополнение запроса найденной релевантной информации.

Retrieval Augmented Generation – генерация ответа с учетом дополнительно найденной релевантной информации.

LLama.cpp

Это достаточно простая библиотека и архитектура сетей, которая позволяет запускать их локально. Что интересно, для ее запуска не требуются большие дата-центры. Высокого качества можно добиться за счет хорошей архитектуры.

Вот эти модели сейчас начинают доминировать, их качество сравнимо с GPT 3.5. При этом они работают фактически на домашней видеокарте и не требуют облачной интеграции. И уже сейчас есть несколько моделей, которые работают на русском языке, например, “Сайга”.

Позволяет запускать локально (не в облаке) генеративные языковые модели уровня GPT 3.5.
Позволяет использовать различные топологии и AI-модели.
Не требует облачных интеграций и передачи в публичное облако критических данных.
Существуют совместимые модели, обученные на русском языке и способные хорошо понимать и формулировать результаты.

А теперь поговорим о том, как и, главное, в каких областях технологию можно использовать. RAG как технология уже зашла на рынок. Практически все крупные игроки облачных решений для ИИ уже запустили свои продукты, которые поддерживают технологию.

Три шага к успеху

Создание RAG-приложения

На этом этапе реализовывается базовая логика и инфраструктура решения, подключения к каналам, базам данных и моделям.

Загрузка документации (инструкций, документов, регламентов)

Документы при этом могут представлять собой как текст в свободной форме, так и более структурированные данные.

Соединение компонентов

Комбинирование Retrieval и LLM и автоматизация работы, которая будет происходить по схеме:

Запрос
Определение релевантных текстов
Формирование подсказок-уточнений для языковой модели
Выдача ответов

Примеры применения

Области, в которых можно использовать технологию уже сегодня, затратив минимальное время на запуск соответствующего приложения:

Анализ документации и автоматизация бизнес-процессов;
Обобщение информации по массивам документов, протоколов и поддержка принятия решений;
Написание текстов для описаний товаров для маркет-плейсов, текстов для соцсетей;
SEO. Отслеживание позиций в поисковой выдаче, написание текстов, размещение ссылок.

Рассмотрим области применения чуть более подробно.

Анализ документации

Если в организации много входящей документации (в бумажном или электронном виде), то зачастую старт бизнес-процесса по этим документам задерживается до тех пор, пока ответственный сотрудник не занесет метаданные в СЭД или в ERP. При этом такая система плохо устойчива к нестандартным ситуациям. Традиционные решения обычно дороги и сложны в реализации. Для автоматизации можно легко использовать RAG-схему, что позволит задавать решению просто формулируемые вопросы, например: “Сформируй, пожалуйста, JSON с содержимым этого счета-фактуры с полями и значениями” – и получать на выходе готовый набор метаданных. При этом система может принимать во внимание не только содержание документа, но и дополнительные инструкции и правила их обработки.

Поддержка принятия решений

Информирование руководства о различных показателях процесса обычно состоит во множестве этапов, каждый из которых сильно зависит от человеческого фактора. Это и занесение данных в систему, и подготовка данных для отчетов, и подготовка самих отчетов.

Время и степень стандартизации этого процесса могут быть различными, однако задержки, искажения и неполнота – типичные проблемы при принятии решения. Чем крупнее организация, тем зачастую сложнее у нее структура, и процессы могут быть в значительной мере затруднены. Иногда целые отделы занимаются ручной консолидацией данных, чтобы представить отчетность, а задержки по времени могут достигать целых кварталов.

Вместо этого пути можно подключить источники информации непосредственно к RAG-модели (имеется ввиду не только документация, но вообще все исходные данные, например, даже транскрипты аудиозаписей совещаний), а обобщение информации предоставить ИИ. В этом случае для принятия решения нужно будет только буквально задавать правильные вопросы и получать отчеты в течение минут вместо месяцев.

Копирайт и написание текстов

Довольно типовая задача для электронной коммерции – создание описаний товаров. При этом в случаях, когда товарная матрица представляет собой несколько тысяч наименований, описывать какие-то уникальные предложения или написать оригинальный текст у компаний обычно нет ресурсов. В этом случае описания дублируют. Размещают текст, который представил производитель/поставщик с вытекающими последствиями для SEO и конверсии.

Попытки делегировать написание таких текстов в ChatGPT или другие LLM без знания специфики товаров и без хорошего промпта приводит к копирайту невысокого уровня: даже если написано по правилам и без “галлюцинаций”, ни эмоций, ни желания купить такие тексты не вызывают.

RAG может спасти ситуацию, если заранее предоставить ему знания по заданной области. Подход требует креатива в формировании подсказок и верного подбора информации.

В качестве вывода хочется призвать смелее осваивать новые технологии, пользоваться открывающимися возможностями. Этот и следующий год станут временем, когда использование технологий ИИ активно войдет в обиход и станет экономически эффективным. А в реализации идей и решений мы всегда готовы помочь.

У автора статьи Александра Жукова есть свой Телеграм-канал, где он рассказывает о ИИ-технологиях и управлении – переходите по ссылке или QR-коду ниже.