RAG и LLM как средства сделать языковые модели полезными
Технологии искусственного интеллекта сейчас буквально лежат под ногами. Но до 2023 года использование генеративных языковых моделей в критических областях бизнеса было затруднено из-за вероятной недостоверности получаемой информации. Шумиха вокруг искусственного интеллекта достаточно большая, но реальные применения до сих пор весьма своеобразны. Это и картинки с людьми с шестью пальцами, тексты, которые копирайтер средней руки может написать куда лучше, и т.д.
Прошедший год сильно поменял правила игры, поскольку появилась технология, которая позволяет добиться от языковых моделей относительно правдоподобной информации.
В отличие от традиционных ML-моделей, генеративный AI способен на создание новой информации.
Консалтинговая компания McKinsey оценивает, что наибольшее влияние появление генеративных моделей окажет на области принятия решений менеджерами различного рода и управление данными. А также прогнозирует существенный рост инвестиций в проекты, связанные с искусственным интеллектом.
Но существуют и определённые проблемы применения LLM:
- Проекты по использованию LLM в традиционном подходе требуют дообучения модели на своих данных. При этом отличить ситуацию, когда модель знает, что отвечает, и когда она генерирует “связный бред” – “галлюцинирует”, практически невозможно.
- Требуется использование платных облачных сервисов. Процесс плохо контролируется и есть проблемы с безопасностью данных. Это крайне нежелательно для работы с документацией, содержащей персональные данные и коммерческую тайну.
- Существуют сложности с аналитикой релевантности и качества ответов.
- Рынок испытывает серьезный дефицит специалистов и подвергается множеству рисков; целевые сроки срываются, процессы внедрения происходят медленно и дорого.
Отдельно стоит отметить такой момент, как галлюцинации языковых моделей.
Если современную LLM-модель дообучить на массиве новых документов, то она сможет отвечать на некоторые вопросы по ним, однако в случаях, когда у модели не хватает информации, она переходит в режим “галлюцинирования”, когда она генерирует правдоподобный текст, не основываясь на фактах.
Бывает так, что ответ на вопрос не содержится в той информации, которую загрузили в нейросеть. При обобщении информации, зачастую нельзя сделать выводы на базе единственного поступившего документа, всегда нужно анализировать связанную с ним информацию. Понять, что требуется нейросети для того, чтобы она стала выдавать релевантные ответы, а не правдоподобные “галлюцинации”, достаточно сложно.
Задачу можно сильно облегчить. В 2023 году появились две технологии, которые позволяют снизить уровень затрат на проектах, связанных с искусственным интеллектом.
- Локальные LLM (большие языковые модели) на базе LLama, преимуществом которых является полная безопасность и дешевизна.
- RAG (Retrieval Augmented Generation), которая обеспечивает минимизацию галлюцинаций и релевантность ответов.
RAG
Retrieval Augmented Generation (буквально – поисковая расширенная генерация) представляет собой способ избавить большие языковые модели (LLM) от галлюцинаций и недостоверных фактов.
В целом у больших языковых моделей есть проблема. В процессе обучения нейросети текстовая и языковая информация, то есть та информация, которая связана со структурой языка, очень сильно перемешивается с фактами, которые она из этого текста выхватывает. То есть знание языка перемешано со знанием мира, базирующимся на тексте, поскольку факты она проверять не может. Сеть может что-то выдавать за факты и изложить как некую логическую историю. На деле же это безосновательно.
RAG же достаточно жестко задает контекст в виде фрагментов текста, на базе которых LLM должна скомпоновать ответ, то есть нейросеть не обучают на нем, а используют непосредственно в момент генерации. И RAG использует LLM для извлечения информации из цепочек связанных документов путем интеллектуального анализа, а не разметки страниц.
Retrieval – часть системы, которая отвечает за поиск и извлечение релевантной информации.
Retrieval Augmented – дополнение запроса найденной релевантной информации.
Retrieval Augmented Generation – генерация ответа с учетом дополнительно найденной релевантной информации.
LLama.cpp
Это достаточно простая библиотека и архитектура сетей, которая позволяет запускать их локально. Что интересно, для ее запуска не требуются большие дата-центры. Высокого качества можно добиться за счет хорошей архитектуры.
Вот эти модели сейчас начинают доминировать, их качество сравнимо с GPT 3.5. При этом они работают фактически на домашней видеокарте и не требуют облачной интеграции. И уже сейчас есть несколько моделей, которые работают на русском языке, например, “Сайга”.
- Позволяет запускать локально (не в облаке) генеративные языковые модели уровня GPT 3.5.
- Позволяет использовать различные топологии и AI-модели.
- Не требует облачных интеграций и передачи в публичное облако критических данных.
- Существуют совместимые модели, обученные на русском языке и способные хорошо понимать и формулировать результаты.
А теперь поговорим о том, как и, главное, в каких областях технологию можно использовать. RAG как технология уже зашла на рынок. Практически все крупные игроки облачных решений для ИИ уже запустили свои продукты, которые поддерживают технологию.
Три шага к успеху
- Создание RAG-приложения
На этом этапе реализовывается базовая логика и инфраструктура решения, подключения к каналам, базам данных и моделям.
- Загрузка документации (инструкций, документов, регламентов)
Документы при этом могут представлять собой как текст в свободной форме, так и более структурированные данные.
- Соединение компонентов
Комбинирование Retrieval и LLM и автоматизация работы, которая будет происходить по схеме:
- Запрос
- Определение релевантных текстов
- Формирование подсказок-уточнений для языковой модели
- Выдача ответов
Примеры применения
Области, в которых можно использовать технологию уже сегодня, затратив минимальное время на запуск соответствующего приложения:
- Анализ документации и автоматизация бизнес-процессов;
- Обобщение информации по массивам документов, протоколов и поддержка принятия решений;
- Написание текстов для описаний товаров для маркет-плейсов, текстов для соцсетей;
- SEO. Отслеживание позиций в поисковой выдаче, написание текстов, размещение ссылок.
Рассмотрим области применения чуть более подробно.
Анализ документации
Если в организации много входящей документации (в бумажном или электронном виде), то зачастую старт бизнес-процесса по этим документам задерживается до тех пор, пока ответственный сотрудник не занесет метаданные в СЭД или в ERP. При этом такая система плохо устойчива к нестандартным ситуациям. Традиционные решения обычно дороги и сложны в реализации. Для автоматизации можно легко использовать RAG-схему, что позволит задавать решению просто формулируемые вопросы, например: “Сформируй, пожалуйста, JSON с содержимым этого счета-фактуры с полями и значениями” – и получать на выходе готовый набор метаданных. При этом система может принимать во внимание не только содержание документа, но и дополнительные инструкции и правила их обработки.
Поддержка принятия решений
Информирование руководства о различных показателях процесса обычно состоит во множестве этапов, каждый из которых сильно зависит от человеческого фактора. Это и занесение данных в систему, и подготовка данных для отчетов, и подготовка самих отчетов.
Время и степень стандартизации этого процесса могут быть различными, однако задержки, искажения и неполнота – типичные проблемы при принятии решения. Чем крупнее организация, тем зачастую сложнее у нее структура, и процессы могут быть в значительной мере затруднены. Иногда целые отделы занимаются ручной консолидацией данных, чтобы представить отчетность, а задержки по времени могут достигать целых кварталов.
Вместо этого пути можно подключить источники информации непосредственно к RAG-модели (имеется ввиду не только документация, но вообще все исходные данные, например, даже транскрипты аудиозаписей совещаний), а обобщение информации предоставить ИИ. В этом случае для принятия решения нужно будет только буквально задавать правильные вопросы и получать отчеты в течение минут вместо месяцев.
Копирайт и написание текстов
Довольно типовая задача для электронной коммерции – создание описаний товаров. При этом в случаях, когда товарная матрица представляет собой несколько тысяч наименований, описывать какие-то уникальные предложения или написать оригинальный текст у компаний обычно нет ресурсов. В этом случае описания дублируют. Размещают текст, который представил производитель/поставщик с вытекающими последствиями для SEO и конверсии.
Попытки делегировать написание таких текстов в ChatGPT или другие LLM без знания специфики товаров и без хорошего промпта приводит к копирайту невысокого уровня: даже если написано по правилам и без “галлюцинаций”, ни эмоций, ни желания купить такие тексты не вызывают.
RAG может спасти ситуацию, если заранее предоставить ему знания по заданной области. Подход требует креатива в формировании подсказок и верного подбора информации.
В качестве вывода хочется призвать смелее осваивать новые технологии, пользоваться открывающимися возможностями. Этот и следующий год станут временем, когда использование технологий ИИ активно войдет в обиход и станет экономически эффективным. А в реализации идей и решений мы всегда готовы помочь.