惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Project Zero
Project Zero
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Scott Helme
Scott Helme
Know Your Adversary
Know Your Adversary
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
WordPress大学
WordPress大学
AWS News Blog
AWS News Blog
小众软件
小众软件
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Jina AI
Jina AI
AI
AI
美团技术团队
人人都是产品经理
人人都是产品经理
S
Secure Thoughts
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
宝玉的分享
宝玉的分享
Security Latest
Security Latest
P
Privacy & Cybersecurity Law Blog
C
Cisco Blogs
大猫的无限游戏
大猫的无限游戏
Google Online Security Blog
Google Online Security Blog
L
LINUX DO - 最新话题
罗磊的独立博客
Recent Announcements
Recent Announcements
H
Hacker News: Front Page
博客园 - 【当耐特】
K
Kaspersky official blog
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
SecWiki News
SecWiki News
Schneier on Security
Schneier on Security
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Apple Machine Learning Research
Apple Machine Learning Research
F
Full Disclosure
Google DeepMind News
Google DeepMind News
V
V2EX
博客园 - 聂微东
量子位
云风的 BLOG
云风的 BLOG
C
Check Point Blog
J
Java Code Geeks
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
W
WeLiveSecurity
Engineering at Meta
Engineering at Meta
V2EX - 技术
V2EX - 技术
Vercel News
Vercel News
L
LINUX DO - 热门话题
T
The Exploit Database - CXSecurity.com
L
Lohrmann on Cybersecurity
The GitHub Blog
The GitHub Blog

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Разворачиваем RAG на Java без боли: практический гайд
dimkanl · 2026-04-24 · via Все публикации подряд на Хабре

Всем привет! Недавно столкнулся с проблемой, что в настоящее время большая часть обучающих материалов по Retrieval‑Augmented Generation (RAG) сосредоточена на Python‑экосистеме (LangChain, LlamaIndex и тому подобное), а пошаговые руководства, которые показывают, как быстро собрать рабочее RAG‑приложение на чистом Java‑стеке, встречаются крайне редко. Эта статья представляет собой простое практическое руководство, где мы разберём весь процесс от настройки окружения до полного примера кода, чтобы даже начинающий Java‑разработчик мог развернуть RAG.

Архитектура RAG

Путь запроса пользователя

Путь запроса пользователя

Архитектуру тут можно представить как простую цепочку: пользователь стучится в REST‑endpoint на Spring Boot, запрос попадает в Spring AI, который векторизует его (Embedding model) и идёт в Qdrant (Vector DB) за релевантными кусками текста, а уже потом подмешивает их в промпт к локальной модели через Ollama.

Подготовка окружения

В этом гайде у нас три главных героя на стороне бэкенда: Spring Boot (Spring AI), векторное хранилище Qdrant и LLM через Ollama. Чтобы всё это заработало как единая RAG‑машина, нам нужно лишь аккуратно подтянуть нужные зависимость, поднять в docker векторную базу и настроить пару YAML конфигураций. Приступим к пошаговому руководству:

Шаг 1. Поднимаем Qdrant в Docker

Для RAG нам нужно отдельное векторное хранилище, куда будут складываться эмбеддинги документов. В этой роли отлично выступает Qdrant: он умеет быстрый ANN‑поиск, поддерживает gRPC и HTTP и хорошо интегрируется со Spring AI. Чтобы не возиться с установкой вручную, поднимем Qdrant в Docker‑контейнере.

services:
  qdrant:
    image: qdrant/qdrant:latest
    container_name: qdrant
    ports:
      - "6333:6333"
      - "6334:6334"
    environment:
      QDRANT__SERVICE__API_KEY: "your_secret_api_key_here"
    configs:
      - source: qdrant_config
        target: /qdrant/config/production.yaml
    volumes:
      - ./qdrant_storage:/qdrant/storage:z

Что здесь происходит:

  • Пробрасываем порты 6333 (HTTP) и 6334 (gRPC) на хост — Spring AI по умолчанию общается с Qdrant по gRPC.

  • Включаем API‑ключ через QDRANT__SERVICE__API_KEY, чтобы к векторному хранилищу нельзя было просто так достучаться извне.

  • Монтируем ./qdrant_storage во внутреннюю директорию хранения Qdrant, чтобы коллекции и эмбеддинги не пропадали после перезапуска контейнера.

Шаг 2. Добавляем зависимости в Spring Boot

Теперь необходимые зависимости для Java Spring Boot приложения. Подключим к проекту Spring AI и стартеры для Ollama и Qdrant. Для Gradle (build.gradle.kts) это выглядит примерно так:

dependencies {
    // spring boot
    implementation("org.springframework.boot:spring-boot-starter")
    implementation("org.springframework.boot:spring-boot-starter-web")

    // qdrant
    implementation("org.springframework.ai:spring-ai-starter-vector-store-qdrant")

    // ollama
    implementation("org.springframework.ai:spring-ai-starter-model-ollama")
}

Здесь:

  • spring-boot-starter-web даёт нам классический REST‑каркас на Spring Boot.

  • spring-ai-ollama-spring-boot-starter — интеграция с локальной LLM через Ollama.

  • spring-ai-qdrant-spring-boot-starter — готовый VectorStore поверх Qdrant и автоконфигурация подключения.

Шаг 3. Настраиваем application.yml

И наконец можем перейти к application.yaml конфигурации, добавьте блок ai к вашему конфигу:

spring:

  application:
    name: springboot-rag-demo

  ai:
    ollama:
      base-url: http://localhost:11434
      chat:
        options:
          model: llama3:8b
          temperature: 0.0
          num-ctx: 4096
      embedding:
        options:
          model: bge-m3
      request-timeout: 120s
    vectorstore:
      qdrant:
        url: http://localhost:6333
        collection-name: collection
        embedding-model: ollama
        api-key: "your_secret_api_key_here"
        use-tls: false
        initialize-schema: true

Ключевые моменты:

  • ollama.base-url указывает на локальный Ollama, который по умолчанию слушает порт 11434.

  • В chat.model выбираем конкретный тег Llama, например llama3:8b - это хороший компромисс между качеством и требованиями к железу.

  • В embedding.model указываем модель для построения эмбеддингов документов - в примере это bge-m3, один из популярных вариантов для RAG‑сценариев.

  • В блоке vectorstore.qdrant прописываем URL HTTP‑API (порт 6333), имя коллекции и тот же API‑ключ, который задавали в docker-compose

С таким YAML Spring Boot при старте поднимет автосконфигурированный клиент для Ollama и VectorStore для Qdrant, и дальше в коде можно будет просто инжектить готовые бины.

Пример простой полноценной реализации на Java

Для примера использования напишем простейший универсальный контроллер, который позволяет сохранять документы и задавать вопросы, получая ответы, которые опираются на загруженные документы.

@RestController
@RequestMapping("/api/rag")
public class RagController {

    private final RagService ragService;
    private final DocumentIndexingService documentService;

    public RagController(RagService ragService, 
                         DocumentIndexingService documentService) {
        this.ragService = ragService;
        this.documentService = documentService;
    }

    @GetMapping("/ask")
    public String ask(@RequestParam String question) {
        return ragService.ask(question);
    }

    @PostMapping("/documents")
    public String saveDocument(@RequestBody String content) {
        documentIndexingService.saveDocument(content);
        return "Документ успешно сохранён в Qdrant";
    }
}

Сделаем RAG сервис под него, используя готовые клиенты для Qdrant и Ollama, который должен отвечать на вопросы, опираясь на данные из векторной базы Qdrant.

package com.example.rag.service;

import java.util.List;

import org.springframework.ai.chat.client.ChatClient;
import org.springframework.ai.document.Document;
import org.springframework.ai.vectorstore.SearchRequest;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.stereotype.Service;

@Service
public class RagService {

    private final VectorStore vectorStore;
    private final ChatClient chatClient;

    public RagService(VectorStore vectorStore, ChatClient.Builder chatClientBuilder) {
        this.vectorStore = vectorStore;
        this.chatClient = chatClientBuilder.build();
    }

    public String ask(String question) {
        List<Document> documents = vectorStore.similaritySearch(
                SearchRequest.builder()
                        .query(question)
                        .topK(4)
                        .build()
        );

        String context = documents.stream()
                .map(Document::getText)
                .reduce("", (a, b) -> a + "\n\n" + b);

        return chatClient.prompt()
                .system("""
                        Ты помощник, который отвечает только на основе переданного контекста.
                        Если в контексте нет ответа, честно скажи об этом.
                        """)
                .user("""
                        Контекст:
                        %s

                        Вопрос:
                        %s
                        """.formatted(context, question))
                .call()
                .content();
    }
}

Так как данных в Qdrant пока нет, нужно дописать сервис индексации и сохранения документов, который также очень просто интегрируется с помощью Spring AI.

package com.example.rag.service;

import java.util.List;
import java.util.Map;

import org.springframework.ai.document.Document;
import org.springframework.ai.vectorstore.VectorStore;
import org.springframework.stereotype.Service;

@Service
public class DocumentIndexingService {

    private final VectorStore vectorStore;

    public DocumentIndexingService(VectorStore vectorStore) {
        this.vectorStore = vectorStore;
    }

    public void saveDocument(String content) {
        Document document = new Document(content);
        vectorStore.add(List.of(document));
    }

    public void saveDocument(String content, Map<String, Object> metadata) {
        Document document = new Document(content, metadata);
        vectorStore.add(List.of(document));
    }

    public void saveDocuments(List<String> contents) {
        List<Document> documents = contents.stream()
                .map(Document::new)
                .toList();

        vectorStore.add(documents);
    }
}

Завершение

Мы собрали локальный RAG‑сервис на Java: Spring Boot даёт REST‑API, Spring AI управляет моделями, Qdrant хранит эмбеддинги, а Ollama крутит Llama прямо на машине. По пути мы настроили окружение и docker-compose, прописали конфиг в application.yml, добавили сервисы загрузки документов и поиска, контроллер /api/rag/ask. Этот скелет уже можно превращать во внутреннего ассистента: менять модели, выносить Qdrant в прод и навешивать UI. Если будете собирать свою версию, то эту простую реализацию можно взять за основу и допилить под свои нужды.