一、Spring AI Alibaba 的介绍

1.1 什么是 Spring AI Alibaba？

Spring AI Alibaba 开源项目基于 Spring AI 构建，是阿里云通义系列模型及服务在 Java AI 应用开发领域的最佳实践，提供高层次的 AI API 抽象与云原生基础设施集成方案，帮助开发者快速构建 AI 应用。

Spring AI Alibaba 作为开发 AI 应用程序的基础框架，定义了以下抽象概念与 API，并提供了 API 与通义系列模型的适配。

开发复杂 AI 应用的高阶抽象 Fluent API — ChatClient
提供多种大模型服务对接能力，包括主流开源与阿里云通义大模型服务（百炼）等
支持的模型类型包括聊天、文生图、音频转录、文生语音等
支持同步和流式 API，在保持应用层 API 不变的情况下支持灵活切换底层模型服务，支持特定模型的定制化能力（参数传递）
支持 Structured Output，即将 AI 模型输出映射到 POJOs
支持矢量数据库存储与检索
支持函数调用 Function Calling
支持构建 AI Agent 所需要的工具调用和对话内存记忆能力
支持 RAG 开发模式，包括离线文档处理如 DocumentReader、Splitter、Embedding、VectorStore 等，支持 Retrieve 检索

以上框架功能可让您实现常见 AI 应用的快速开发，例如 “通过文档进行问答” 或 “通过文档进行聊天” 等。

1.2 Spring AI 项目简介

Spring AI 项目由 Spring 官方开源并维护的 AI 应用开发框架，该项目目标是简化包含人工智能（AI）功能的应用程序的开发，避免不必要的复杂性。该项目从著名的 Python 项目（例如 LangChain 和 LlamaIndex）中汲取灵感，但 Spring AI 并非这些项目的直接移植，该项目的成立基于这样的信念：下一波生成式 AI 应用将不仅面向 Python 开发人员，还将遍及多种编程语言。从本质上讲，Spring AI 解决了 AI 集成的基本挑战：Connecting your enterprise Data and APIs with the AI Models。

二、核心概念

2.1 模型

AI 模型是旨在处理和生成信息的算法，通常模仿人类的认知功能。通过从大型数据集中学习模式和见解，这些模型可以做出预测、文本、图像或其他输出，从而增强各个行业的各种应用。

AI 模型有很多种，每种都适用于特定的用例。虽然 ChatGPT 及其生成 AI 功能通过文本输入和输出吸引了用户，但许多模型和公司都提供不同的输入和输出。在 ChatGPT 之前，许多人都对文本到图像的生成模型着迷，例如 Midjourney 和 Stable Diffusion。

Spring AI 目前支持以语言、图像和音频形式处理输入和输出的模型。上表中的最后一行接受文本作为输入并输出数字，通常称为嵌入文本（Embedding Text），用来表示 AI 模型中使用的内部数据结构。Spring AI 提供了对 Embedding 的支持以支持开发更高级的应用场景。

GPT 等模型的独特之处在于其预训练特性，正如 GPT 中的“P”所示——Chat Generative Pre-trained Transformer。这种预训练功能将 AI 转变为通用的开发工具，开发者使用这种工具不再需要广泛的机器学习或模型训练背景。

2.2 提示（Prompt）

Prompt 作为语言基础输入的基础，指导 AI 模型生成特定的输出。对于熟悉 ChatGPT 的人来说，Prompt 似乎只是输入到对话框中的文本，然后发送到 API。然而，它的内涵远不止于此。在许多 AI 模型中，Prompt 的文本不仅仅是一个简单的字符串。

ChatGPT 的 API 包含多个文本输入，每个文本输入都有其角色。例如，系统角色用于告知模型如何行为并设定交互的背景。还有用户角色，通常是来自用户的输入。

分享 Prompt 已成为一种共同的实践，且正在进行积极的学术研究。例如，最近的一篇研究论文发现，最有效的 Prompt 之一可以以“深呼吸一下，分步进行此任务”开头。这表明语言的重要性之高。我们尚未完全了解如何充分利用这一技术的前几代版本，例如 ChatGPT 3.5，更不用说正在开发的新版本了。

2.3 提示词模板（Prompt Template）

创建有效的 Prompt 涉及建立请求的上下文，并用用户输入的特定值替换请求的部分内容。这个过程使用传统的基于文本的模板引擎来进行 Prompt 的创建和管理。Spring AI 采用开源库 StringTemplate 来实现这一目的。

Tell me a {adjective} joke about {content}.

在 Spring AI 中，Prompt 模板可以类比于 Spring MVC 架构中的“视图”。一个模型对象，通常是 java.util.Map，提供给 Template，以填充模板中的占位符。渲染后的字符串成为传递给 AI 模型的 Prompt 的内容。

传递给模型的 Prompt 在具体数据格式上有相当大的变化。从最初的简单字符串开始，Prompt 逐渐演变为包含多条消息的格式，其中每条消息中的每个字符串代表模型的不同角色。

2.4 嵌入（Embedding）

嵌入（Embedding）是文本、图像或视频的数值表示，能够捕捉输入之间的关系，Embedding 通过将文本、图像和视频转换为称为向量（Vector）的浮点数数组来工作。这些向量旨在捕捉文本、图像和视频的含义，Embedding 数组的长度称为向量的维度。

通过计算两个文本片段的向量表示之间的数值距离，应用程序可以确定用于生成嵌入向量的对象之间的相似性。

Embedding 在实际应用中，特别是在检索增强生成（RAG）模式中，具有重要意义。它们使数据能够在语义空间中表示为点，这类似于欧几里得几何的二维空间，但在更高的维度中。这意味着，就像欧几里得几何中平面上的点可以根据其坐标的远近关系而接近或远离一样，在语义空间中，点的接近程度反映了意义的相似性。关于相似主题的句子在这个多维空间中的位置较近，就像图表上彼此靠近的点。这种接近性有助于文本分类、语义搜索，甚至产品推荐等任务，因为它允许人工智能根据这些点在扩展的语义空间中的“位置”来辨别和分组相关概念。