作者：来自 Elastic Jhon Guzmán

了解如何将 Vertex AI 与 Elasticsearch 集成来创建 RAG 应用。按照本教程配置一个 Gemini 模型并在 Kibana 的 Playground 中使用它。

更多阅读：

Elasticsearch：在 Elastic 中玩转 DeepSeek R1 来实现 RAG 应用
在本地电脑中部署阿里 Qwen3 大模型及连接到 Elasticsearch

想要获得 Elastic 认证吗？看看下一期 Elasticsearch Engineer 培训什么时候开始！

Elasticsearch 拥有大量新功能，可以帮助你为你的用例构建最佳搜索解决方案。深入学习我们的示例 notebooks 以了解更多，开始免费的 cloud 试用，或者现在就在本地机器上尝试 Elastic。

从 Elasticsearch 版本 9.1.0 开始，你可以集成 Vertex AI 模型（包括 Gemini），并在 Elasticsearch 中使用它们。这个最新版本在现有的 embedding 和 reranking 功能上新增了 completion 和 chat_completion 能力，因此你可以通过 AI connector 在模型中配置它们。

Vertex AI 允许你使用像 Gemini 2.5 Pro 和 Flash 这样的模型，这些模型对 RAG 的推理和文本流很有用。此外，使用 Vertex AI 你还可以部署模型以进行更多自定义和微调。

我们选择 gemini-2.5-flash-lite，因为它在价格和性能之间有最佳平衡，同时在推理基准中得分很高。它被评为最快和最便宜的模型之一，是一个很好的入门选择。如果我们需要更强大性能，可以切换到 gemini-2.5-pro。Gemini 2.5-mini 非常适合低延迟、大数据量处理，比如我们要创建的这种 RAG 应用。

在这篇文章中，你将学习如何在 Elasticsearch 中配置一个基础的 Vertex AI 模型，以便在 Kibana 的 Playground 中使用它。我们将设置 GCP Service Account，并配置 gemini-2.5-flash-lite 来用 Playground 创建一个 RAG 应用。

下面是我们基础配置的示意图：

设置 AI Vertex Connector

第一步是在 GCP 中创建一个服务账号以使用 Vertex AI 平台。如果你已经有了，就跳过这一步，但要确保手头有认证用的 JSON 文件，并且该账号已分配 Vertex AI User 和 Service Account Token Creator 角色。

创建 GCP 服务账号

要创建 GCP 服务账号，你需要进入这个链接，选择将要创建账号的项目，然后点击 “+ Create service account”。

为服务账号选择一个名称并点击 “Create and continue”。在下一个菜单中，为其添加以下两个角色的权限：

Vertex AI User
Service Account Token Creator：该角色允许账号生成必要的访问令牌。

点击 “Done”。

创建服务账号后，你必须下载 JSON 访问密钥。在下一个链接中，选择你刚创建的账号。进入“Keys”，然后点击 “Add key”，再点击 “Create new key”。

在弹出窗口中，确保将 JSON 标记为密钥类型，然后点击 “Create”。

这会下载一个 JSON 密钥，你将在接下来的步骤中用到它。

创建 Elasticsearch 集群

为了使用 Vertex 模型，我们将在这里注册并创建一个 Elastic Cloud Serverless 集群，但你可以选择适合你需求的部署类型。对于本教程，我们将选择 search 用例。

然后，表单会要求你选择一个 cloud provider 和区域。接着，你需要选择一个 “optimized for vectors” 的项目。这一步仅在 Serverless 部署中需要。

集群部署完成后，进入 Kibana 进行下一步操作。

创建 AI Connector

现在你的集群已经准备好，并且可以访问 Vertex AI，你就可以创建 connector 了。在 Kibana 中，进入 Connectors 菜单（Management > Stack Management > Alerts and Insights > Connectors）。然后，创建一个 connector 并选择 AI Connector。

使用以下参数配置 connector：

Connector name：Vertex AI
Service：Google Vertex AI
JSON Credentials：在这里，你需要复制/粘贴前面步骤中创建的访问密钥的完整内容
GCP Project：服务账号和 Vertex AI 模型所在的项目 ID
GCP Region：模型所在的区域（us-central1 可访问大多数 Gemini 模型）
Model ID：gemini-2.5-flash-lite
Task Type：chat_completion

你的 connector 应该看起来像这样：

除了这个配置，你还有 “additional options”，可以定义模型和通过 connector 可用的推断端点的关键属性。

Rate limit：可选地定义每分钟发送请求的最大数量。
Task type：使用模型执行的任务。这个新版本增加了 completion 和 chat_completion：

Completion：模型接收一个 prompt 并生成最可能的延续。没有对话轮次、角色或任何对话结构。适用于简单任务，如补全代码、生成连续文本，或在没有上下文的情况下回答直接问题。
Chat Completion：此模式以基于角色的结构（system、user、assistant）训练模型，允许处理多轮交互。在内部，模型不仅预测下一个 token，还会基于对话意图进行预测。
Inference Endpoint：创建 connector 时，会生成一个推断端点以识别配置任务的模型。我们可以定义一个 ID 并在推断 API 和 Kibana 中使用它。

在 Kibana 的 Playground 中使用模型

上传数据

要测试模型，我们需要一些数据，并确认 _inference API 可用。从 8.17 版本开始，机器学习功能是动态的，这意味着要下载并使用 E5 dense multilingual vector，只需使用该模型即可。

# find e5 model id
GET /_inference# trigger the download by using it
POST /_inference/text_embedding/.multilingual-e5-small-elasticsearch
{"input": "Warming up ML nodes!"
}

当你生成 embeddings 时，模型会被下载，推断端点会自动运行。

现在，让我们上传下面的文本作为 RAG 上下文：

Casa Tinta Bistro is a small, family-run restaurant located in the Chapinero neighborhood of Bogotá, Colombia. It was founded in 2019 by siblings Mariana and Lucas Herrera, who combined their love for traditional Colombian flavors with a modern twist. The bistro is best known for its creamy coconut ajiaco, mango-infused arepas, and handcrafted guava lemonade.The restaurant operates Tuesday through Sunday, from 12:00 PM to 9:30 PM, and closes on Mondays. They offer vegetarian and vegan options, and their menu changes slightly every season to incorporate fresh local ingredients. Casa Tinta also hosts monthly poetry nights, where local writers perform their work in front of a small crowd of regulars and newcomers alike.Although it remains a hidden gem for most tourists, Casa Tinta has a loyal base of local customers and consistently ranks high on community food blogs and private reviews.

将文本保存为 .txt 文件，然后进入 Elasticsearch > Home > Upload a file