使用自定义LLM和Embedding模型部署Vanna:基于RAG的Text-to-SQL生成

说明:

  • 首次发表日期:2024-07-12
  • Vanna Github地址: https://github.com/vanna-ai/vanna
  • Vanna官方文档: https://vanna.ai/

部署Vanna时我们可以选择使用什么大模型和向量数据库,比如OPEN AI和ChromaDB等这些官方支持的。

但是存在一个问题,为了保证数据不存在泄露风险,部署自己的大模型服务比较安全。

Vanna官方文档中说明可以使用自定义大模型的,不过没有给出具体的例子,本文提供一个例子以供参考。

继承VannaBase,并调用自己的大模型实现接口

一般我们的大模型服务,不过是第三方的还是自己部署的,大多都有提供和OPEN AI兼容的接口;所以,我们只需要复制一下Vanna提供的OpenAI_Chat类,进行少量修改,使其可以调用自定义模型即可,代码如下:

class OpenAICompatibleLLM(VannaBase):def __init__(self, client=None, config=None):VannaBase.__init__(self, config=config)# default parameters - can be overrided using configself.temperature = 0.5self.max_tokens = 500if "temperature" in config:self.temperature = config["temperature"]if "max_tokens" in config:self.max_tokens = config["max_tokens"]if "api_type" in config:raise Exception("Passing api_type is now deprecated. Please pass an OpenAI client instead.")if "api_version" in config:raise Exception("Passing api_version is now deprecated. Please pass an OpenAI client instead.")if client is not None:self.client = clientreturnif "api_base" not in config:raise Exception("Please passing api_base")if "api_key" not in config:raise Exception("Please passing api_key")self.client = OpenAI(api_key=config["api_key"], base_url=config["api_base"])def system_message(self, message: str) -> any:return {"role": "system", "content": message}def user_message(self, message: str) -> any:return {"role": "user", "content": message}def assistant_message(self, message: str) -> any:return {"role": "assistant", "content": message}def submit_prompt(self, prompt, **kwargs) -> str:if prompt is None:raise Exception("Prompt is None")if len(prompt) == 0:raise Exception("Prompt is empty")num_tokens = 0for message in prompt:num_tokens += len(message["content"]) / 4if kwargs.get("model", None) is not None:model = kwargs.get("model", None)print(f"Using model {model} for {num_tokens} tokens (approx)")response = self.client.chat.completions.create(model=model,messages=prompt,max_tokens=self.max_tokens,stop=None,temperature=self.temperature,)elif kwargs.get("engine", None) is not None:engine = kwargs.get("engine", None)print(f"Using model {engine} for {num_tokens} tokens (approx)")response = self.client.chat.completions.create(engine=engine,messages=prompt,max_tokens=self.max_tokens,stop=None,temperature=self.temperature,)elif self.config is not None and "engine" in self.config:print(f"Using engine {self.config['engine']} for {num_tokens} tokens (approx)")response = self.client.chat.completions.create(engine=self.config["engine"],messages=prompt,max_tokens=self.max_tokens,stop=None,temperature=self.temperature,)elif self.config is not None and "model" in self.config:print(f"Using model {self.config['model']} for {num_tokens} tokens (approx)")response = self.client.chat.completions.create(model=self.config["model"],messages=prompt,max_tokens=self.max_tokens,stop=None,temperature=self.temperature,)else:if num_tokens > 3500:model = "kimi"else:model = "doubao"print(f"Using model {model} for {num_tokens} tokens (approx)")response = self.client.chat.completions.create(model=model,messages=prompt,max_tokens=self.max_tokens,stop=None,temperature=self.temperature,)for choice in response.choices:if "text" in choice:return choice.textreturn response.choices[0].message.content

继承Qdrant_VectorStore类并使用自己的Embedding服务

class CustomQdrant_VectorStore(Qdrant_VectorStore):def __init__(self,config={}):self.embedding_model_name = config.get("embedding_model_name", "beg-m3")self.embedding_api_base = config.get("embedding_api_base", "https://xxxxxxxxxxx.com")self.embedding_api_key = config.get("embedding_api_key", "sk-xxxxxxxxxxxxxxx")super().__init__(config)def generate_embedding(self, data: str, **kwargs) -> List[float]:def _get_error_string(response: requests.Response) -> str:try:if response.content:return response.json()["detail"]except Exception:passtry:response.raise_for_status()except requests.HTTPError as e:return str(e)return "Unknown error"request_body = {"model": self.embedding_model_name,"input": data,}request_body.update(kwargs)response = requests.post(url=f"{self.embedding_api_base}/v1/embeddings",json=request_body,headers={"Authorization": f"Bearer {self.embedding_api_key}"},)if response.status_code != 200:raise RuntimeError(f"Failed to create the embeddings, detail: {_get_error_string(response)}")result = response.json()embeddings = [d["embedding"] for d in result["data"]]return embeddings[0]

启动服务

  1. 定义一个CustomVanna类,继承CustomQdrant_VectorStoreOpenAICompatibleLLM
  2. 构建一个CustomVanna,在其中指定自己的大模型服务和Embedding服务的参数
  3. 链接数据库,比如mysql
  4. 启动服务
class CustomVanna(CustomQdrant_VectorStore, OpenAICompatibleLLM):def __init__(self, llm_config=None, vector_store_config=None):CustomQdrant_VectorStore.__init__(self, config=vector_store_config)OpenAICompatibleLLM.__init__(self, config=llm_config)vn = CustomVanna(vector_store_config={"client": QdrantClient(host="xxxxx", port=6333)},llm_config={"api_key": "sk-xxxxxxxxxxxx","api_base": "https://xxxxxxxxxxxxxxxxxx/v1","model": "xxxxxxx",},
)vn.connect_to_mysql(host='xxxxx', dbname='xxx', user='xxx', password='xxx', port=3306)from vanna.flask import VannaFlaskApp
app = VannaFlaskApp(vn)
app.run()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/98841.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/98841.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/98841.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux多线程概念

背景知识内存管理OS进行内存管理不是以字节为单位的,而是以内存块为单位的,默认大小为4kb;系统和磁盘文件进行IO交互的单位是4kb(8个扇区);OS对内存管理实质上是对页框进行管理。页框(Page Fram…

【Problem】动态规划之跳跃游戏系列

一、跳跃游戏 55. 跳跃游戏 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/jump-game/description/?envTypeproblem-list-v2&envIddynamic-programming class Solution { public:bool canJump(vector<int>& nums) {// 状态定义&#x…

射频EVM

EVM&#xff08;Error Vector Magnitude&#xff0c;误差矢量幅度&#xff09;是衡量无线通信系统中调制质量的重要指标&#xff0c;尤其用于评估信号的调制误差和系统性能。它通常用来表示传输信号与理想信号之间的偏差&#xff0c;特别是在数字通信中。EVM的基本概念&#xf…

Java 更改 Word 文档中文本颜色

在日常的自动化文档处理中&#xff0c;我们经常会遇到需要对 Word 文档内容进行编程修改的需求&#xff0c;其中一项常见且重要的操作就是更改文本的颜色。无论是为了突出重点、统一品牌风格&#xff0c;还是实现动态内容展示&#xff0c;精准地修改文本颜色都是一个核心痛点。…

STM32—SPI协议

文章目录一、SPI 协议简介二、硬件电路2.1.SPI的连接2.2.数据的移位2.3.时序基本单元2.3.1.起始条件和终止条件2.3.2.模式 02.3.3.模式 12.3.4.模式 22.3.5.模式 32.4.时序三、软件实现四、W25Q644.1.简介4.2.硬件电路4.3.框图4.4.操作注意事项五、实验一、SPI 协议简介 SPI&a…

Qt中的QWebEngineView

第1章 本地目录结构1.1 自己写的两个网页(html)mermaid.html &#xff08;自己写的网页界面&#xff09;WebTest.html (自己写的网页界面)qwebchannel.js (Qt下载安装之后&#xff0c;会在安装目录下有这个文件&#xff0c;需要将安装目录下的改文件拷贝…

Flutter 应用国际化 (i18n) 与本地化 (l10n) 完整指南

Flutter 国际化 (i18n) 完全指南&#xff1a;从入门到精通 在现代移动应用开发中&#xff0c;支持多语言是触达全球用户的基本要求。Flutter 提供了强大且灵活的国际化 (i18n) 和本地化 (l10n) 支持。本文将带你从零开始&#xff0c;一步步深入掌握在 Flutter 中实现国际化的几…

计算机视觉与深度学习 | 计算机视觉中线特征提取与匹配算法综述

文章目录 一、线特征提取算法原理 1.1 Hough变换及其优化 1.2 LSD算法 1.3 EDLines算法 二、核心数学公式 2.1 直线表示与误差计算 2.2 LSD算法关键公式 三、线特征匹配算法 3.1 LBD描述符 3.2 匹配策略 四、代码实现 4.1 LSD线段检测(Python) 4.2 LBD特征匹配(C++) 五、算…

Transformer 模型:Attention is All You Need 的真正含义

2017 年&#xff0c;Google Brain 发布了一篇具有里程碑意义的论文——《Attention Is All You Need》&#xff0c;这篇论文不仅首次提出了 Transformer 模型&#xff0c;更重要的是&#xff0c;它宣称“注意机制&#xff08;Attention Mechanism&#xff09;就足以构建强大的模…

数据库约束表的设计

数据库约束概念&#xff1a;数据库约束是关系型数据库的一个重要功能&#xff0c;主要是保证数据的完整性&#xff0c;也可理解为数据的正确性&#xff08;数据本身是否正确&#xff0c;关联关系是否正确&#xff09;&#xff08;一般是用在指定列上&#xff09;常见的约束类型…

【案例分享】TeeChart 助力 Softdrill 提升油气钻井数据可视化能力

在钻井与地质工程领域&#xff0c;数据可视化是核心环节。图表不仅需要精确与高效&#xff0c;还需符合行业习惯并支持交互与定制。Softdrill 自 2012 年起在核心产品中集成了TeeChart 图表库&#xff0c;将复杂的井下数据转化为直观的工程图表&#xff0c;极大提升了钻井工程师…

【Flink】Flink Runtime 架构设计

Flink Runtime 架构设计 整体架构 ┌─────────────────────────────────────────────────────────────────┐ │ Flink Runtime │ ├─────────…

Git 命令教程

Git介绍 分布式版本控制系统。 Git命令 初始化/全局配置git init初始化一个Git仓库&#xff08;会创建一个.git的目录&#xff09;git config --global user.name “name”设置提交时的用户名git config user.name查看设置的用户名git config --global user.email “youemail.c…

git config --global user.name指令报错时的解决方案

问题分析 %HOMEDRIVE%%HOMEPATH%/.gitconfig 是Windows环境变量的表示方式&#xff1a; %HOMEDRIVE% 通常是 C:%HOMEPATH% 通常是 \Users\你的用户名完整路径应该是&#xff1a;C:\Users\你的用户名\.gitconfig 但这里环境变量没有被正确解析&#xff0c;显示的是字面意思。 …

websocket和socket io的区别

好的&#xff0c;这是一个更具体也更常见的问题。WebSocket 是一种协议&#xff0c;而 Socket.IO 是一个库&#xff0c;它使用了 WebSocket 但提供了多得多的功能。 简单比喻&#xff1a; WebSocket 就像是给你提供了一条高效的“快递专线”&#xff08;双向通信通道&#xff…

Nginx反向代理与负载均衡部署

Nginx反向代理与负载均衡部署实战指南前言一、规划部署负载均衡和反向代理二、部署Nginx负载均衡器2.1. 准备基础环境2.2. 创建Nginx运行用户2.3. 编译安装Nginx2.4. 配置Nginx系统服务2.5. 验证Nginx安装三、部署后端2台Tomcat应用服务器3.1. 安装JDK3.2. 部署Tomcat实例13.3.…

从源码和设计模式深挖AQS(AbstractQueuedSynchronizer)

AQS 概念 AbstractQueuedSynchronizer&#xff08;AQS&#xff09; 是 Java 并发包 (java.util.concurrent.locks) 的核心基础框架&#xff0c;它的实现关键是先进先出 (FIFO) 等待队列和一个用volatile修饰的锁状态status。具体实现有 : ReentrantLock、Semaphore、CountDownL…

Dart → `.exe`:Flutter 桌面与纯命令行双轨编译完全指南

Dart → .exe&#xff1a;Flutter 桌面与纯命令行双轨编译完全指南 关键词&#xff1a;Dart、Flutter、Windows、可执行文件、桌面端、CLI、交叉编译 1. 前言 很多开发者以为 Dart 只能跑在 AOT 移动端或 Web 端&#xff0c;其实 官方工具链早已支持一键输出 Windows 原生 .ex…

互联网接入网中PPPoE和PPP协议

<摘要> PPPoE和PPP是宽带接入网络中至关重要的协议组合&#xff0c;其中PPP提供通用的点对点链路层解决方案&#xff0c;而PPPoE则是在以太网架构上扩展PPP应用的技术桥梁。本文从技术演进视角系统解析了两者的内在关联与本质区别&#xff1a;PPP作为成熟链路层协议&…

详细解析SparkStreaming和Kafka集成的两种方式的区别和优劣

spark streaming是基于微批处理的流式计算引擎&#xff0c;通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中&#xff0c;通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一。 针对不同的spark、kafka版本&#xff0…