下面是目前主流 大语言模型 API 的付费情况总览


🧠 一、主要大语言模型 API:是否付费对比

提供方模型是否免费限制 / 说明
OpenAIGPT-3.5 / GPT-4 / GPT-4o付费为主有免费额度(如 ChatGPT 免费版),API 调用大多需付费
AnthropicClaude 2 / Claude 3付费为主API 使用需订阅(如通过 Amazon Bedrock / Claude 官网)
GoogleGemini Pro / 1.5✅(有限)/ ❌有免费层(限速),API 商业化使用需付费
MetaLLaMA 2 / LLaMA 3开源免费模型本身免费,但托管/推理费用另计(如用 AWS/GCP)
MistralMistral / Mixtral开源免费模型开放,API 接入商(如 HuggingFace)可能收费
CohereCommand R付费为主提供免费额度,API 商业化收费
Open-Source 自托管LLaMA / Mistral / RWKV 等✅ 免费模型和API都可自己部署,零成本但需计算资源
Hugging FaceTransformers / Inference API✅ / ❌免费模型下载,推理API免费有调用限制,商用或大流量需订阅

💰 二、典型付费 API 示例

1. OpenAI

curl https://api.openai.com/v1/chat/completions \-H "Authorization: Bearer YOUR_API_KEY" \-d '{"model": "gpt-4","messages": [{"role": "user", "content": "你好"}]
}'
  • GPT-4o 单次调用价格(截至 2025):$0.005-$0.01 / 1K tokens

  • 免费额度:ChatGPT(免费版使用 GPT-3.5)


2. Google Gemini API

  • 免费开发计划有速率和配额限制

  • 商业级调用定价:

    • Gemini 1.5 Flash:$0.000125/token(输入)

    • Gemini 1.5 Pro:$0.0005/token(输入)


3. Anthropic Claude

  • API 接入通过官网或 Amazon Bedrock,价格与 OpenAI 类似

  • Claude 3 Opus 比 GPT-4 更强但更贵,约 $0.03/token(输出)


🆓 三、免费可用的开源 LLM 模型(推荐)

模型特点推荐部署方式
LLaMA 2 / 3Meta 出品,效果强使用 text-generation-webui 或 HuggingFace
Mistral / Mixtral高性价比,小模型快Docker 部署或 HuggingFace Spaces
Yi / InternLM / Qwen中文效果优秀自建推理服务(如 vLLM, FastChat

🧩 总结:什么是“付费”的?

  • 模型是开源的API 是免费的

  • ✅ 如果你自己部署模型,本地使用 0 成本

  • ❌ 如果调用别人的 API 云服务(OpenAI、Claude、Gemini),则通常需要 按 token 或调用次数付费


如何用免费的大语言模型开发项目,一些 部署方法API 替代方案(例如 vLLM + Hugging Face 模型),搭建开源模型 API ?

好的,我们来一步步搭建一个 免费且功能强大的大语言模型 API 接口,你可以用来替代 OpenAI 或其他付费服务。本方案基于开源模型(如 LLaMA、Mistral、Qwen)+ 高性能推理引擎 vLLM,在 Linux 上部署。


✅ 一、系统前提

  • 操作系统:Linux (推荐 Ubuntu 20.04/22.04)

  • Python 版本:>=3.8

  • 显卡支持:NVIDIA GPU + CUDA 11+(可选,CPU 也能运行但较慢)

  • 推荐显卡:至少 8GB 显存(如 RTX 3060 以上)


🚀 二、安装 vLLM 并部署模型 API

1️⃣ 安装 Python 环境

sudo apt update
sudo apt install python3-pip python3-venv git -y
python3 -m venv llm-env
source llm-env/bin/activate

2️⃣ 安装 vLLM

pip install --upgrade pip
pip install vllm

3️⃣ 下载开源大语言模型(如 Qwen 1.5, Mistral, LLaMA3)

以阿里巴巴的中文模型 Qwen1.5-7B-Chat 为例:

# 需要先登录 huggingface
huggingface-cli login# 运行 API 接口(模型会自动下载)
python3 -m vllm.entrypoints.openai.api_server \--model Qwen/Qwen1.5-7B-Chat \--port 8000

🔁 可替换为任何 HuggingFace 上支持的模型,如:

  • mistralai/Mistral-7B-Instruct-v0.2

  • meta-llama/Meta-Llama-3-8B-Instruct

  • baichuan-inc/Baichuan2-7B-Chat


🔌 三、模拟 OpenAI API 调用方式(兼容 openai.ChatCompletion.create()

你现在可以像这样调用自己的 LLM API:

import openaiopenai.api_key = "EMPTY"  # 不需要真实密钥
openai.api_base = "http://localhost:8000/v1"response = openai.ChatCompletion.create(model="Qwen/Qwen1.5-7B-Chat",messages=[{"role": "user", "content": "你好,请写一首唐诗。"}]
)
print(response['choices'][0]['message']['content'])

📦 四、支持模型列表推荐

模型名称平台特点
Qwen1.5-7B-ChatHuggingFace中文强、速度快
mistralai/Mistral-7B-Instruct-v0.2HuggingFace英文强、轻量级
meta-llama/Meta-Llama-3-8B-InstructMeta英文通用最优
THUDM/chatglm3-6b中文推荐低显卡也能跑

🧠 五、可选增强:前端 / Web UI(可选)

  • Open WebUI:轻量美观的网页界面,兼容 OpenAI 接口

  • Text Generation Web UI:更高级、支持模型切换

  • FastChat:也支持 OpenAI API 和 Web Chat 界面


📘 六、下一步建议

  • 用 Nginx 反向代理模型 API,发布到公网

  • 加入 Web UI 或 Web 服务(比如 Flask、FastAPI)

  • 如果你没有 GPU,也可以部署量化模型(如 GGUF)+ llama.cpp

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/94114.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/94114.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/94114.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

巧用Wisdom SSH:容器化运维与传统运维的抉择

巧用Wisdom SSH:容器化运维与传统运维的抉择 在当下的技术领域,容器化运维与传统运维是运维人员面临的两大主要方向,对于从业者来说,如何抉择至关重要,而Wisdom SSH在其中能发挥显著作用。 传统运维:基石…

API征服者:Python抓取星链卫星实时轨迹

API征服者:Python抓取星链卫星实时轨迹从基础调用到工业级卫星追踪系统实战指南一、太空数据时代:星链卫星的全球覆盖​​星链卫星网络规模​​:已发射卫星数量:4,000目标卫星总数:42,000轨道高度:340km - …

《深潜React列表渲染:调和算法与虚拟DOM Diff的优化深解》

当用户在内容平台无限滑动,或是在管理系统中处理成百上千条数据时,每一次无卡顿的交互,都是调和算法与虚拟DOM Diff机制协同工作的成果。理解这两者的底层逻辑,不仅是性能优化的钥匙,更是从“使用框架”到“理解框架”…

自动化与配置管理工具 ——Ansible

一、Ansible 概述1.1 核心特性Ansible 是一款开源的自动化运维工具,采用无代理(Agentless)架构,通过 SSH 协议实现对远程节点的管理。其核心特性包括:无代理架构:被管理节点无需安装代理软件,降…

Effective C++ 条款18:让接口容易被正确使用,不易被误用

Effective C 条款18:让接口容易被正确使用,不易被误用核心思想:设计接口时,应使正确使用方式直观自然,同时通过类型系统、行为约束等手段主动预防常见错误,减少用户犯错的可能性。 ⚠️ 1. 接口误用的常见陷…

nodejs读写文件

1.读文件 node有很多模块,可在node模块查看相应模块; var fsrequire(fs)fs.readFile(./src/a.doc,utf8,function(err,data){// 如果发生错误,data是undefined 如果成功 err为null console.log(err); console.log(data); }) 2.写文件 var…

ConcurrentHashMapRedis实现二级缓存

1. 为什么使用ConcurrentHashMap?在Java中,ConcurrentHashMap 是一个线程安全且高效的哈希表实现,广泛用于高并发场景。将其用作一级缓存的原因主要包括以下几点:1.1. 线程安全性ConcurrentHashMap 是线程安全的,支持多…

Mysql集群技术

实验在RHEL7中做,因为9中缺少了一个关键的高可用组件环境:两台数据库,内存和CPU要多一点主流是MYSQL(开源),Oracle收费较贵RHEL7中直接用make编译是有问题的,所以需要要gcc工具做好前置准备&…

自动驾驶嵌入式软件工程师面试题【持续更新】

文章目录前言请描述 CAN 帧的基本结构(包括标识符、数据字段、CRC 等)描述 WebSocket 协议的基本工作流程(包括握手、数据帧结构)请说明如何实现 WebSocket 连接的心跳机制以检测连接状态,并描述在断开后如何通过重连策…

vue(5)-组件

一.组件三大组成部分(结构/样式/逻辑)(1)组件样式冲突用scoped全局样式在组件中起全局作用,局部样式可以加scoped属性来只作用于当前组件图中只给baseone加这个样式,就在baseone中style加scoped&#xff08…

【机器学习】两大线性分类算法:逻辑回归与线性判别分析:找到分界线的艺术

文章目录一、核心概念:数据分类的"切分线"二、工作原理:从"找分界线"理解二、常见算法1、逻辑回归:二分类2、线性判别分析(LDA):分类与降维3、两种算法对比分析三、实际应用&#xff1…

静态分析c/cpp源码函数调用关系图生成

calltree calltree 不好使用 Dpxygen https://www.doxygen.nl/download.html Graphviz https://graphviz.org/download/ 静态代码调用结构图分析、构建、生成 doxygen doxygen在win和linux上均可运行,可以自动分析源码,对c语言项目友好,预处…

使用 MySQL Shell 进行 MySQL 单机到 InnoDB Cluster 的数据迁移实践

迁移背景与环境原来都是用mysqldump,DTS或者cdc迁移,这次8.0用了下新工具感觉挺好用的,简单快捷,30G数据不到源环境:单机 MySQL 8.0,地址为 172.23.3.28目标环境:InnoDB Cluster 集群&#xff0…

淘宝商品API可以获取哪些商品详情数据?

商品详情页商品全部sku信息"skus": {"sku": [{"price": 45.6,"total_price": 0,"orginal_price": 45.6,"properties": "1627207:39617249736","properties_name": "1627207:39617249736…

新一代PLC控制软件平台EsDA-AWStudio

在工业自动化和智能制造领域,高效的软件平台是提升开发效率和系统性能的关键。ZLG致远电子推出的EsDA-AWStudio平台,凭借其强大的功能和灵活的设计,为工业控制和物联网应用提供了全新的解决方案。一站式PLC工业控制软件平台EsDA-AWStudioZLG致…

基于深度学习的医学图像分析:使用MobileNet实现医学图像分类

前言 医学图像分析是计算机视觉领域中的一个重要应用,特别是在医学图像分类任务中,深度学习技术已经取得了显著的进展。医学图像分类是指将医学图像分配到预定义的类别中,这对于疾病的早期诊断和治疗具有重要意义。近年来,MobileN…

docker 容器常用命令

在平常的开发工作中,我们经常需要使用 docker 容器,那么常用的 docker 容器命令有哪些呢?今天简单总结下。 一:查看容器查看运行的容器:docker ps查看所有的容器:docker ps a查看容器详细信息&#…

重型机械作业误伤预警响应时间缩短80%!陌讯多模态识别算法在工程现场的应用优化

一、行业痛点:机械作业场景的识别困境据《工程机械安全白皮书(2025)》统计,施工现场因机械盲区导致的工伤事故中​​78.3%由识别延迟引发​​。核心难点包括:​​动态遮挡问题​​:吊臂摆动导致目标部件部分…

2025年ESWA SCI1区TOP,强化学习多目标灰狼算法MOGWO-RL+分布式混合流水车间调度,深度解析+性能实测

目录1.摘要2.问题描述和数学建模3.强化学习多目标灰狼算法MOGWO-RL4.结果展示5.参考文献6.算法辅导应用定制读者交流1.摘要 本文针对大规模个性化制造(MPM)中的调度问题,提出了一种新的解决方案。MPM能够在确保大规模生产的前提下&#xff0…

Mac 系统下安装 nvm

Mac 系统下安装 nvm nvm 全称为 node version manger,顾名思义就是管理 node 版本的一个工具,通过这个工具,我们可以在一台计算机上安装多个版本的 node,并且随时进行无缝的切换。 1. 卸载原本的 node.js(重要&#xf…