大模型文本转换

学习目标

在本课程中,我们将探究如何使用大语言模型来完成文本转换任务,例如语言翻译、拼写和语法检查、语气调整以及格式转换。

相关知识点

大模型文本转换

学习内容

1. 大模型文本转换

文本转换的核心定义与范畴 文本转换 是指通过技术手段对文本的语言、格式、风格、结构等维度进行系统性改造,使其适应不同场景需求的过程。基于大语言模型(LLM)的文本转换,本质是利用模型对自然语言的理解与生成能力,实现语义在不同形式间的精准映射。其核心范畴包括:

  • 语言维度:跨语种翻译(如中英互译、小语种转换)、方言与标准语转换;
  • 格式维度:非结构化文本与结构化数据互转(如JSON转HTML表格)、代码格式转换(Markdown转LaTeX);
  • 风格维度:语气调整(口语→书面语、正式→非正式)、文体转换(新闻稿→诗歌、技术文档→科普文案);
  • 语义维度:语法纠错、拼写修正、语义优化(如增强说服力、简化复杂句式)。
    文本转换的核心应用场景

跨语言沟通与全球化业务

  • 电商客服工单翻译:实时将法语、西班牙语等多语言客户反馈译为中文,辅助客服快速响应;
  • 跨境营销内容本地化:将英文产品描述转为符合日本文化习惯的日语文案(如调整敬语等级、规避敏感词汇)。

内容创作与传播优化

  • 多平台适配:将一篇深度报道转换为短视频脚本(提炼核心观点+口语化表达),或转为微博话题文案(添加话题标签+情绪化表达);
  • 学术成果通俗化:将论文摘要转换为面向公众的科普短文(如将“量子纠缠”解释为“跨越时空的粒子联动”)。

企业级文档处理

  • 格式标准化:将员工提交的非结构化需求文档转换为统一的JSON格式,便于系统解析;
  • 合规性改造:将包含敏感信息的合同文本进行脱敏处理(如隐藏身份证号、银行账号),同时保持语义完整。

教育与语言学习

  • 个性化学习材料生成:将同一篇英文文章转换为不同难度的版本(如基础版简化句式、进阶版增加专业术语);
  • 语言教学辅助:自动批改学生作文,标注语法错误并提供修改建议(如“此处应使用过去完成时”)。
1.1 准备工作

安装依赖
httpx 是一个用于进行 HTTP 请求的库,我们可以使用它来向大模型发送请求并获取响应。
openai 库提供了统一的接口来调用大模型。
redlines 是一个用于文本对比和高亮显示差异的 Python 库,主要功能是将两个文本版本之间的修改以直观的方式呈现出来,类似文档编辑中的 “修订模式” 或代码版本控制中的 diff 功能。

%pip install httpx
%pip install openai
%pip install redlines

初始化参数

import os
import httpx
from openai import OpenAI# 此课程基于DeepSeek-R1运行,学员可自行前往官网进行api申请
client = OpenAI(base_url=<BASE_URL>,api_key=<API_KEY>,http_client=httpx.Client(verify=False),
)
  • 定义 get_completion 函数,用于调用大模型生成文本。
    • 这个函数通过 OpenAI 客户端调用指定模型,根据输入的提示词生成回复,并处理可能存在的思维标记,返回最终的回复内容。
    • get_completion函数用于向模型发送单个用户提示,并获取模型的响应。它将提示封装在 messages列表中,然后调用 client.chat.completions.create方法与模型进行交互,最后调用 extract_after_think函数处理响应。
参数说明
model指定使用的大语言模型,决定生成文本的能力和风格
messages对话历史列表,仅包含用户提示词,引导模型生成回复
stream是否以流式方式返回结果。为 False 时,模型生成完整内容后一次性返回;为 True 时逐字返回
temperature控制输出的随机性和创造性。值接近 0 时输出更具确定性,结果更保守、准确;值接近 1 时输出更随机,可能增加创意但也可能有胡言乱语风险
max_tokens限制生成内容的最大 token 数量(含输入和输出)。超过此限制模型输出会被截断,token 约4个字符或1个汉字,设置过小可能回复不完整
top_p核采样参数,控制词汇选择的概率分布范围。值为 0.95 时模型只考虑累积概率达 95% 的词汇,过滤低概率词汇,减少随机性
#请根据实际替换model_name
def get_completion(prompt, model=<model_name>):mess = [{"role": "user", "content": prompt}]response = client.chat.completions.create(model=model,messages=mess,stream=False,temperature=0.6, # 这就是该模型输出结果的随机程度。 max_tokens=2048,top_p=0.95)return response.choices[0].message.content.split("</think>\n\n")[-1]
1.2 调用大模型
1.2.1 翻译

大模型是通过多种语言的资料进行训练的。这使得模型具备了进行翻译的能力。以下是一些关于如何运用这一能力的示例。

prompt = f"""
将以下英文文本翻译成中文: \ 
```Hi, I would like to order a blender```
"""
response = get_completion(prompt)
print(response)
prompt = f"""
告诉我这是哪种语言: 
```Combien coûte le lampadaire?```
"""
response = get_completion(prompt)
print(response)
prompt = f"""
将以下文本翻译成法语、西班牙语和英式英语海盗风格表达: \
```I want to order a basketball```
"""
response = get_completion(prompt)
print(response)
prompt = f"""
将以下文本分别翻译成中文的正式形式和非正式形式:
'Would you like to order a pillow?'
"""
response = get_completion(prompt)
print(response)
1.2.2 通用翻译器

设想一下,你在一家大型跨国电子商务公司负责信息技术(IT)工作。用户们用他们各自的母语向你反馈信息技术方面的问题。而你的员工来自世界各地,每个人都只会说自己的母语。此时,你就需要一个通用翻译器!

例如下面的各地语言:

  • 法语(系统的性能比平时要慢。)
  • 西班牙语(我的显示器有一些不发光的像素点。)
  • 意大利语(我的鼠标不工作了。)
  • 波兰语(我的 Ctrl 键坏了。)
  • 英语(我的屏幕在闪烁。)
user_messages = ["La performance du système est plus lente que d'habitude.",  "Mi monitor tiene píxeles que no se iluminan.",              "Il mio mouse non funziona",                                 "Mój klawisz Ctrl jest zepsuty",                             "My screen is flickering."                                   
] 
for issue in user_messages:prompt = f"告诉我这是什么语言:```{issue}```"lang = get_completion(prompt)print(f"原始信息: ({lang}): {issue}")prompt = f"""将以下文本翻译成汉语和韩语:```{issue}```"""response = get_completion(prompt)print(response, "\n")
1.2.3 语气转换

写作会因目标受众的不同而有所差异。大模型能够生成不同的语气风格。

prompt = f"""
将以下内容从日常口语转换为商务信函风格:
'各位,这次活动的报名人数比咱们预想的少太多了,得赶紧想想办法推广推广。'
"""
response = get_completion(prompt)
print(response)
1.2.4 格式转换

大模型能够在不同格式之间进行转换。提示语应当对输入格式和输出格式进行描述。

data_json = { "餐厅员工" :[ {"姓名":"杉木", "电子邮箱":"shyamjaiswal@gmail.com"},{"姓名":"薄冰", "电子邮箱":"bob32@gmail.com"},{"姓名":"嘉义", "电子邮箱":"jai87@gmail.com"}]
}
prompt = f"""
将以上Python字典(以JSON格式呈现)转换为带有列标题和标题的HTML表格。仅输出html:{data_json}
"""
response = get_completion(prompt)
print(response)
from IPython.display import display, HTML
display(HTML(response))
1.2.5 拼写及语法语义检查

以下是一些常见的语法和拼写问题的示例,以及大语言模型(LLM)的回复。
要向大语言模型表明你希望它校对文本,你可以指示模型 “进行校对” 或 “进行校对并改正”。

text = [ "The girl with the black and white puppies have a ball.",  # 语法错误,主语 “The girl” 是单数,谓语动词应用 “has” 而非 “have”"Yolanda has her notebook.", # 正确"Its going to be a long day. Does the car need it’s oil changed?",  # 同音异义词错误"This phrase is to cherck Deepseek for speling abilitty"  # 拼写错误
]
for t in text:prompt = f"""校对并改正以下文本,然后重写改正后的版本。\如果你没有发现任何错误,就说“未发现错误”。\不要在文本周围使用任何标点符号:```{t}```"""response = get_completion(prompt)print(response)
text = f"""
这是我给女儿买的生日礼物,因为她老是从我房间里拿走我的东西。\
没错,大人也同样喜欢熊猫。她到哪儿都带着它,而且它超级柔软可爱。\
它的一只耳朵比另一只低一点,我觉得这不是设计成不对称的样子。\
不过就我付的价钱来说,它有点小了。\
我觉得可能还有其他同样价格但更大一些的选择。\
它比预计时间提前一天就到了,所以在我把它送给女儿之前,我自己还玩了一会儿。 
"""
prompt = f"校对并纠正这条评论: ```{text}```"
response1 = get_completion(prompt)
print(response)
from IPython.display import Markdown
from redlines import Redlinesdiff = Redlines(text,response1)
display(Markdown(diff.output_markdown))
prompt = f"""
校对并纠正这条评论,使其更具说服力。
确保遵循APA格式指南,并以资深读者为目标受众。
以Markdown格式输出。
文本:```{text}```
"""
response = get_completion(prompt)
display(Markdown(response))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92686.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92686.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/92686.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣LCR024:反转链表206.反转链表双解法(经典面试题)

LCR 024. 反转链表 - 力扣&#xff08;LeetCode&#xff09;LCR 024. 反转链表 - 给定单链表的头节点 head &#xff0c;请反转链表&#xff0c;并返回反转后的链表的头节点。 示例 1&#xff1a;[https://assets.leetcode.com/uploads/2021/02/19/rev1ex1.jpg]输入&#xff1a…

Day 6: CNN卷积神经网络 - 计算机视觉的核心引擎

Day 6: CNN卷积神经网络 - 计算机视觉的核心引擎 📚 核心概念(5分钟理解) 什么是CNN卷积神经网络? 核心概念解释: CNN(Convolutional Neural Network): 专门处理具有网格状拓扑结构数据的深度学习模型,特别擅长图像识别 为什么需要: 传统全连接神经网络处理图像时参数量…

MacBook 本地化部署 Dify 指南

Dify 安装前的准备工作 确认系统满足最低配置要求&#xff0c;包括操作系统版本、内存、CPU 和存储空间。 检查是否已安装必要的依赖项&#xff0c;如 Python、Docker 确保网络环境稳定&#xff0c;能够访问所需的软件源或镜像仓库。 获取 Dify 安装包 https://docs.dify.ai…

疫情可视化:基孔肯雅热风险地图实战解析

> 一只白纹伊蚊的飞行半径是100米,而一套WebGIS系统能将疫情防控范围精确到每平方米。 2025年夏季,基孔肯雅热疫情在广东佛山爆发,短短一个月内感染病例占全省95%以上。这种由伊蚊传播的病毒性疾病,以**突发高热、剧烈关节痛和全身皮疹**为特征,患者关节疼痛可能持续数…

【14-模型训练细节】

训练步骤 1、指定输入和输出&#xff0c;即模型定义&#xff1b; 2、指定损失函数和成本函数&#xff1b; 3、指定训练算法&#xff0c;如梯度下降算法&#xff1b;训练细节 损失函数和成本函数用梯度下降算法训练模型 主要是求成本函数的偏导数&#xff0c;使用的是反向传播算…

ConcurrentDictionary 详解:.NET 中的线程安全字典

什么是 ConcurrentDictionary&#xff1f; ConcurrentDictionary<TKey, TValue> 是 .NET Framework 4.0 和 .NET Core/.NET 5 中引入的线程安全字典实现&#xff0c;位于 System.Collections.Concurrent 命名空间。它解决了多线程环境下操作字典时的同步问题&#xff0c…

集成电路学习:什么是URDF Parser统一机器人描述格式解析器

URDF Parser(URDF解析器)是ROS(Robot Operating System,机器人操作系统)中用于解析URDF(Unified Robot Description Format,统一机器人描述格式)文件的工具。URDF是一种基于XML(Extensible Markup Language,可扩展标记语言)规范的格式,用于描述机器人的结构、关节、…

老式大头显示器(CRT)和当前最高分辨率的LED显示器对比

老式 CRT&#xff08;阴极射线管&#xff09;和当前最顶尖的 LED&#xff08;包括 MicroLED / 高端 MiniLED / OLED&#xff09;显示器在画面清晰度极限相关的参数并列分析。1. 分辨率与像素密度指标老式 CRT&#xff08;PC/电视用&#xff09;顶级 LED 显示器&#xff08;2025…

北京JAVA基础面试30天打卡07

1. 缓存三大问题及解决方案问题场景后果常用解决方案缓存穿透请求的数据在缓存和数据库中都不存在&#xff08;恶意攻击或查询异常 ID&#xff09;每次请求都会打到数据库&#xff0c;导致 DB 压力骤增- 缓存空值&#xff08;短期缓存不存在的 key&#xff09;- 布隆过滤器&…

后量子密码学的迁移与安全保障:迎接量子时代的挑战

在当今数字化时代&#xff0c;信息安全无疑是保障个人隐私、企业运营和国家安全的基石。我们依赖密码学来保护敏感信息&#xff0c;从在线银行交易到机密军事通信&#xff0c;从医疗记录的存储到云计算中的数据传输&#xff0c;传统密码学为我们构筑起一道抵御恶意攻击的防线。…

Android 获取 UserAgent (UA) 的三种方式深度解析:差异、风险与最佳实践

引言 在 Android 开发中&#xff0c;获取 UserAgent (UA) 字符串是常见需求&#xff0c;尤其涉及网络请求和 WebView 交互时。开发者通常使用三种方式获取 UA&#xff1a; new WebView(context).getSettings().getUserAgentString()WebSettings.getDefaultUserAgent(context)…

Apache IoTDB 全场景部署:跨「端-边-云」的时序数据库 DB+AI 实战

时序数据正成为现代工业物联网的核心资产,从设备传感器到业务分析,数据需跨越端、边、云多个层级。本文将深入探讨 **Apache IoTDB** 如何实现全场景统一时序数据管理,并融合AI能力实现智能决策。 --- ### 一、为什么需要「端-边-云」协同? 在工业物联网场景中: - **端侧…

某地渣库边坡自动化监测服务项目

1. 项目简介该矿山主要从事稀有金属钽、铌及合金等的研发、生产、销售和进出口业务。具有科学的管理理念、精良的工艺装备、先进的技术水平、高素质的员工队伍等综合优势&#xff0c;已形成钽、铌金属及其合金材料等主要产业格局。公司产品被广泛应用于电子、通讯、航空、航天、…

redis(2)-java客户端使用(IDEA基于springboot)

一、准备工作首先确保&#xff1a;Linux 服务器上已安装并启动 Redis 服务Redis 已配置允许远程连接&#xff08;修改 redis.conf 文件&#xff09;开发环境&#xff08;IDEA&#xff09;已准备好二、Spring Boot 项目配置 Redis1. 添加依赖在pom.xml中添加 Redis 相关依赖&…

解决 vscode 编辑 markdown 文件时退格键/backspace 删除卡顿问题

文章目录发现问题解决问题发现问题 使用 vscode 编辑 markdown 时&#xff0c;发现有时按下退格键 backspace 后等待很久才会生效&#xff0c;卡顿明显 解决问题 从界面左下角的设置图标&#xff0c;打开 vscode 的键盘快捷键设置页面 Keyboard Shortcuts 搜索 backspace 按…

绿巨人VS Code多开项目单独管理每个项目单独使用一个不限制的augment

绿巨人VS Code多开项目单独管理每个项目单独使用一个不限制的augment 绿巨人VS前言 在AI辅助编程时代&#xff0c;Augment Code作为一款强大的代码助手工具&#xff0c;为开发者提供了智能代码补全、代码生成等功能。然而&#xff0c;免费版本的使用限制&#xff08;通常为每月…

Java 之抽象类和接口

一 、抽象类 1.1 、什么是抽象类&#xff1f; 就是当一个类不能描述具体的对象时&#xff0c;那么这个类就可以写成抽象类。比如说 Animal &#xff0c;我们知道 Animal 不能非常清楚的描述一个具体的动物&#xff0c;所以可以把 Animal 写成抽象类。还有就是我们知道父类中的方…

【运维进阶】WEB 服务器

WEB 服务器 WEB 服务器简介 Web 服务器&#xff08;Web Server&#xff09;是指一种接收客户端&#xff08;如浏览器&#xff09;发送的 HTTP 请求&#xff0c;并返回网页内容或资源的程序或设备。它是万维网&#xff08;WWW&#xff09;的核心组成部分。 Web 服务器的主要功能…

LLM(大语言模型)的“幻觉”本质原因

LLM(大语言模型)的“幻觉”本质原因 LLM(大语言模型)的“幻觉”(生成与事实不符但模型自信输出的内容)本质上是其作为概率统计模型的底层机制与训练、推理过程中多重限制共同作用的结果。从模型内部逻辑、训练机制到推理环节 一、底层机制:基于“统计关联”而非“真实…

java基础(六)jvm

1. JVM内存的五大核心区域 一个帮手想象JVM运行程序时&#xff0c;需要划分不同区域干不同的事。主要分为这五大块&#xff0c;外加一个特殊帮手&#xff1a;1.1 程序计数器 (Program Counter Register) - 你的“任务进度条”干啥的&#xff1a; 专门记录当前线程执行代码执行…