要理解指令微调(Instruction Tuning),需要先将其置于大语言模型(LLM)的训练框架中 —— 它并非模型训练的起点,而是针对 “让模型更懂人类需求” 的关键优化步骤。简单来说,指令微调是通过让模型学习 “指令 - 响应” 配对数据,将原本擅长 “预测下一个词” 的基础模型,升级为能精准理解人类指令、输出符合预期结果的 “实用型模型” 的过程。

2025算法八股——大模型开发——指令微调-CSDN博客

2025算法八股——大模型开发——Agent相关-CSDN博客

  1. 非凸、非连续:0/1 损失在y⋅f(x)=0处突变(从 0 跳到 1),函数图像是 “阶跃状”,没有连续的梯度。这导致无法用梯度下降等主流优化算法求解(需要损失函数连续可导或至少存在次梯度)。

  2. 只关注 “是否正确”,不关注 “正确的程度”:例如,一个样本被模型预测为y⋅f(x)=100(非常确信的正确),与y⋅f(x)=0.1(勉强正确),在 0/1 损失下都算 “损失为 0”,但前者显然是更优的预测结果。0/1 损失无法区分这种 “置信度差异”,不利于模型学习 “更稳健的分类边界”。

2025算法八股——机器学习——SVM损失函数-CSDN博客

2025算法八股——深度学习——优化器小结-CSDN博客

Python 允许 bar(2)(3) 这种调用方式,这是因为 bar() 函数返回的是另一个函数(foo),所以可以直接在返回值后继续添加括号调用该函数。

这种模式称为 “函数闭包”(closure),即内部函数 foo 可以访问外部函数 bar 中定义的变量(multiple),即使在 bar 函数执行完毕后,这个变量依然会被保留。这使得我们可以创建具有 “记忆” 能力的函数,在实际开发中常用于实现装饰器、工厂函数等场景。

搞清楚c就都搞清楚了

官方解析:

考察:赋值、深拷贝、浅拷贝

1.对象的赋值 

都是进行对象引用(内存地址)传递,即‘’ b is a‘’ ,a 变 b 也变

2.浅拷贝

会创建一个新的对象,即 “c is not a” ,但是,对于对象中的元素,浅拷贝就只会使用原始元素的引用(内存地址),也就是说

”c[i] is a[i]”

当我们使用下面的操作的时候,会产生浅拷贝的效果:

  • 使用切片
    [:]操作
  • 使用工厂函数(如list/dir/set)
  • 使用copy模块中的copy()函数

3.深拷贝 

会创建一个新的对象,即”d is not a” ,并且对于对象中的元素,深拷贝都会重新生成一份(有特殊情况),而不是简单的使用原始元素的引用(内存地址)

拷贝的特殊情况

其实,对于拷贝有一些特殊情况:

  • 对于非容器类型(如数字、字符串、和其他’原子’类型的对象)没有拷贝这一说
  • 如果元祖变量只包含原子类型对象,则不能深拷贝

知识点:Python

在 Python 中,append 和 extend 都是列表(list)的常用方法,但它们的功能不同,并非严格意义上的 “相对” 关系,而是用于不同场景的列表扩展操作:

  • append(item):将 item 作为单个元素添加到列表末尾。
    例如:[1,2].append([3,4]) 结果为 [1,2,[3,4]](把列表 [3,4] 当作一个整体元素添加)。

  • extend(iterable):将 iterable(可迭代对象,如列表、元组等)中的每个元素逐个添加到列表末尾。
    例如:[1,2].extend([3,4]) 结果为 [1,2,3,4](把 [3,4] 中的元素拆分后添加)。

两者的核心区别在于:
append 是 “整体添加”,extend 是 “拆分添加”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/95951.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/95951.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/95951.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oracle 11g离线安装依赖包完整解决方案

本文还有配套的精品资源,点击获取 简介:Oracle 11g是一款广泛使用的关系型数据库管理系统,在离线环境下安装时需依赖多个系统库和工具。本“oracle11g依赖包”压缩文件包含了在CentOS 7.7上安装Oracle 11g可能缺失的关键依赖RPM包&#xf…

VBA数据结构选型:效率差5倍的生死抉择

VBA性能生死局:Dictionary与Collection效率差5倍!90%开发者用反血亏“你以为Collection是VBA的‘轻量级选手’?大错特错!实测数据显示:在10万级数据循环中,Dictionary的查询速度比Collection快5倍&#xff…

电机控制(四)-级联PID控制器与参数整定(MATLABSimulink)

PID算法 普通PID(Proportional-Integral-Derivative) 通过比例(P)、积分(I)和微分(D)三项来进行控制 比例项(P):根据当前误差(目标值…

数据结构深度解析:二叉树的基本原理

在数据结构体系中,树是一种重要的非线性层次结构,它通过 “节点” 与 “边” 的连接关系,模拟了现实世界中树的分支结构,能够高效地解决数据的查找、插入、删除等问题。而二叉树作为树结构中最简单、应用最广泛的类型,…

【React】Ant Design 5.x 实现tabs圆角及反圆角效果

需要实现的效果实现思路 利用tab页的before和after属性&#xff0c;添加tab页前后的圆弧属性&#xff0c;同时使用tab页的shadow阴影填充右下角的圆弧空缺部分。<TabsonChange{onChange}type"card"items{getTabItems()}/>.ant-tabs-nav{margin: 0;.ant-tabs-na…

WordPress过滤文章插入链接rel属性noopener noreferrer值

WordPress过滤文章插入链接rel属性noopener noreferrer值在保存文章的时候&#xff0c;WordPress会自动过滤文章内容中的链接&#xff0c;具有target属性的链接会自动添加rel"noopener noreferrer"&#xff0c;该属性是为了预防跨站攻击&#xff0c;站内链接似乎没有…

make_shared的使用

目录 1. make_shared 的基本概念 基本用法 2. 引入 make_shared 的主要原因 2.1 解决传统构造方式的问题 2.2 标准委员会的动机 3. make_shared 的核心优势 3.1 性能优势&#xff08;最重要优点&#xff09; 内存分配优化&#xff1a; 性能提升表现&#xff1a; 3.2 异…

基于 Gemini 的 CI/CD 自动化测评 API 集成实战教程

在现代软件开发中&#xff0c;CI/CD 集成 已经成为必不可少的流程。它不仅能帮助团队快速迭代&#xff0c;还能通过自动化手段提升代码质量。而在编程培训和团队内部学习中&#xff0c;如何引入 自动化测评 API&#xff0c;实现提交即测评、即时反馈呢&#xff1f;本文将以 Gem…

SOME/IP-SD(Service Discovery)协议的核心协议

<摘要> 本解析以AutoSAR AP R22-11版本为基准&#xff0c;全面系统地阐述了SOME/IP-SD&#xff08;Service Discovery&#xff09;协议的核心内容。从车载网络演进背景切入&#xff0c;详细剖析了面向服务架构&#xff08;SOA&#xff09;下服务发现的必要性&#xff0c;…

视频串行解串器(SerDes)介绍

视频串行解串器&#xff08;SerDes&#xff09;是高速数据通信中的核心接口技术&#xff0c;通过串行化与解串行化实现视频信号的高效传输&#xff0c;广泛应用于汽车电子、数据中心、高清视频传输等领域。 一、技术原理串行化&#xff08;Serializer&#xff09; 功能&#xf…

哈士奇vs网易高级数仓:数据仓库的灵魂是模型、数据质量还是计算速度?| 易错题

面试场景 面试官: (微笑,营造轻松但专业的氛围)嗨,哈士奇,欢迎来参加网易的二面。我看你简历上数据仓库的项目经验很丰富,我们今天就深入聊聊。我这里有一个经典的问题想听听你的看法:在你看来,数据仓库的灵魂是模型、数据质量还是计算速度? 哈士奇: (不假思索,…

贪心算法应用:3D打印支撑结构问题详解

Java中的贪心算法应用&#xff1a;3D打印支撑结构问题详解 1. 问题背景与概述 1.1 3D打印中的支撑结构问题 在3D打印过程中&#xff0c;当模型存在悬空部分&#xff08;overhang&#xff09;时&#xff0c;通常需要添加支撑结构&#xff08;support structure&#xff09;来防止…

Python爬虫实战:研究3D plotting模块,构建房地产二手房数据采集和分析系统

1. 引言 1.1 研究背景 在大数据与人工智能技术快速发展的背景下,数据已成为驱动决策的核心要素。互联网作为全球最大的信息载体,蕴含海量结构化与非结构化数据,如何高效提取并分析这些数据成为学术界与产业界的研究热点。 网络爬虫技术通过自动化请求与解析网页,实现数据…

Gradio全解10——Streaming:流式传输的音频应用(7)——ElevenLabs:高级智能语音技术

Gradio全解10——Streaming&#xff1a;流式传输的音频应用&#xff08;7&#xff09;——ElevenLabs&#xff1a;高级智能语音技术10.7 ElevenLabs&#xff1a;高级智能语音技术10.7.1 核心功能与可用模型1. 核心功能与产品2. 三类语音模型10.7.2 文本转语音API1. 完整操作步骤…

【桃子同学笔记4】PCIE训练状态机(LTSSM)基础

首先&#xff0c;所谓LTSSM&#xff0c;即&#xff1a;Link Training and Status State Machine&#xff08;链路训练及状态机&#xff09; 下图为 LTSSM 的状态机及训练过程&#xff1a; LTSSM 包含 11 个顶层状态&#xff1a;Detect、Polling、Configuration、Recovery、L0、…

STM32传感器模块编程实践(十五)DIY语音对话控制+满溢检测智能垃圾桶模型

文章目录 一.概要二.实验模型原理1.硬件连接原理框图2.控制原理 三.实验模型控制流程四.语音控制垃圾桶模型程序五.实验效果视频六.小结 一.概要 以前介绍的智能垃圾桶模型都是通过超声波模块感知控制&#xff0c;这次介绍一款新的智能垃圾桶&#xff0c;直接使用语音交互模块…

[bat-cli] docs | 控制器

链接&#xff1a;https://github.com/sharkdp/bat 前文传送&#xff1a; 【探索Linux命令行】从基础指令到高级管道操作的介绍与实践【Linux命令行】从时间管理-&#xff1e;文件查找压缩的指令详解【Linux】1w详解如何实现一个简单的shell docs&#xff1a;bat bat 是一个*…

无线自动信道调整

通过信道调整功能&#xff0c;可以保证每个AP 能够分配到最优的信道&#xff0c;尽可能地 减少和避免相邻信道干扰&#xff0c;而且通过实时信道检测&#xff0c;使AP 实时避开雷达&#xff0c;微波炉等干扰源。 动态信道调整能够实现通信的持续进行&#xff0c;为网络的可靠传…

ios面试八股文

​​Swift 语言特性​​&#xff1a;请解释一下 struct和 class的主要区别。特性​​​​struct (值类型)​​​​class (引用类型)​​​​类型本质​​值类型 (复制时创建独立副本)引用类型 (复制时共享同一实例)​​内存分配​​通常在栈上 (更快速)在堆上 (需要ARC管理)​​…

IntelliJ IDEA 2023更新git凭据

背景&#xff1a;已知原来从远程仓库获取的项目&#xff0c;需要更新git用户和密码&#xff0c;但是又不想删除本地项目环境&#xff08;不想重新获取新建项目&#xff09;。报错&#xff1a;remote: HTTP Basic: Access denied. The provided password or token is incorrect …