本篇笔记内容

1、学习本节课需要的前置知识

  • 了解大模型的训练过程:预训练、后训练、强化学习(2024年生成式AI导论前8讲)
  • 了解基础机器学习、深度学习概念(如transformer)(2021年机器学习课程)

2、本节课的大纲

  • 大模型有怎样的行为:
    • 思考reasoning
    • 使用工具(deepreasearch、使用浏览器、询问人类反馈)
  • 运作机制:
    • 人类给定输入,大模型给输出(输入输出可以是文字、语言、图片)
    • 生成式AI的基本原理——文字接龙
      • 根据给定的一串token,决定下一个token
      • 输入给定的token,确定输出的一串token,哪个token的概率最大。因为有概率的参与,所以一模一样的输入也会有不一样的输出。
      • 为什么需要深度学习?不精准的比喻是,深度学习可以把输入拆解成为多个步骤,因此相较于一次性计算所有数据,深度学习多层计算拆开后减少运算量,比较简单。
  • 模型是怎样产生出来的
    • 神经网络包含“架构”和“参数”两部分,其中架构包含如“神经网络有多少层”等,是人为定义好的,一般说工程师调参就是调整架构。(能调整的架构参数,就叫做超参数。参数,则模型是需要通过训练资料学习的)
    • 找出参数过程,就是模型训练,需要大量语料

零、前置准备&课程大纲

一、有什么行为

1)大模型会推理

2)大模型会使用工具

  • deep research
  • 使用浏览器(操作电脑 open ai operator)
  • 询问人类反馈

二、运作机制

1)给定输入,有输出

输入输出都可以是很复杂的东西,比如文字、图片、声音

2)生成式AI的基本原理——文字接龙

给定一串token,决定下一个token

输入给定的token,输出一串概率分布,确定输出的一串token,哪个token的概率最大。因为有概率的参与,所以一模一样的输入也会有不一样的输出。

为什么需要深度学习,不精准的比喻是,深度学习可以把输入拆解成为多个步骤,因此相较于一次性计算,深度学习比较简单。

如果深度学习的层数不够,也可以用前一个深度学习的输出作为下一个深度学习的输入

三、模型是怎样产生出来的

神经网络包含“架构”和“参数”两部分

其中架构包含如“神经网络有多少层”等,是人为定义好的。

一般说工程师调参就是调整架构。

能调整的架构参数,就叫做超参数。参数,则是模型需要通过训练资料学习的。

找出参数过程,就是模型训练

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/92097.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/92097.shtml
英文地址,请注明出处:http://en.pswp.cn/web/92097.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS scrollbar-width:轻松定制滚动条宽度的隐藏属性

在前端设计中,滚动条往往是一个容易被忽略的细节。默认的滚动条样式常常与页面设计格格不入,尤其是宽度 —— 过宽的滚动条会挤占内容空间,过窄又可能影响用户操作。而 CSS 的scrollbar-width属性,就像一把 “精细的尺子”&#x…

小迪23年-28~31-js简单回顾

前端-js开发 课堂完结后欲复习巩固也方便后续-重游-故写此篇 从实现功能过渡到涉及的相关知识点 知识点 1、 JS 是前端语言,是可以被浏览器“看到”的,当然也可以被修改啊,被浏览器禁用网页的 JS 功能啊之类的。所以一般都是前后端分离开发&…

JavaScript 概述

JavaScript 是一种高级、解释型编程语言,主要用于网页开发,使其具备动态交互功能。它是网页三大核心技术之一(HTML、CSS、JavaScript),能够直接嵌入 HTML 页面并在浏览器中执行。核心特性动态弱类型语言 JavaScript 是…

Mermaid流程图可视化系统:基于Spring Boot与Node.js的三层架构实现

什么是Mermaid?系统架构设计 三层架构 overview架构交互流程 核心组件详解 1. Spring Boot后端2. Node.js中间层3. 前端界面 功能实现 1. 节点和关系管理2. 流程图渲染3. 主题切换4. 导出功能 使用指南 启动步骤页面操作 总结与展望 什么是Mermaid? Mermaid流程图可视化系统…

R 数据框:高效数据处理与分析的利器

R 数据框:高效数据处理与分析的利器 引言 在数据科学和统计分析领域,R语言因其强大的数据处理能力和丰富的统计模型而备受推崇。R数据框(data frame)是R语言中一种重要的数据结构,它以表格形式存储数据,使得数据的组织、操作和分析变得简单高效。本文将深入探讨R数据框…

论文阅读笔记:《Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation》

论文阅读笔记:《Curriculum Coarse-to-Fine Selection for High-IPC Dataset Distillation》1.背景与动机2.核心贡献3.方法详解4.实验结果与贡献主体代码算法整体逻辑CVPR25 github 一句话总结: CCFS基于组合范式(轨迹匹配选择真实图像&…

【Linux系统】详解,进程控制

前言: 上文我们讲到了Linux中的虚拟空间地址,知道了一个进程对应一个虚拟地址空间,虚拟空间地址与物理地址之间通过页表映射....【Linux】虚拟地址空间-CSDN博客 本文我们来讲一讲Linux系统是如何控制进程的! 如果喜欢本期文章&am…

Matplotlib(五)- 绘制子图

文章目录一、子图概述1. 子图介绍2. 子图布局2.1 网格布局2.2 自由布局二、绘制等分区域子图1. 使用 plt.subplot() 绘制子图示例:绘制多个子图示例:工业月度同比情况2. 使用 plt.subplots() 绘制子图示例:绘制多个子图示例:部分国…

C++中互斥锁、共享锁深度解析

一,互斥锁互斥锁(Mutex,全称 Mutual Exclusion)是并发编程中用于保护共享资源的核心同步机制。它通过确保同一时间仅有一个线程访问临界区(Critical Section),解决多线程环境下的数据竞争和不一…

Qt中的QWebSocket 和 QWebSocketServer详解:从协议说明到实际应用解析

前言 本篇围绕 QWebSocket 和 QWebSocketServer,从协议基础、通信模式、数据传输特点等方面展开,结合具体接口应用与实战案例进行说明。 在实时网络通信领域,WebSocket 技术以其独特的全双工通信能力,成为连接客户端与服务器的重要…

机器学习 —— 决策树

机器学习 —— 决策树(Decision Tree)详细介绍决策树是一种直观且易于解释的监督学习算法,广泛应用于分类和回归任务。它通过模拟人类决策过程,将复杂问题拆解为一系列简单的判断规则,最终形成类似 “树” 状的结构。以…

车规MCU软错误防护技术的多维度分析与优化路径

摘要:随着汽车电子技术的飞速发展,微控制单元(MCU)在汽车电子系统中的应用日益广泛。然而,大气中子诱发的单粒子效应(SEE)对MCU的可靠性构成了严重威胁。本文深入探讨了软错误防护技术在车规MCU…

原生微信小程序实现语音转文字搜索---同声传译

效果展示 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/23257ce3b6c149a1bb54fd8bc2a05c68.png#pic_center 注意&#xff1a;引入同声传译组件请看这篇文章 1.search.wxml <view class"search-page"><navigation-bar title"搜索" …

Wireshark安装过程缺失vc_runtimeMinimum_x64.msi文件,安装 Visual C++ Redistributable

一、我大意了 一开始是Npcap装不上。 在这个网站下的&#xff1a; Wireshark (kafan58.com) 安装程序&#xff1a; 安装过程&#xff1a; 无语死了&#xff0c;感觉被骗了......外网下的才是最正版的。 二、外网正版 下载最新的4.4.8版本Wireshark重新安装 2.1 vc_runtime…

高通平台Wi-Fi Display学习-- 调试 Wi-Fi Display 问题

4.1 调试 WFD 性能 4.1.1 通过启用调节器模式验证 WFD 当系统设为调节器模式时,设备的运行时钟将达到峰值。要在系统中启用调节器模式,应 在序列中输入以下命令: 1. adb shell stop mpdecision 2. adb shell echo 1→/sys/devices/system/cpu/cpu1/online 3. adb shell…

5G专网与SD-WAN技术融合:某饮料智能工厂网络架构深度解析

随着工业互联网的快速发展&#xff0c;制造业正从传统的生产模式向智能化、数字化方向转型。某饮料智能工厂项目创新性地引入了5G专网与SD-WAN技术&#xff0c;形成了“连接-计算-应用-安全”的全链条网络架构。本文将深入剖析这两种技术在智能工厂中的应用场景、部署架构&…

Java项目:基于SSM框架实现的公益网站管理系统【ssm+B/S架构+源码+数据库+毕业论文+答辩PPT+远程部署】

摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本公益网站就是在这样的大环境下诞生&#xff0c;其可以帮助管理者在短时间内处理完毕庞大的数据信息&#x…

向华为学习——IPD流程体系之IPD术语

第一章 IPD体系 1.1集成产品开发IPD Integrated Product Development,IPD是一种领先的、成熟的产品开发的管理思想和管理模式。它是根据大量成功的产品开发管理实践总结出来的,并被大量实践证明的高效的产品开发模式。通过IPD,可建立起基于市场和客户需求驱动的集成产品开…

落霞归雁:从自然之道到“存内计算”——用算法思维在芯片里开一条“数据高速航道”

作者 落霞归雁&#xff08;CSDN首发&#xff0c;转载请注明&#xff09; 段落一 现象&#xff1a;当“摩尔”老去&#xff0c;数据却在狂奔 过去 30 年&#xff0c;CPU 频率翻了 60 倍&#xff0c;而 DRAM 带宽只翻了 20 倍。算力与带宽的剪刀差&#xff0c;让“计算”变成“等…

StyleX:Meta推出的高性能零运行时CSS-in-JS解决方案

简介 StyleX 是由 Meta 开发的零运行时 CSS-in-JS 解决方案&#xff0c;在构建时将样式编译为静态 CSS&#xff0c;消除运行时开销。 核心特性 零运行时开销 – 构建时编译为静态 CSS类型安全 – 完整的 TypeScript 支持原子化 CSS – 自动生成原子化类名&#xff0c;最小化…