根据 Fall 2023 学期的官方课程日程,这里是 CS 285 全课程的 Lecture 大纲及内容摘要,详细对应周次和主题,方便你快速定位每节课要点、相关作业与视频资源 🎯

官方课程地址

YouTobe 视频地址

blibli视频(带中文字幕)

📅 CS 285 Fall 2023 全课程Lecture大纲

周次Lecture & 主题内容摘要
Week 1Lecture 1: Introduction & Course Overview课程介绍、RL基本背景、工业/研究趋势分析
Week 2Lecture 2: Supervised Learning of Behaviors (Imitation Learning)行为克隆、DAgger、离线与在线模仿学习任务一(HW1)
Lecture 3: PyTorch TutorialPyTorch基本用法,streamlined training pipeline
Week 3Lecture 4: Introduction to Reinforcement LearningMDP、策略、价值函数基础、Monte Carlo采样
Week 4Lecture 5: Policy GradientsREINFORCE算法、Likelihood-Ratio、本质推导、方差缩减
Lecture 6: Actor–Critic Algorithms基于 critic 的 actor-critic,G AE,实例代码讲解
Week 5Lecture 7: Value Function MethodsTD λ、bootstrapping、策略评估手段
Lecture 8: Deep RL with Q‑FunctionsDQN、experience replay、target network、训练稳定化
Week 6Lecture 9: Advanced Policy GradientsTRPO/PPO核心算法、KL约束、优势估计与实现细节
Lecture 10: Optimal Control & Planning基于控制理论的导航/规划方法(MPC)、线性系统控制
Week 7Lecture 11: Model-Based Reinforcement Learning模型学习与模拟、预测模型结构与样本效率
Lecture 12: Model-Based Policy Learning模型下的策略学习(包括DDP, iLQR等)
Week 8Lecture 13: Exploration I探索策略基本形式:ε-greedy, UCB, entropy bonus
Lecture 14: Exploration IICount-based、curiosity-driven、随机网络蒸馏
Week 9Lecture 15: Offline Reinforcement Learning IOffline RL 介绍,批训练挑战,BMIST等
Lecture 16: Offline Reinforcement Learning IIOOD泛化、约束优化、安全保障
Week 10Lecture 17: Reinforcement Learning Theory Basics收敛性分析、样本复杂度、策略优化几何
Lecture 18: Variational Inference & Generative ModelsVI基础,control-as-inference链接
Week 11Lecture 19: Connection between Inference and Control逆强化学习、最大熵控制、POMDP关系
Lecture 20: Inverse Reinforcement LearningIRL核心算法:MaxEnt IRL、GAIL等
Week 12Guest Lectures来自学术/工业专家专题分享(如 RLHF、DPO、Statistical RL)
Week 13Lecture 21: RL with Sequence Models & Language Models序列RL、seq2seq RL、LLM 调优初探
Lecture 22: Meta-Learning and Transfer LearningMeta-RL、跨任务泛化、Prompt调优、DPO & RLHFGuest
Week 14Lecture 23: Challenges & Open ProblemsRL前沿挑战:长期依赖、安全、公平性、效用函数等

作业对应

作业github

  • HW1 → Lecture 2 / 3
  • HW2 → Lecture 5 / 6
  • HW3 → Lecture 7–12
  • HW4 → Lecture 11–18
  • HW5 → Lecture 13–20

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/914491.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/914491.shtml
英文地址,请注明出处:http://en.pswp.cn/news/914491.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OkHttp SSE 完整总结(最终版)

1. SSE 基础概念 什么是 SSE? SSE(Server-Sent Events)是一种 Web 标准,允许服务器向客户端推送实时数据。 核心特点 单向通信:服务器 → 客户端 基于 HTTP 协议:使用 GET 请求 长连接:连…

聚宽sql数据库传递

自建数据库从聚宽到Q-MT自动化交易实战 从接触聚宽以来一直都是手动跟单,在网上看到许多大佬的自动交易文章,心里也不禁十分痒痒。百说不如一练,千讲不如实干。经过一番努力,终于成功实盘了,效果还可以,几…

es里为什么node和shard不是一对一的关系

提问: 既然多个shard会被分配到同一个node上,那么为什么不把多个shard合并成一个然后存在当前node上呢,简而言之也就是让node和shard形成一对一的关系呢 ?非常好的问题,这正是理解Elasticsearch分片(shard…

浅谈npm,cnpm,pnpm,npx,nvm,yarn之间的区别

首先做一个基本的分类 名称描述npm,cnpm,yarn,pnpm都是Javascript包管理器nvm是Node.js版本控制器npx命令行工具 I.npm,cnpm,yarn,pnpm npm (Node Package Manager) npm是Node.js默认的包管理器,随Node.js的安装会一起安装。使用npm可以安装,发布&…

滑动窗口-76.最小覆盖子串-力扣(LeetCode)

一、题目解析1.不符合要求则返回空串("")2.子串中重复字符的数量要不少于t中该字符的数量二、算法原理解法1:暴力枚举哈希表这里的暴力枚举也可以优化,即在包含t中元素处枚举,如在A、B和C处开始枚举,减少不必要的枚举 解…

从零构建搜索引擎 build demo search engine from scratch

从零构建搜索引擎 build demo search engine from scratch 我们每天都会使用搜索引擎:打开google等搜索引擎,输入关键词,检索出结果,这是一次搜索;当打开历史记录旁边的🔍按钮,输入关键词&#…

pytorch小记(二十九):深入解析 PyTorch 中的 `torch.clip`(及其别名 `torch.clamp`)

pytorch小记(二十九):深入解析 PyTorch 中的 torch.clip(及其别名 torch.clamp)深入解析 PyTorch 中的 torch.clip(及其别名 torch.clamp)一、函数签名二、简单示例三、广播支持四、与 Autograd…

快速分页wpf

/*没有在xaml设置上下文window.context是因为 命名空间一直对应不上 所以在xaml.cs 里面绑定*/ <Window x:Class"DataGrid.views.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft…

如何彻底禁用 Chrome 自动更新

如何彻底禁用 Chrome 自动更新 随着谷歌将 Chrome 浏览器版本升级至 138&#xff0c;它即将彻底抛弃对 Manifest V2 扩展的支持。许多用户希望将浏览器版本锁定在 138&#xff0c;以继续使用 uBlock Origin、Tampermonkey 等常用扩展。 本文总结了四种有效方法&#xff0c;帮助…

流批一体的“奥卡姆剃刀”:Apache Cloudberry 增量物化视图应用解析

引言&#xff1a;流批一体&#xff0c;理想与现实的鸿沟 在数据驱动的今天&#xff0c;“实时”二字仿佛拥有魔力&#xff0c;驱使着无数企业投身于流批一体架构的建设浪潮中。我们渴望实时洞察业务变化&#xff0c;实时响应用户需求。以 Apache Flink 为代表的流处理引擎&…

C# 入门教程(三):详解字段、属性、索引器及各类参数与扩展方法

文章目录一、字段、属性、索引器、常量1.字段2.属性2.1 什么是属性2.2 属性的声明2.3 属性与字段的关系3 索引器4. 常量二、传值 输出 引用 数组 具名 可选参数&#xff0c;扩展方法2.1 传值参数2.1.1 值类型 传参2.1.2 引用类型 传参2.2 引用参数2.2.1 引用参数-值类型 传参2.…

《美术教育研究》是什么级别的期刊?是正规期刊吗?能评职称吗?

​问题解答&#xff1a;问&#xff1a;《美术教育研究》是不是核心期刊&#xff1f;答&#xff1a;不是&#xff0c;是知网收录的第一批认定学术期刊。问&#xff1a;《美术教育研究》级别&#xff1f;答&#xff1a;省级。主管单位&#xff1a; 安徽出版集团有限责任公司 主办…

每日算法刷题Day47:7.13:leetcode 复习完滑动窗口一章,用时2h30min

思考: 遇到子数组/子字符串可以考虑能不能用滑动窗口&#xff0c; 定长:逆向思维,答案不定 最大长度/最小长度:一般求长度 越长越合法/越短越合法/恰好:一般求数量 主要思考窗口条件成立&#xff0c; 判断条件是符合窗口条件(最小长度/越长越合法还是不符合(最大长度/越短越合法…

电流驱动和电压驱动的区别

理解电流驱动和电压驱动的区别对电路设计至关重要&#xff0c;尤其在高速、高抗噪要求的场景&#xff08;如LVDS&#xff09;。以下是两者的核心对比&#xff1a;一、电压驱动 (Voltage Drive) 核心原理&#xff1a; 驱动器输出一个受控的电压&#xff08;与负载阻抗无关&#…

宿舍电费查询——以ZUA为例

宿舍电费查询——以ZUA为例0. 安装抓包环境手机端桌面端1. 登录1.1 开启抓包后进入缴费页面&#xff1a;1.2 分析请求1.3 编写登录代码2. 获取楼栋及房间ID2.1 获取楼栋ID2.2 编写获取楼栋ID代码2.3 获取房间ID2.4 编写获取房间ID代码3. 获取剩余电费&#xff1a;3.1 选择房间号…

vue中计算属性的介绍

Vue.js 中的计算属性是基于它的响应式系统来实现的&#xff0c;它可以根据 Vue 实例的数据状态来动态计算出新的属性值。在 Vue 组件中&#xff0c;计算属性常用于对数据进行处理和转换&#xff0c;以及动态生成一些需要的数据。一、使用方式1.定义计算属性&#xff1a; 在Vue组…

MFC UI控件CheckBox从专家到小白

文章目录CheckBox勾选框控件控件与变量绑定控件点击消息映射互斥CheckBox勾选框控件 控件与变量绑定 方案一&#xff1a; BOOL m_bEnable1; BOOL m_bEnable2; void A::DoDataExchange(CDataExchange* pDX) {DDX_Check(pDX, IDC_CK_1, m_bEnable1);DDX_Check(pDX, IDC_CK_2, …

阿尔卡特ACT 250 ATP 150 AND ATP 400 分子泵控制器TURBOMOLECULAR PUMP CONTROLLER ALCATEL

阿尔卡特ACT 250 ATP 150 AND ATP 400 分子泵控制器TURBOMOLECULAR PUMP CONTROLLER ALCATEL

python的小学课外综合管理系统

前端开发框架:vue.js 数据库 mysql 版本不限 后端语言框架支持&#xff1a; 1 java(SSM/springboot)-idea/eclipse 2.NodejsVue.js -vscode 3.python(flask/django)–pycharm/vscode 4.php(thinkphp/laravel)-hbuilderx 数据库工具&#xff1a;Navicat/SQLyog等都可以 摘要 随着…

实用技巧 Excel 与 XML互转

一 概述 在android多语言适配中&#xff0c;可能提供的是excel格式的多语言翻译&#xff0c;而且翻译数量非常庞大。那手动一个一个往xml里面添加效率非常低&#xff0c;这时候就需要把excel快速转为android可以直接用的资源文件string.xml二 转换流程2.1 第一步任意文件夹或者…