一、AI、ML、DL、NLP的极简概念

1、人工智能(AI)有不同的定义,但其中一个定义或多或少已成为共识,即AI是一个计算机系统,它能够执行通常需要人类智能才能完成的任务。根据这个定义,许多算法可以归纳为AI算法,比如导航应用程序所用的交通预测算法或策略类视频游戏所用的机遇规则的系统。从表面看,这些示例中,计算机似乎需要智能才能完成相关任务。

图片

  从AI到Transformer的嵌套技术组合

2、机器学习(machine learning,ML)是AI的一个子集,在ML中,我们不试图直接实现AI系统使用的决策规则。相反,我们试图开发算法,使系统能够通过示例数据自己学习。

3、深度学习(deep learning,DL)算法已经引起了广泛关注。DL是ML的一个分支,专注于受大脑结构启发的算法,这些事算法倍称为人工神经网络(artifical neural network)。它们可以处理大量的数据,并别在图像识别、语音识别及NLP等任务上表现出色。

4、自然语言处理(Natural language process,NLP)是ML和AI的一个子领域。专注于使计算机能够处理、解释和生产人类语言,现代NLP解决方案基于ML算法。NLP的目标是让计算机能够处理自然语言文本。这个目标设计诸多任务,例如文本分类、自动翻译、问题回答。

5、GPT-4和ChatGPT基于一种特定的神经网络架构(即Transformer),基于大量数据训练而成的NLP领域中的大语言模型(LLM),它们能够以非常高的准确性识别和生成人类可读的文本。

二、Transformer如何呼之欲出的

Transformer是一种基于自注意力机制的深度学习模型,由Google2017年提出。彻底改变了NLP领域的序列建模方式,它通过并行计算和全局依赖建模,解决了传统循环神经网络(RNN)的长距离依赖难题,成为现代大模型(如BERT、GPT)的基石。经历了下面三个主要阶段。

1、LLM的发展可以追溯到几年前,它始于简单的语言模型,如n-gram模型,n-gram模型通过使用词频来根据前面的词预测句子中的下一个词,因此又称为概率模型,其预测结果是在训练文中中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点,但是n-gram模型在理解上下文和语法方面仍需改进,因为它有时会生成不连贯的文本。

2、为了提高n-gram模型的性能,人们引入了更先进的学习算法,包括循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term memory,LSTM)网络。与n-gram模型相比,这些模型能够学习更长的序列,并且能够更好地分析上下文,但他们在处理大量数据时的效率仍然欠佳。尽管如此,在很长的一段时间里,这些模型算法是最高效的。因此在自动翻译等任务中被广泛使用。

3、Transformer架构彻底改变了NLP领域,这主要是因为它能够有效地解决之前的NLP模型(如RNN)存在的一个关键问题:很难处理长文本序列并记住其上下文。换句话说,RNN在处理长文本序列时容易忘记上下文(也就是臭名昭著的“灾难性遗忘问题”),Transformer则具备高效处理和编码上下文的能力。改变的核心是注意力机制。

--素材来自《大模型应用开发极简入门》和网络材料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91608.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91608.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/91608.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小迪23-28~31-js简单回顾

前端-js开发 课堂完结后欲复习巩固也方便后续-重游-故写此篇 从实现功能过渡到涉及的相关知识点 知识点 1、 JS 是前端语言,是可以被浏览器“看到”的,当然也可以被修改啊,被浏览器禁用网页的 JS 功能啊之类的。所以一般都是前后端分离开发&…

vue项目预览pdf隐藏工具栏和侧边栏

1.在预览PDF时,PDF查看器通常会显示工具栏、侧边栏等控件。如果想隐藏这些控件,可以通过在PDF文件的URL中添加参数来实现。可以使用#toolbar0和#navpanes0等参数来隐藏工具栏和侧边栏。解释: #toolbar0:隐藏工具栏。#navpanes0&am…

ERP、CRM、OA整合工具哪家好?2025年最新推荐

当前,大多数中大型企业已部署了ERP(企业资源计划)、CRM(客户关系管理)、OA(办公自动化)等核心业务系统。这些系统在各自职能领域内发挥着关键作用:ERP管理财务、供应链与生产&#x…

设计模式:命令模式 Command

目录前言问题解决方案结构代码前言 命令是一种行为设计模式,它可将请求转换为一个包含与请求相关的所有信息的独立对象。该转换让你能根据不同的请求将方法参数化、延迟请求执行或将其放入队列中,且能实现可撤销操作。 问题 假如你正在开发一款新的文字…

4-verilog简单状态机

verilog简单状态机 1. always (posedge clk or negedge rst_n) beginif (!rst_n)cnt_1ms < 20b0;else if (cnt_1ms_en)cnt_1ms < cnt_1ms 1b1;elsecnt_1ms < 20d0; endalways (posedge clk or negedge rst_n) beginif(!rst_n)cur_state < s1_power_init;else i…

ICCV2025 | 对抗样本智能安全方向论文汇总 | 持续更新中~

汇总结果来源&#xff1a;ICCV 2025 Accepted Papers 若文中出现的 论文链接 和 GitHub链接 点不开&#xff0c;则说明还未公布&#xff0c;在公布后笔者会及时添加. 若笔者未及时添加&#xff0c;欢迎读者告知. 文章根据题目关键词搜索&#xff0c;可能会有遗漏. 若笔者出现…

SPI通信中CS片选的两种实现方案:硬件片选与软件片选

一. 简介本文简单熟悉一下SPI通信中的片选信号&#xff08;CS&#xff09;的两种实现方案&#xff1a;硬件片选和软件片选&#xff0c;以及两种方案的区别&#xff0c;如何选择。在SPI&#xff08;Serial Peripheral Interface&#xff09;通信中&#xff0c;片选信号&#xff…

IBM 报告称除美国外,全球数据泄露成本下降

IBM 发布的一份针对 113,620 起数据泄露事件的年度全球分析报告发现&#xff0c;平均数据泄露成本同比下降了 9%&#xff0c;这主要归功于更快的发现和遏制速度。 该报告与波耐蒙研究所 (Ponemon Institute) 合作完成&#xff0c;发现全球平均数据泄露成本从 2024 年的 488 万美…

Docker Compose 部署 Dify + Ollama 全栈指南:从裸奔到安全可观测的 AI 应用实战

&#x1f4cc; 摘要 本文以中国开发者视角出发&#xff0c;手把手教你用 Docker Compose 在本地或轻量云主机上部署 Dify Ollama 组合栈&#xff0c;实现“安全、可观测、可扩展”的私有化 AI 应用平台。全文约 8 000 字&#xff0c;包含&#xff1a; 架构图、流程图、甘特图…

「源力觉醒 创作者计划」_全方面实测文心ERNIE-4.5-VL-28B-A3B开源大模型

「源力觉醒 创作者计划」_全方面实测文心ERNIE-4.5-VL-28B-A3B开源大模型1. 文心大模型4.5-28B概述2. 部署ERNIE-4.5-VL-28B-A3B文心大模型2.1. 创建GPU云主机2.2. ERNIE-4.5-VL-28B-A3B部署2.3. 创建大模型API交互接口3. 文心大模型4.5-28B多方面性能评测3.1. 语言理解方面3.2…

数据库学习------数据库事务的特性

在数据库操作中&#xff0c;事务是保证数据一致性和完整性的核心机制。无论是简单的单表更新&#xff0c;还是复杂的多表关联操作&#xff0c;事务都扮演着至关重要的角色。那么什么是数据库事务&#xff1f;数据库事务是一个不可分割的操作序列&#xff0c;它包含一个或多个数…

18-C语言:第19天笔记

C语言&#xff1a;第19天笔记 内容提要 构造类型 结构体共用体/联合体构造类型 数据类型 基本类型/基础类型/简单类型 整型 短整型&#xff1a;short – 2字节基本整型&#xff1a;int – 4字节长整型&#xff1a;long – 32位系统4字节/ 64位系统8字节长长整型&…

centos下安装anaconda

下载 anaconda 安装包 wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh 2. 授权 chmod x Anaconda3-2022.05-Linux-x86_64.sh 3. 安装 ./Anaconda3-2022.05-Linux-x86_64.sh 此时显示Anaconda的信息&#xff0c;并且会出现More&#xff0c;继续…

MySQL(172)如何进行MySQL的全局变量设置?

MySQL的全局变量是影响整个服务器设置和行为的参数。可以在服务器启动时通过配置文件设置这些变量&#xff0c;也可以在服务器运行时通过SQL命令动态调整。以下是关于如何设置和管理MySQL全局变量的详细说明和示例代码。 一、通过配置文件设置全局变量 在MySQL服务器启动时&…

【最后203篇系列】030 强化学习探索

前言 我发现在csdn写完一篇文章越来越难了&#xff0c;有n篇写了一半没往下写。原来我觉得补完203篇&#xff0c;凑到一千篇是个很简单的事&#xff0c;没想到还挺难的。 我回想了一下&#xff0c;过去一年大模型领域继续发生这很剧烈的变化&#xff0c;这是一种新的模式 &…

fastGEO v1.7.0 大更新,支持PCA、差异分析、火山图、热图、差异箱线图、去批次等分析

前言 之前一篇文章【fastGEO V1.6.1 这个版本强的可怕&#xff0c;GEO数据自动下载、探针注释、Shiny App】介绍了fastGEO用于GEO数据下载和探针注释的核心功能。 虽然是付费50获取安装包&#xff08;刚开始是20&#xff09;&#xff0c;但也深受欢迎&#xff0c;说明这个R包…

LLM 典型模型技术特性及项目落地全流程实践

在大语言模型(LLM)技术快速迭代的当下,开发者面临的核心挑战已从 “是否使用” 转变为 “如何正确选型并高效落地”。本文将系统剖析当前主流 LLM 的技术特性,结合实际项目架构,提供从模型选型、接口集成到性能优化的全流程技术方案,并附关键代码实现,为工业级 LLM 应用…

机器学习消融实验:方法论演进、跨领域应用与前沿趋势

一、定义与起源 消融实验&#xff08;Ablation Study&#xff09;是一种系统性移除或修改模型关键组件以评估其对整体性能贡献的实验方法论。其术语源于神经科学和实验心理学&#xff08;20世纪60-70年代&#xff09;&#xff0c;指通过切除动物脑区研究行为变化的实验范式。2…

北京-4年功能测试2年空窗-报培训班学测开-今天来聊聊我的痛苦

最近状态很不对劲&#xff0c;因为我很少花时间好好思考&#xff0c;只是处于执行状态&#xff0c;甚至也不太写笔记了&#xff0c;我原以为这样会更高效&#xff0c;现在想想&#xff0c;开始不愿花时间深思才是断弦的开始吧而且从结课后我有了隐瞒&#xff0c;我不想过多透露…

深度解析 | AI 幻觉的形成和应对路径

写这一篇的缘由一是因为我也在摸索如何降低 AI 幻觉提升 AI 工具使用效率&#xff0c;二是因为前两周在MIT学习时老师讲的一节课&#xff0c;刚好也解释了这个问题&#xff0c;所以一并做个总结&#xff0c;分享给大家。 近几年&#xff0c;大型语言模型&#xff08;LLM&#…