过去几个月,TEN Framework 团队与 Agora 和声网围绕 “对话式AI”题,踏上了横跨全球五大城市的精彩旅程——东京、旧金山、巴黎、北京、京都。 五场精心筹备的Workshop 场场爆满, 汇聚了来自当地及全球的开发者、创业者、产品经理与语音技术爱好者。得益于 RTE 开发者社区与全球多地 AI 社区的鼎力支持,我们得以深入探讨 Voice Agent 的前沿趋势、真实应用场景与落地开发实践。

每一站,都上演着不同的故事,碰撞出独特的火花。 现在,就让我们一起回顾这趟旅程的精彩瞬间!

东京站|Avatar实时交互,引爆现场兴奋点

四月,东京,旅程启航。 首场Workshop聚焦于Avatar驱动的实时交互体验。

🤩 核心印象: Avatar + 实时交互 = 未来感十足!

🎤 重量级分享: Microsoft 深入解析 GPT-4o Realtime API 的语音对话落地;TEN Framework 揭秘开源语音代理框架的最佳实践;声网和 Agora 展示对话式方案的卓越效果与客户案例;Dify 社区大使 Alec Lee 则带来结合 TEN 和 Dify 构建语音交互数字人的创新方案。现场讨论热烈,焦点集中在部署细节、延迟优化及Demo的惊艳效果。

💻 实战演练: 参与者亲自动手,在本地部署 TEN Agent,并通过 Playground 接入 Azure OpenAI 语音服务,亲手搭建出可实时对话的 Voice Agent。 从原理到实操,体验全链路打通。现场还有 Felo(AI翻译)、MeltingHack & TUM.ai(AI社群)、UniConvo(Chatbot)、EMQ(MQTT通信)等伙伴交流互动,气氛火热。在这里插入图片描述
在这里插入图片描述

旧金山站|VAD & 轮次检测首秀,开发者聚焦语音体验“魔鬼细节”

五月,微软大厦,旧金山站。 这里聚集了来自 Oracle、Google、字节跳动等大厂,以及AI教育、企业效率、医疗等领域的创业者和高校学生,背景极其多元。

🤩核心印象: 技术控的盛宴,VAD & 轮次检测解决关键痛点!

🎤技术深度解析: Microsoft、TEN 与声网和 Agora 持续输出干货。TEN 团队首次开源 VAD(语音活动检测)与 Turn Detection(轮次检测)模块成为焦点! 该组件能精准判断语音起止和对话轮次,显著提升实时对话的流畅度与自然度。 现场提问不断,低延时、模型选择、成本与应用落地是开发者最关心的话题。

💻实战反馈: 动手环节体验 TEN Agent + Azure 实时语音交互。甚至有去年就使用过 TEN 的老用户惊喜反馈:部署和编排体验进步巨大!

在这里插入图片描述
在这里插入图片描述

巴黎站|深聊语音 AI 爆发点,探讨 Voice Agent 落地路径

五月,巴黎,Vivatech大会同期活动。 我们采用 “Keynote + 圆桌” 的形式,吸引了众多活跃于欧洲语音技术领域的创业公司和开发者,包括欧洲知名 Voice AI 社区 Voice AI Space。

🤩 核心印象: C端应用探索活跃,欧洲视角碰撞新火花!

🎤 趋势与落地碰撞: TEN、声网、Agora、Microsoft 带来主题演讲。圆桌讨论“Voice Agent in Action” 更是干货满满,嘉宾们与特邀的欧洲本地伙伴——ASR 服务商 Gladia 和数字人服务商 Trulience——深入探讨语音 Agent 的真实场景落地。 话题覆盖热门应用场景、社区反馈、核心挑战与未来突破。

🍷 巴黎Mingle 时刻: 晚间的 Demo 展示与自由交流环节,在葡萄酒与轻食的伴随下,技术讨论也染上了浓浓的巴黎风情。

在这里插入图片描述
在这里插入图片描述

北京站|从 TTS 到产品,语音 Agent 的全链路探讨

六月,北京,极客公园 AGI Playground。 我们特别设置了两场Workshop:上半场看趋势,下半场动手干。

🤩 核心印象: 技术走向纵深,落地需求旺盛,开发者上手更快!

🎤 前沿洞察: RTE 开发者社区重磅启动《对话式AI白皮书》共建计划;TEN 分享框架设计理念与核心能力;MiniMax 架构师冯雯详解其 Speech 模型在低延迟语音合成与音色定制上的优势;FoloToy 联合创始人郭兴华则从儿童陪伴产品切入,分享“把技术藏起来”的落地心得。

📱 Lightning Demo: 现场观众即兴展示 AI 儿童教育 Metabooks 和旅行助手项目,展现语音AI在生活场景的渗透。

深度实战: TEN 团队与阶跃星辰协作,带领参与者完成本地 Voice Agent 的部署与定制开发(模型接入、界面设置、交互逻辑)。经过大半年迭代,现场开发者的“跑通率”显著提升,一小时即可完成搭建!

在这里插入图片描述
在这里插入图片描述

京都站|扎根本土:ASR、大模型与会议实时翻译

7月,京都,日本创业大会 IVS 现场。 氛围开放轻松,聚焦日本本土化需求。

🤩 核心印象: 本土化应用开花结果,实时翻译场景亮眼!

🎤本地化视角: 除了TEN、声网和 Agora 的分享,特邀日本本土ASR技术专家 Paraparas 团队带来“以人为中心的信息转化平台”理念,提供极具本地特色的思考。

📱Lightning Demo: 7个 AI 项目轮番登场! FoloToy(AI 语音玩具)、Mosumosu(二次元助手)、Uniconvo(多场景语音 AI bot)、Flowith、MyShell(Agent 平台)、Pasoo(客服实时翻译 Agent)等,现场演示日语店家与英文顾客的无缝沟通,惊艳全场。 在披萨的香气中,大家自由体验 demo,畅谈合作可能。

在这里插入图片描述
在这里插入图片描述

🔜 WHAT’S NEXT?下一站?

从东京启航,经旧金山、巴黎、北京,抵达京都——TEN 团队携手全球伙伴,跨越五座城市,与超过 300 位 Voice AI 领域的探索者面对面交流。

我们不仅分享了对话式 AI 的最新进展,更深刻感受到不同地区对 Voice Agent 的独特关注:

  • 日本: 企业级需求旺盛,电话客服与商业场景是核心。

  • 欧洲: C端产品创新活跃,创业者热情高涨。

  • 旧金山: 开发者生态成熟,对底层框架、性能优化(如VAD、延迟)细节孜孜以求。

尽管对许多朋友而言,这是与 TEN Framework 的初次邂逅,但大家对其架构设计、技术能力及现场体验给予了积极反馈和宝贵建议。 我们由衷感谢每一位参与者的热情与支持!

Voice Agent 的旅程远未结束。 TEN 团队将继续深耕这一领域,期待与更多伙伴携手,共同探索对话式 AI 的无限可能!

欢迎给我们一个🌟 https://github.com/TEN-framework/ten-framework

在这里插入图片描述

更多 Voice Agent 学习笔记:

语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/89784.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/89784.shtml
英文地址,请注明出处:http://en.pswp.cn/diannao/89784.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法学习笔记:6.深度优先搜索算法——从原理到实战,涵盖 LeetCode 与考研 408 例题

在计算机科学领域,搜索算法是解决问题的重要工具,其中深度优先搜索(Depth-First Search,简称 DFS)凭借其简洁高效的特性,在图论、回溯、拓扑排序等众多场景中发挥着关键作用。无论是 LeetCode 算法题&#…

vue create 和npm init 创建项目对比

以下是关于 vue create 和 npm init 的对比分析: 1. 定位与功能 vue create 定位:Vue 官方提供的脚手架工具,基于 Vue CLI,用于快速创建标准化的 Vue 项目,支持 Vue 2 和 Vue 3。功能:提供交互式配置&…

C++ bitset 模板类

bitset<256> 数据类型详解 bitset<256> 是 C 标准库中的一个模板类&#xff0c;用于处理固定大小的位集合&#xff08;Bit Set&#xff09;。它可以高效地操作和存储二进制位&#xff0c;特别适合需要处理大量布尔标志或简单计数的场景。 基本定义与特性 1. 模板参…

通信握手言和:PROFINET转EtherCAT网关让汽轮机振动数据“破壁”传输

某大型电厂的关键汽轮机设备采用EtherCAT振动传感器进行实时监测&#xff0c;但由于工厂PLC振动分析系统基于PROFINET协议&#xff0c;数据无法直接接入&#xff0c;导致振动数据延迟、预警滞后&#xff0c;严重影响设备健康管理。传统的人工巡检和定期维护难以捕捉早期机械故障…

golang 中当 JSON 数据缺少结构体(struct)中定义的某些字段,会有异常吗

目录关键影响示例演示潜在问题与解决方案问题 1&#xff1a;逻辑错误&#xff08;零值干扰&#xff09;问题 2&#xff1a;忽略可选字段问题 3&#xff1a;第三方库验证最佳实践总结在 Go 语言中&#xff0c;当 JSON 数据缺少结构体&#xff08;struct&#xff09;中定义的某些…

Fiddler 中文版怎么配合 Postman 与 Wireshark 做多环境接口调试?

现代项目中&#xff0c;开发、测试、预发布、生产环境往往分离配置&#xff0c;前端在开发过程中需要频繁切换接口域名、验证多环境表现。而接口升级或项目迭代时&#xff0c;还需要做回归测试&#xff0c;确保老版本接口仍能兼容&#xff0c;避免线上事故。这些环节若仅靠代码…

钉钉小程序开发技巧:getSystemInfo 系统信息获取全解析

在钉钉小程序开发中&#xff0c;获取设备系统信息是实现跨平台适配和优化用户体验的关键环节。本文将深入解析 dd.getSystemInfo 接口的使用方法、技术细节与实际应用场景&#xff0c;帮助开发者高效应对多终端开发挑战。一、接口功能与核心价值dd.getSystemInfo 是钉钉小程序提…

Java项目Maven配置JDK1.8全攻略

目录 &#x1f9e9; 一、全局环境变量配置&#xff08;推荐系统级统一&#xff09; ⚙️ 二、Maven全局配置&#xff08;多项目统一&#xff09; &#x1f4c2; 三、项目级配置&#xff08;推荐团队协作&#xff09; &#x1f4bb; 四、IDE配置&#xff08;辅助验证&#x…

使用tensorflow的线性回归的例子(六)

波士顿房价 import matplotlib.pyplot as plt %matplotlib inline import tensorflow as tf import numpy as np from sklearn.datasets import load_boston import sklearn.linear_model as sk boston load_boston() features np.array(boston.data) labels np.arra…

YOLOv11深度解析:Ultralytics新一代目标检测架构创新与实战指南

🔍 2024年Ultralytics重磅推出YOLOv11**:在精度与速度的平衡木上再进一步,参数减少22%,推理速度提升2%,多任务支持全面升级! 🚀 一、YOLOv11核心创新:轻量化与注意力机制的完美融合 YOLOv11并非颠覆性重构,而是通过模块级优化实现“少参数、高精度、快推理”的目标…

基于 SpringBoot+Vue.js+ElementUI 的 “花开富贵“ 花园管理系统设计与实现7000字论文

摘要 本论文详细阐述了基于 SpringBoot、Vue.js 和 ElementUI 的 "花开富贵" 花园管理系统的设计与实现过程。该系统旨在为花园管理者提供高效、便捷的花园信息管理平台&#xff0c;实现花卉信息、员工、客户、订单等全方位管理功能。论文首先分析了花园管理系统的研…

RESTful API 安装使用教程

一、RESTful API 简介 REST&#xff08;Representational State Transfer&#xff09;是一种基于 Web 的架构风格&#xff0c;RESTful API 是使用 HTTP 协议并遵循 REST 原则设计的 API 接口。其核心思想是&#xff1a;使用标准 HTTP 方法&#xff08;GET、POST、PUT、DELETE&…

【行云流水ai笔记】粗粒度控制:推荐CTRL、GeDi 细粒度/多属性控制:推荐TOLE、GPT-4RL

TOLE模型完整启动方法指南 TOLE (Token-level Optimization with Language Models) 是一种基于强化学习的可控文本生成方法&#xff0c;通过token级别的反馈实现对文本多个属性的精确控制。以下是完整的启动方法指南&#xff1a; 1. 环境准备 1.1 创建虚拟环境 conda creat…

【沉浸式解决问题】idea开发中mapper类中突然找不到对应实体类

目录 一、问题描述二、场景还原三、原因分析四、解决方案 一、问题描述 mapper类继承了mybatis-plus的BaseMapper&#xff0c;泛型需要填入实体类&#xff0c;但是不知怎么地突然实体类就报错了&#xff0c;显示没有这个类 二、场景还原 实体类就是死活报错找不到&#xff0c;所…

初学python的我开始Leetcode题11-2

提示&#xff1a;100道LeetCode热题-11-1主要是二分查找相关&#xff0c;包括三题&#xff1a;搜索旋转排序数组、寻找旋转排序数组中的最小值、寻找两个正序数组的中位数。由于初学&#xff0c;所以我的代码部分仅供参考。前言上次的三道二分查找题较为基础&#xff0c;主要是…

Python 数据分析与可视化 Day 12 - 建模前准备与数据集拆分

✅ 今日目标 掌握建模前常见准备步骤学会使用 train_test_split() 将数据划分为训练集和测试集理解特征&#xff08;X&#xff09;与标签&#xff08;y&#xff09;的区分学习常见建模流程的输入要求&#xff08;格式、维度&#xff09;&#x1f4d8; 一、建模前准备流程概览 数…

Swagger 安装使用教程

一、Swagger 简介 Swagger 是一套开放源代码的 API 文档生成工具链&#xff0c;现归属于 OpenAPI 规范。它支持 RESTful API 的定义、生成、测试和文档自动化。常见的使用工具包括 Swagger UI、Swagger Editor、Swagger Codegen 以及 SpringFox&#xff08;Spring 集成库&…

【seismic unix相速度分析-频散曲线】

介绍Seismic Unix Seismic Unix&#xff08;SU&#xff09;是一个开源的地震数据处理软件包&#xff0c;主要用于地震数据的处理、分析和可视化。它由科罗拉多矿业学院的Center for Wave Phenomena开发&#xff0c;广泛应用于学术研究和工业领域。SU提供了一系列命令行工具&am…

3.前端和后端参数不一致,后端接不到数据的解决方案

目录 1.问题背景: (1).前端代码: (2).后端代码: (3).问题分析: [1]前端参数构造错误: [2].Api请求配置错误: 2.解决方案 (1).修改 role.js 中的 API 方法 (2).前端组件中的调用方式改成下面的而不是继续拼接了 3.总结: 1.问题背景: 我在接口开发过程中&#xff0c;前…

SpringBoot:整合quartz实现定时任务-MisFire的处理

文章目录 一、什么是MisFire二、MisFire发生的情况三、MisFire的补偿策略四、代码实现 一、什么是MisFire 简单理解为&#xff1a;定时任务&#xff0c;所错过的触发 二、MisFire发生的情况 1、资源紧张&#xff0c;定时任务请求不到对应的线程。 2、调度器关闭。 3、设置定…