目录

OWSM v4 简介 卡内基梅隆大学

这个代码不知道干嘛的

tokenizer

CTC分割算法

yodas2数据集

依赖性安装:

数据集下载地址;

模型下载地址:

docker安装(适用于多数 Linux 系统)测试ok

推理demo


OWSM v4 简介 卡内基梅隆大学

OWSM v4: 通过数据扩充和清洗改进开放Whisper风格语音模型"为我们带来了一个好消息:学术团队也能打造媲美商业巨头的开源语音模型!

https://github.com/espnet/espnet

https://github.com/espnet/espnet_model_zoo

这个代码不知道干嘛的

https://huggingface.co/datasets/JinchuanTian/owsm_v4

tokenizer

s2t.tokenizer.text2tokens("<na>")

CTC分割算法

 CTC 模型:使用纯文本标签 + 时间对齐算法

YODAS数据集

YODAS数据集是一个大规模的多语言语音数据集,涵盖了100多种语言

yodas2数据集

https://huggingface.co/datasets/espnet/yodas2

原始的YODAS数据集尚未经过严格的清洗过程,可能包含各种注释错误。常见问题包括语言标签错误和音频与文本的不匹配。因此,数据清洗对于确保准确性和可靠性至关重要。研究团队设计的数据清洗流程包括三个步骤:重新分割、基于语言识别的过滤和基于CTC得分的过滤。

首先,在重新分割阶段,研究人员面对的是YODAS提供的未分割的长格式录音,每条录音都附有带有开始和结束时间戳的文本转录列表。但这些时间戳往往不准确。因此,第一步是使用CTC分割算法重新对齐音频和文本。

依赖性安装:

pip install -U espnet_model_zoo

数据集下载地址;

espnet/yodas2

数据列表

from datasets import get_dataset_config_namesconfigs = get_dataset_config_names("espnet/yodas2",trust_remote_code=True)
print(configs)

['aa000', 'ab000', 'af000', 'ak000', 'am000', 'ar000', 'as000', 'ay000', 'az000', 'ba000', 'be000', 'bg000', 'bh000', 'bi000', 'bm000', 'bn000', 'bo000', 'br000', 'bs000', 'ca000', 'co000', 'cr000', 'cs000', 'cy000', 'da000', 'de000', 'de100', 'de101', 'de102', 'dz000', 'ee000', 'el000', 'en000', 'en001', 'en002', 'en003', 'en004', 'en005', 'en006', 'en007', 'en100', 'en101', 'en102', 'en103', 'en104', 'en105', 'en106', 'en107', 'en108', 'en109', 'en110', 'en111', 'en112', 'en113', 'en114', 'en115', 'en116', 'en117', 'en118', 'en119', 'en120', 'en121', 'en122', 'en123', 'en124', 'en125', 'en126', 'en127', 'en128', 'en129', 'eo000', 'es000', 'es100', 'es101', 'es102', 'es103', 'es104', 'es105', 'es106', 'es107', 'es108', 'et000', 'eu000', 'fa000', 'ff000', 'fi000', 'fj000', 'fo000', 'fr000', 'fr100', 'fr101', 'fr102', 'fr103', 'fy000', 'ga000', 'gd000', 'gl000', 'gn000', 'gu000', 'ha000', 'hi000', 'hi100', 'ho000', 'hr000', 'ht000', 'hu000', 'hy000', 'ia000', 'id000', 'id100', 'id101', 'ie000', 'ig000', 'ik000', 'is000', 'it000', 'it100', 'it101', 'iu000', 'iw000', 'ja000', 'ja100', 'jv000', 'ka000', 'ki000', 'kk000', 'kl000', 'km000', 'kn000', 'ko000', 'ko100', 'ko101', 'ko102', 'ko103', 'ks000', 'ku000', 'ky000', 'la000', 'lb000', 'lg000', 'ln000', 'lo000', 'lt000', 'lv000', 'mg000', 'mi000', 'mk000', 'ml000', 'mn000', 'mr000', 'ms000', 'mt000', 'my000', 'na000', 'nd000', 'ne000', 'nl000', 'nl100', 'no000', 'nv000', 'oc000', 'om000', 'or000', 'pa000', 'pl000', 'ps000', 'pt000', 'pt100', 'pt101', 'pt102', 'pt103', 'qu000', 'rm000', 'rn000', 'ro000', 'ru000', 'ru001', 'ru100', 'ru101', 'ru102', 'ru103', 'ru104', 'ru105', 'ru106', 'rw000', 'sa000', 'sc000', 'sd000', 'sg000', 'sh000', 'si000', 'sk000', 'sl000', 'sm000', 'sn000', 'so000', 'sq000', 'sr000', 'st000', 'su000', 'sv000', 'sw000', 'ta000', 'te000', 'tg000', 'th000', 'th100', 'ti000', 'tk000', 'tn000', 'to000', 'tr000', 'tr100', 'ts000', 'tt000', 'ug000', 'uk000', 'uk100', 'ur000', 'uz000', 've000', 'vi000', 'vi100', 'vi101', 'vo000', 'wo000', 'xh000', 'yi000', 'yo000', 'zh000', 'zu000']

| 配置名 | 语言代码 | 语言名称(中文) | 语言名称(英文) |

|:---------|:-----------|:---------------------|:-------------------|

| bh000 | bh | Bihari languages | Bihari languages |

| eo000 | eo | 世界语 | Esperanto |

| zh000 | zh | 中文 | Chinese |

| da000 | da | 丹麦语 | Danish |

| uk100 | uk | 乌克兰语 | Ukrainian |

| uz000 | uz | 乌兹别克语 | Uzbek |

| ur000 | ur | 乌尔都语 | Urdu |

| hy000 | hy | 亚美尼亚语 | Armenian |

| ik000 | ik | 伊努皮克语 | Inupiaq |

| ig000 | ig | 伊博语 | Igbo |

| ru106 | ru | 俄语 | Russian |

| bg000 | bg | 保加利亚语 | Bulgarian |

| sd000 | sd | 信德语 | Sindhi |

| si000 | si | 僧伽罗语 | Sinhala |

| qu000 | qu | 克丘亚语 | Quechua |

| ks000 | ks | 克什米尔语 | Kashmiri |

| hr000 | hr | 克罗地亚语 | Croatian |

| cr000 | cr | 克里语 | Cree |

| is000 | is | 冰岛语 | Icelandic |

| gl000 | gl | 加利西亚语 | Galician |

| ca000 | ca | 加泰罗尼亚语 | Catalan |

| hu000 | hu | 匈牙利语 | Hungarian |

| nd000 | nd | 北恩德贝勒语 | North Ndebele |

| st000 | st | 南索托语 | Southern Sotho |

| af000 | af | 南非荷兰语 | Afrikaans |

| kn000 | kn | 卡纳达语 | Kannada |

| lg000 | lg | 卢干达语 | Ganda |

| rw000 | rw | 卢旺达语 | Kinyarwanda |

| lb000 | lb | 卢森堡语 | Luxembourgish |

| hi000 | hi | 印地语 | Hindi |

| id101 | id | 印度尼西亚语 | Indonesian |

| gu000 | gu | 古吉拉特语 | Gujarati |

| ki000 | ki | 吉库尤语 | Kikuyu |

| kk000 | kk | 哈萨克语 | Kazakh |

| iu000 | iu | 因纽特语 | Inuktitut |

| ie000 | ie | 国际文字(E) | Interlingue |

| ia000 | ia | 国际语 | Interlingua |

| tk000 | tk | 土库曼语 | Turkmen |

| tr000 | tr | 土耳其语 | Turkish |

| ee000 | ee | 埃维语 | Ewe |

| tg000 | tg | 塔吉克语 | Tajik |

| sr000 | sr | 塞尔维亚语 | Serbian |

| sh000 | sh | 塞尔维亚语(拉丁文) | Serbian (Latin) |

| oc000 | oc | 奥克语 | Occitan |

| om000 | om | 奥罗莫语 | Oromo |

| or000 | or | 奥里亚语 | Odia |

| cy000 | cy | 威尔士语 | Welsh |

| bn000 | bn | 孟加拉语 | Bangla |

| dz000 | dz | 宗卡语 | Dzongkha |

| ff000 | ff | 富拉语 | Fula |

| ne000 | ne | 尼泊尔语 | Nepali |

| ba000 | ba | 巴什基尔语 | Bashkir |

| eu000 | eu | 巴斯克语 | Basque |

| su000 | su | 巽他语 | Sundanese |

| br000 | br | 布列塔尼语 | Breton |

| iw000 | iw | 希伯来语 | Hebrew |

| el000 | el | 希腊语 | Greek |

| ho000 | ho | 希里莫图语 | Hiri Motu |

| ku000 | ku | 库尔德语 | Kurdish |

| de101 | de | 德语 | German |

| it100 | it | 意大利语 | Italian |

| yi000 | yi | 意第绪语 | Yiddish |

| la000 | la | 拉丁语 | Latin |

| lv000 | lv | 拉脱维亚语 | Latvian |

| no000 | no | 挪威语 | Norwegian |

| cs000 | cs | 捷克语 | Czech |

| ti000 | ti | 提格利尼亚语 | Tigrinya |

| ve000 | ve | 文达语 | Venda |

| fj000 | fj | 斐济语 | Fijian |

| sk000 | sk | 斯洛伐克语 | Slovak |

| sl000 | sl | 斯洛文尼亚语 | Slovenian |

| sw000 | sw | 斯瓦希里语 | Swahili |

| pa000 | pa | 旁遮普语 | Punjabi |

| ja100 | ja | 日语 | Japanese |

| ps000 | ps | 普什图语 | Pashto |

| ln000 | ln | 林加拉语 | Lingala |

| ky000 | ky | 柯尔克孜语 | Kyrgyz |

| kl000 | kl | 格陵兰语 | Kalaallisut |

| ka000 | ka | 格鲁吉亚语 | Georgian |

| sg000 | sg | 桑戈语 | Sango |

| sa000 | sa | 梵语 | Sanskrit |

| bi000 | bi | 比斯拉马语 | Bislama |

| mi000 | mi | 毛利语 | Māori |

| to000 | to | 汤加语 | Tongan |

| vo000 | vo | 沃拉普克语 | Volapük |

| wo000 | wo | 沃洛夫语 | Wolof |

| fo000 | fo | 法罗语 | Faroese |

| fr000 | fr | 法语 | French |

| pl000 | pl | 波兰语 | Polish |

| bs000 | bs | 波斯尼亚语 | Bosnian |

| fa000 | fa | 波斯语 | Persian |

| te000 | te | 泰卢固语 | Telugu |

| ta000 | ta | 泰米尔语 | Tamil |

| th000 | th | 泰语 | Thai |

| ht000 | ht | 海地克里奥尔语 | Haitian Creole |

| jv000 | jv | 爪哇语 | Javanese |

| ga000 | ga | 爱尔兰语 | Irish |

| et000 | et | 爱沙尼亚语 | Estonian |

| bm000 | bm | 班巴拉语 | Bambara |

| na000 | na | 瑙鲁语 | Nauru |

| sv000 | sv | 瑞典语 | Swedish |

| gn000 | gn | 瓜拉尼语 | Guarani |

| be000 | be | 白俄罗斯语 | Belarusian |

| zu000 | zu | 祖鲁语 | Zulu |

| xh000 | xh | 科萨语 | Xhosa |

| co000 | co | 科西嘉语 | Corsican |

| lt000 | lt | 立陶宛语 | Lithuanian |

| so000 | so | 索马里语 | Somali |

| yo000 | yo | 约鲁巴语 | Yoruba |

| nv000 | nv | 纳瓦霍语 | Navajo |

| sn000 | sn | 绍纳语 | Shona |

| ug000 | ug | 维吾尔语 | Uyghur |

| my000 | my | 缅甸语 | Burmese |

| rm000 | rm | 罗曼什语 | Romansh |

| ro000 | ro | 罗马尼亚语 | Romanian |

| lo000 | lo | 老挝语 | Lao |

| ts000 | ts | 聪加语 | Tsonga |

| ay000 | ay | 艾马拉语 | Aymara |

| fi000 | fi | 芬兰语 | Finnish |

| gd000 | gd | 苏格兰盖尔语 | Scottish Gaelic |

| en116 | en | 英语 | English |

| tn000 | tn | 茨瓦纳语 | Tswana |

| nl100 | nl | 荷兰语 | Dutch |

| sc000 | sc | 萨丁语 | Sardinian |

| sm000 | sm | 萨摩亚语 | Samoan |

| pt102 | pt | 葡萄牙语 | Portuguese |

| mn000 | mn | 蒙古语 | Mongolian |

| bo000 | bo | 藏语 | Tibetan |

| fy000 | fy | 西弗里西亚语 | Western Frisian |

| es101 | es | 西班牙语 | Spanish |

| ha000 | ha | 豪萨语 | Hausa |

| vi101 | vi | 越南语 | Vietnamese |

| az000 | az | 阿塞拜疆语 | Azerbaijani |

| am000 | am | 阿姆哈拉语 | Amharic |

| sq000 | sq | 阿尔巴尼亚语 | Albanian |

| ab000 | ab | 阿布哈西亚语 | Abkhazian |

| ar000 | ar | 阿拉伯语 | Arabic |

| aa000 | aa | 阿法尔语 | Afar |

| ak000 | ak | 阿肯语 | Akan |

| as000 | as | 阿萨姆语 | Assamese |

| rn000 | rn | 隆迪语 | Rundi |

| tt000 | tt | 鞑靼语 | Tatar |

| ko000 | ko | 韩语 | Korean |

| mk000 | mk | 马其顿语 | Macedonian |

| mg000 | mg | 马拉加斯语 | Malagasy |

| mr000 | mr | 马拉地语 | Marathi |

| ml000 | ml | 马拉雅拉姆语 | Malayalam |

| ms000 | ms | 马来语 | Malay |

| mt000 | mt | 马耳他语 | Maltese |

| km000 | km | 高棉语 | Khmer |

模型下载地址:

https://huggingface.co/papers/2506.00338

下载模型:

huggingface-cli download --resume-download espnet/owsm_ctc_v4_1B --local-dir /nas/lbg/models/espnet_owsm_ctc_v4_1B

模型目录结构:

data  exp  meta.yaml  README.md

docker安装(适用于多数 Linux 系统)测试ok

curl -fsSL https://get.docker.com | sh

或者使用 wget:

wget -qO- https://get.docker.com | sh

推理demo

from espnet2.bin.s2t_inference_ctc import Speech2TextGreedySearch# "/nas/lbg/models/espnet_owsm_ctc_v4_1B",
s2t = Speech2TextGreedySearch.from_pretrained("espnet/owsm_ctc_v4_1B",device="cuda",use_flash_attn=False,   # set to True for better efficiency if flash attn is installed and dtype is float16 or bfloat16lang_sym='<eng>',task_sym='<asr>',
)res = s2t.batch_decode("audio.wav",    # a single audio (path or 1-D array/tensor) as inputbatch_size=16,context_len_in_secs=4,
)   # res is a single str, i.e., the predicted text without special tokensres = s2t.batch_decode(["/nas/ASR_DATA/cv-corpus-21.0-2025-03-14/ar/clips/common_voice_ar_24146339.mp3", "/nas/lbg/project/Whisper-Finetune/dataset/test.wav"], # a list of audios as inputbatch_size=16,context_len_in_secs=4,
)   # res is a list of str

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91233.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91233.shtml
英文地址,请注明出处:http://en.pswp.cn/pingmian/91233.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习线性回归:从基础到实践的入门指南

目录 一、线性回归的基本概念 二、线性回归的核心原理 三、线性回归的实现步骤 1.数据准备与预处理 2.模型训练 3.模型评估 &#xff08;四&#xff09;模型优化与应用 四、线性回归的应用场景 五、线性回归的进阶方向 在机器学习的广阔领域中&#xff0c;线性回归是入…

6.Linux 系统启动过程,破解root密码与故障修复

Linux :系统启动过程&#xff0c;破解root密码与故障修复 一、标准启动流程 开机自检 (BIOS/UEFI POST) 硬件初始化与检测 MBR引导 读取硬盘主引导记录&#xff08;512字节&#xff09; GRUB2菜单 加载 /boot/grub2/grub.cfg 显示启动菜单 加载Linux内核 载入Linux 内核文件 内…

特产|基于SSM+vue的南阳特产销售平台(源码+数据库+文档)

南阳特产销售平台 基于SSMvue的南阳特产销售平台 一、前言 二、系统设计 三、系统功能设计 平台功能模块 管理员功能模块 商家功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xff1a; 博主介绍&#xff1a;✌️大…

线性代数常见的解题方法

一.行列式 1.利用行列式的性质进行简化 (1)重要行列式 主对角线,副对角线(不要忘了-1的次数),拉普拉斯展开(副对角线是m*n),范德蒙 (2)行列式展开定理 每一行/列的元素乘以它对应的代数余子式 扩展:拉普拉斯展开定理,可以按照任意行和列数进行展开,行列式的值=|A|*…

Websocket实时行情接口 (2025最新使用教程)

本教程将指导您如何使用Java Websocket客户端连接实时行情接口&#xff0c;并订阅相关数据。 步骤1&#xff1a;配置您的项目 确保您的项目已引入以下依赖&#xff1a; jakarta.websocket-apijakarta.websocket-client-apifastjson2lombokspring-context (如果使用Spring框架) …

【JEECG】JVxeTable表格拖拽排序功能

功能说明&#xff1a; 实现JVxeTable表格拖拽排序功能 解决子表拖拽排序后&#xff0c;点击保存数据&#xff0c;未实现拖拽排序后效果 参数配置&#xff1a; 提示&#xff1a; 1.开启 dragSort 属性之后即可实现上下拖拽排序。 2.使用 sortKey 属性可以自定义排序保存的 key&…

【腾讯云】EdgeOne网站安全防护的配置方法 防范盗刷流量 附恶意IP和UA黑名单

经过上个月的前车之鉴&#xff0c;我摸索出一套针对腾讯云EdgeOne《付费版》的安全配置模板&#xff0c;仅供各位站长参考 配置方法 一、在EdgeOne控制面板页面&#xff0c;点击要配置的域名。 二、进入后&#xff0c;点击安全防护-WEB防护-自定义规则&#xff0c;按图所示添加…

白玩 一 记录retrofit+okhttp+flow 及 kts的全局配置

先回忆下flow吧&#xff01; flow是啥 Flow 是 Kotlin 协程框架中的一个异步数据流处理组件&#xff0c;专为响应式编程设计&#xff0c;适用于需要连续或异步返回多个值的场景&#xff0c;如网络请求、数据库查询、传感器数据等 1 ‌异步流&#xff08;Asynchronous Stream…

犯罪现场三维还原:科技助力刑侦变革

在刑侦领域&#xff0c;犯罪现场的准确还原对于案件侦破起着至关重要的作用。传统的现场记录方式&#xff0c;如拍照、绘图等&#xff0c;虽然能获取一定信息&#xff0c;但难以全面、直观地呈现现场全貌&#xff0c;容易遗漏关键细节&#xff0c;且在后期分析和信息传达上存在…

go-admin 构建arm镜像

目录 1、 go-admin Dockerfile 2、docker build go-admin 3、settings.yml 4、go-admin-ui Dockerfile 5、docker build go-admin-ui 6、go-admin.yaml 7、go-admin-ui.yaml 1、 go-admin Dockerfile # 构建阶段:使用 Go 1.24 版本(支持远程调试) FROM golang:1.24-…

深入浅出:C++ STL简介与学习指南

目录 前言 STL的版本演变 STL六大组件 STL的重要性 如何学习STL STL的缺陷 总结 前言 什么是STL&#xff1f; STL&#xff08;Standard Template Library&#xff0c;标准模板库&#xff09;是C标准库的核心组成部分&#xff0c;它不仅是一个可复用的组件库&#xff0c;更是一…

Mysql事务原理

脏读(Dirty Read) 某个事务已更新一份数据&#xff0c;另一个事务在此时读取了同一份数据&#xff0c;由于某些原因&#xff0c;前一个进行了RollBack&#xff0c;则后一个事务所读取的数据就会是不正确的。 不可重复读(Non-repeatable read) 在一个事务的两次查询之中数据不一…

小红书笔记详情API指南

一、引言小红书作为中国领先的社交电商平台&#xff0c;拥有超过4.8亿用户(2025年Q2数据)&#xff0c;其开放平台已成为品牌营销与数据挖掘的重要渠道‌1。通过笔记详情API获取数据&#xff0c;可以帮助商家、品牌方和数据分析人员了解用户反馈、市场趋势和消费需求‌。这些数据…

VS+Qt中使用QCustomPlot绘制曲线标签(附源码)

在qt中我们常常会使用数据来绘制曲线&#xff0c;常用的的绘制方法用QCutomPlot、QChart和QPrinter。有时我们会根据需要在曲线进行二次绘制&#xff0c;包括对曲线打标签&#xff0c;显示某个点的值等功能。本文主要为大家介绍在QCustomPlot中使用QCPItemTracer和QCPItemText绘…

Spring Boot项目生产环境部署完整指南

在Spring Boot应用开发完成后&#xff0c;如何将其稳定、高效地部署到生产环境是每个开发者都需要掌握的关键技能。本文将详细介绍Spring Boot项目的多种部署方案&#xff0c;从传统部署到现代化容器部署&#xff0c;选择最适合的部署策略。 1. 部署前的准备工作 1.1 项目打包优…

微信小程序中实现页面跳转的方法

微信小程序中页面跳转主要有两种方式&#xff1a;声明式导航&#xff08;通过组件实现&#xff09;和编程式导航&#xff08;通过API实现&#xff09;。两种方式适用于不同场景&#xff0c;以下详细说明。一、声明式导航&#xff08;navigator组件&#xff09;通过小程序内置的…

从0开始学linux韦东山教程Linux驱动入门实验班(7)

本人从0开始学习linux&#xff0c;使用的是韦东山的教程&#xff0c;在跟着课程学习的情况下的所遇到的问题的总结,理论虽枯燥但是是基础。本人将前几章的内容大致学完之后&#xff0c;考虑到后续驱动方面得更多的开始实操&#xff0c;后续的内容将以韦东山教程Linux驱动入门实…

国内AI IDE竞逐:腾讯CodeBuddy、阿里通义灵码、字节跳动TRAE、百度文心快码

国内AI IDE竞逐&#xff1a;腾讯CodeBuddy、阿里通义灵码、字节跳动TRAE、百度文心快码 随着人工智能技术的不断发展&#xff0c;各大科技公司纷纷推出自家的AI IDE&#xff0c;推动软件开发进入全新的智能化时代。腾讯的 CodeBuddy IDE、阿里云的 通义灵码 AI IDE、字节跳动的…

git rebase使用教程 以及和merge的区别

Merge和Rebase概念概述 rebase 和 merge 相似&#xff0c;但又不完全相同&#xff0c;本质上都是用来合并分支的命令&#xff0c;区别如下 merge合并分支会多出一条merge commit记录&#xff0c;而rebase不会merge的提交树是非线性的&#xff0c;会有分叉&#xff0c;而rebase的…

React中的合成事件解释和理解

什么是合成事件&#xff08;Synthetic event&#xff09;?它和原生事件有什么区别?解题思路:解释合成事件&#xff0c;然后对比原生事件&#xff0c;然后再说他的优势1.一致性 在 react里面&#xff0c;这个合成事件是非常重要的&#xff0c;因为它就是为了解决浏览器之间与事…