本节内容含有各典型数据集的推荐,以及其网址,大家根据需要自取


一、检索

最简单、最灵活的数据获取方式就是依靠检索:

Google:更适合搜索英文信息

Google Dataset Search(Google 数据集搜索)

网址:https://toolbox.google.com/datasetsearch

二、公开数据

国内常见公开数据渠道

·国家相关部门统计信息

·中国银行业监督管理委员会

·中国国家统计局

国际公开数据集

1400万的图像数据

ImageNet

Amazon从2008年开始就为开发者提供几十TB的开发数据

Registry of Open Data on AWS

YouTube视频的统计与社交网络数据

YouTube Dataset

代表性公开数据集

用户评分MovieLens:MovieLens | GroupLens

文本数据-头条:https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset

金融数据-股票:https://github.com/asxinyu/Stock

网络数据-Large scale network:Stanford Large Network Dataset Collection

教育数据:

ASSISTmentsData-学业: https://sites.google.com/site/assistmentsdata/home/

BASEGroup: https://github.com/bigdata-ustc/EduData

阿里天池数据-数据平台:天池数据集_阿里系唯一对外开放数据分享平台-阿里云天池

公开大数据竞赛的数据:KDDCup,NeurIPS Challenge

三、大数据的未来:合成数据

合成数据:基于计算机模拟活算法生成模仿现实世界观察的人造数据

优势:大大降低数据获取成本;可控;没有隐私安全问题;数据丰富多样,减少真实世界中存在的偏见…

代表工作:

麻省理工学院搭建的合成数据工具库:The Synthetic Data Vault. Put synthetic data to work!

利用大模型数据增强

解决目标领域数据少且质量差的问题

合成数据是让模型“无中生有”,直接生成某个领域的数据(有一定质量问题)

数据增强是让模型“有中生更多”,根据已标注好的数据,举一反三(更安全可靠)

四、数据众包

一种利用大众力量来收集、分析和处理数据的模式

需求方将一批数据标注任务分成多个子任务,分发在数据众包平台

标注者通过互联网在众包平台接受任务

平台收集标注结果,质量评估合格后返回给需求方

平台很多,大家自行搜索

附:比赛平台

供各位了解

CCF BDCI:

2019 CCF 大数据与计算智能大赛CCF大数据与计算智能大赛(CCF BDCI)由中国计算机学会创办,是大数据与人工智能领域的算法、应用和系统大型挑战赛事。https://www.datafountain.cn/special/BDCI2019?utm_source=WX1

天池:

天池大数据竞赛_天池大赛-阿里云天池天池大数据竞赛,是由阿里巴巴集团主办,面向全球科研工作者的高端算法竞赛。通过开放海量数据和分布式计算资源,大赛让所有参与者有机会运用其设计的算法解决各类社会问题或业务问题。欢迎来大家来天池参与天池大数据竞赛,进行真实业务场景演练,参与天池大赛还有机会获得百万奖金池。https://tianchi.aliyun.com/competition/gameList.htm?spm=5176.100065.5610717.11.ba5d2

Kaggle

Kaggle CompetitionsKaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.https://www.kaggle.com/competitions

Biendata

阿里云万网虚机IP访问报错提示https://biendata.com/


下一节,讲述爬虫,【数据分析二:Data Collection】:网络爬虫

【数据分析二:Data Collection】网络爬虫-CSDN博客文章浏览阅读2次。大量数据的获取难以手动实现,需借助爬虫程序网络爬虫是一个自动在网上抓取数据的程序爬虫本质上就是下载特定网站网页的HTML/JSON/XML数据,并对数据进行解析、提取与存储通常先定义一组入口URL,根据页面中的其他URL,深度优先或广度优先的遍历访问,逐一抓取数据爬虫的行为可以划分为:载入、解析、存储。 https://blog.csdn.net/2301_79853895/article/details/148720066?fromshare=blogdetail&sharetype=blogdetail&sharerId=148720066&sharerefer=PC&sharesource=2301_79853895&sharefrom=from_link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/910430.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/910430.shtml
英文地址,请注明出处:http://en.pswp.cn/news/910430.shtml

如若内容造成侵权/违法违规/事实不符,请联系英文站点网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

23.ssr和csr的对比?如何依赖node.js实现

1.为什么说ssr 的node中间层请求速度快。相当于内网? 那vue.js加载怎么没有ssr和csr的说法啊 第一问:为什么说 SSR 的 Node 中间层请求速度快?是不是相当于内网? ✅ 是的,本质上就是「内网请求」,所以更快…

力扣刷题(第六十四天)

灵感来源 - 保持更新,努力学习 - python脚本学习 第一个错误的版本 解题思路 初始化左右边界:左边界 left 1,右边界 right n。二分查找循环: 计算中间版本号 mid。若 mid 是错误版本,说明第一个错误版本在 [le…

【图像处理入门】11. 深度学习初探:从CNN到GAN的视觉智能之旅

摘要 深度学习为图像处理注入了革命性动力。本文将系统讲解卷积神经网络(CNN)的核心原理,通过PyTorch实现图像分类实战;深入解析迁移学习的高效应用策略,利用预训练模型提升自定义任务性能;最后揭开生成对抗网络(GAN)的神秘面纱,展示图像生成与增强的前沿技术。结合代…

C++法则4: 如果一个构造函数的第一个参数是自身类类型的引用,且任何额外参数都有默认值,则此构造函数是拷贝构造函数。

C法则4: 如果一个构造函数的第一个参数是自身类类型的引用,且任何额外参数都有默认值,则此构造函数是拷贝构造函数。 拷贝构造函数的定义: 第一个参数是自身类类型的引用: 必须是引用(通常为const引用&…

从头搭建环境安装k8s遇到的问题

基本信息 master节点IP: 172.31.0.3 node01节点IP:172.31.0.4 node02节点IP:172.31.0.5 子网掩码:255.255.0.0 网关:172.31.0.2 DNS:114.114.114.114 安装前要检查的信息 检查三台主机的mac地址是否重复&#xff1a…

Flask入门指南:从零构建Python微服务

1. Flask 是什么? Flask 是一个 微框架(Microframework),特点包括: 轻量灵活:核心仅包含路由和模板引擎,其他功能通过扩展实现易于学习:代码直观,适合快速开发小型应用…

【LINUX网络】网络socet接口的基本使用以及实现简易UDP通信

根据本系列上两篇关于网络的初识介绍,现在我们开始实现一个UDP接口,以加强对该接口的理解。 1 . 服务器端 在本篇中,主要按照下面内容来实现: 创建并封装服务端:了解创建服务端的基本步骤 创建并封装客户端&#xff0…

MySQL的索引事务

索引 是什么 类似于目录,提高查询的速度,但是本身会占用空间,增删数据的时候也需要维护索引。所以查询操作频繁的时候可以创建索引。如果非条件查询列,或经常做插入、修改操作,或磁盘空间不足时,不考虑创…

安卓9.0系统修改定制化____第三方美化 bug修复 移植相关 辅助工具 常识篇 八

在修改rom中。有时候不可避免的需要对系统进行美化以及一些第三方系统的bug修复。在操作前需要了解系统的一些基本常识。例如同平台移植 跨平台移植以及内核移植 apk反编译等等相关的知识。今天解析的这款工具虽然不是直接面向安卓9.0.但对于了解以上的一些必备常识还是不错的 …

云服务器与物理服务器对比:选择最适合的业务服务器解决方案

更多云服务器知识,尽在hostol.com 在现代 IT 基础设施中,云服务器与物理服务器是两种常见的服务器解决方案。随着云计算技术的迅猛发展,越来越多的企业开始转向云服务器,但也有一些企业仍然坚持使用物理服务器,尤其是…

【redis使用场景——缓存——双写一致性】

redis使用场景——缓存——双写一致性 双写一致性问题的本质与场景典型不一致场景分析​​并发写操作导致的不一致​​​​读写交叉导致的不一致​​​​主从同步延迟导致的不一致​​ 解决延迟双删策略(推荐)优点​​:​​缺点​​&#xff…

【ArcGIS】在线影像底图调用

【ArcGIS】在线影像底图调用 一、 历史影像的调用二、ArcGIS online底图调用三、结语 一、 历史影像的调用 ESRI官方推出了World Imagery Wayback是一个提供全球范围内历史影像的在线服务。 官网地址:https://livingatlas.arcgis.com/wayback/ 操作步骤&#xff1…

密度估计:从零星足迹重建整体画像

想象你是一位侦探,案发现场只留下几个零散的脚印。**如何通过这些碎片,推断嫌疑人的身高体重?甚至预测他下一步的藏身之处?** 这种从局部反推整体的能力,正是**密度估计(Density Estimation)** …

B004基于STM32F401单片机简易交通灯实训数码管显示设计仿真资料

视频演示地址:https://www.bilibili.com/video/BV1GvNDzFEd9/ 运行环境 仿真软件:proteus8.17(切记别的版本不能运行) 编程软件:MDK525 STM32 cubmx版本:6.11.1(切记别的版本不能运行) 原理图画图软件:AD10 功能说明: 以STM32F401CB单片机为核心简易交通灯功能如下。…

没掌握的知识点记录

1、微内核的主要优点在于结构清晰、内核代码量少,安全性和可靠性高、可移植性强、可伸缩性、可扩展性高;其缺点是难以进行良好的整体优化、进程间互相通信的开销大、内核功能代码不能被直接调用而带来服务的效率低。 2、题目: 分页内存管理…

linux 远程终端执行qt应用显示到接入的物理显示器上

在显示器打开终端执行: xhost local: 在远程终端执行: export DISPLAY:0然后在终端执行qt应用就可以。 xhost local: 功能:允许本地用户(local:)访问 X 服务器(X11 图形系统)。 原理&#xf…

【AI驱动网络】

一、AI 驱动网络 1.1 什么是网络 1.1.1、网络的定义 ​网络是由若干节点​(如计算机、服务器、移动设备等)和连接这些节点的链路​(有线或无线传输介质)构成的系统,用于实现地理位置分散的独立设备之间的信息交换、资源共享与协同工作。在计算机领域,网络是信息传输、…

Python期末速成

一.基础内容 赋值语句: a 1 b "mayday" 标识符规则: 1.字母,数字,下划线,汉字组成。但数字不能开头 2.不能是保留字 3.特殊符号不行,*¥^等 注释是在语句前面加# …

【时时三省】(C语言基础)指针变量例子

山不在高,有仙则名。水不在深,有龙则灵。 ----CSDN 时时三省 存放地址的变量是指针变量,它用来指向另一个对象(如变量、数组、函数等)。 那么,怎样定义和使用指针变量呢? 先分析一个例子。 例题 通过…

MATLAB代码演示,TDOA定位的优化算法,提升Z轴的定位精度|复现《基于最小二乘法的室内三维定位算法研究》

本文复现文章: 王桂杰,焦良葆,曹雪虹.基于最小二乘法的室内三维定位算法研究[J].计算机技术与发展,2020,30(04):69-73.按照文章的核心算法,复现了TDOA下的最小二乘在三维环境中的改进定位方法,方法可以明显提升Z轴的定位精度 文章目录 概述运行结果展示matlab代码完整代码概…