作者:Shivashish Thakur,DataFlair 数字营销。
要构建完美的模型,您需要大量的数据。但为您的机器学习项目找到合适的数据集可能是一项具有挑战性的任务。幸运的是,许多组织、研究人员和个人分享了他们的机器学习项目和数据集,我们可以用它们来构建我们自己的 ML 项目想法。
向下滚动可查看 20 多个机器学习和数据科学数据集以及项目想法,您可以使用它们来练习和提升您的技能。
机器学习项目:
1. 安然电子邮件数据集
安然数据集在自然语言处理领域很受欢迎。它拥有 150 多个用户的超过 50 万封电子邮件。数据大小约为 432Mb。 150名用户中,大部分用户是安然公司的高级管理人员。
机器学习项目想法:使用 k-means 聚类,您可以构建模型来检测欺诈活动。 K-means 聚类是一种无监督机器学习算法。它根据数据中的相似模式将观察结果分成 k 个簇。
2. 聊天机器人意图数据集
聊天机器人的数据集是一个 JSON 文件,其中包含不同的标签,例如再见、问候、pharmacy_search、hospital_search 等。每个标签都有用户可以询问的模式列表,聊天机器人将根据该模式进行响应。该数据集非常适合理解聊天机器人数据的工作原理。
机器学习项目想法:您可以通过根据您的观察扭曲和扩展数据来构建聊天机器人或了解聊天机器人的工作原理。要构建您自己的聊天机器人,您需要充分了解自然语言处理概念。
3.Flickr 30k 数据集
Flickr 30k 数据集有超过 30,000 张图像,每个图像都标有不同的标题。该数据集用于构建图像标题生成器。而这个数据集是Flickr 8k的升级版本,用于构建更准确的模型。
机器学习项目想法:您可以构建一个非常适合分析和提取图像特征的 CNN 模型,并生成一个描述图像的英文句子,称为 Caption。
4.帕金森数据集
帕金森氏症是一种会导致神经系统紊乱并影响运动的疾病。帕金森数据集包含生物医学测量数据、具有 23 种不同属性的人的 195 条记录。该数据用于区分健康人和帕金森病患者。
机器学习项目想法:您可以建立一个模型来区分健康人和帕金森病患者。用于此目的的算法是 XGboost,它代表极端梯度提升,并且基于决策树。
5. 鸢尾花数据集
鸢尾花数据集是一个适合初学者的数据集,其中包含有关花瓣和萼片大小的信息。该数据集有 3 个类,每个类有 50 个实例,因此仅包含 150 行 4 列。
机器学习项目想法:分类是将项目分为相应类别的任务。您可以对数据集实施机器学习分类或回归模型。
6.ImageNet数据集
ImageNet 是一个根据 wordnet 层次结构组织的大型图像数据库。它有超过 100,000 个短语,平均每个短语有 1000 张图像。大小超过 150 GB。它适用于图像识别、人脸识别、物体检测等。它还举办了名为ILSVRC的具有挑战性的竞赛,让人们建立越来越准确的模型。
机器学习项目想法:在这个庞大的数据库上实现图像分类并识别物体。该项目需要 CNN 模型(卷积神经网络)才能获得准确的结果。
7. 商城客户数据集
购物中心客户数据集包含有关访问购物中心的人员的详细信息。该数据集包含年龄、客户 ID、性别、年收入和支出分数。它从数据中获取洞察,并根据客户的行为将客户分为不同的组。
机器学习项目想法:根据性别、年龄、兴趣对客户进行细分。它在定制营销中很有用。客户细分是根据相似的各个群体划分客户的重要做法。
8.谷歌趋势数据门户
谷歌趋势数据可用于直观地检查和分析数据。您还可以通过简单的点击将数据集下载到 CSV 文件中。我们可以了解趋势是什么以及人们在搜索什么。
9. 波士顿住房数据集
这是模式识别中使用的流行数据集。它包含有关波士顿不同房屋的信息,基于犯罪率、税收、房间数量等。它有 506 行和 14 个不同的列变量。您可以使用此数据集来预测房价。
机器学习项目想法: 使用线性回归预测新房的房价。当数据在输入和输出变量之间具有某种线性关系时,线性回归用于预测未知输入的值。
10. Uber 接送数据集
该数据集包含 2014 年 4 月至 2014 年 9 月期间纽约市 450 万次 Uber 接载信息,以及 2015 年 1 月至 2015 年 6 月期间 1400 万次的信息。用户可以执行数据分析并从数据中收集见解。
机器学习项目想法:分析客户乘车数据并将数据可视化,以找到有助于改善业务的见解。数据分析和可视化是数据科学的重要组成部分。它们用于从数据中收集见解,通过可视化,您可以从数据中快速获取信息。
11.推荐系统数据集
这是 UCSD 实验室研究项目中使用的丰富数据集集合的门户。它包含来自流行网站的各种数据集,例如 Goodreads 书评、亚马逊产品评论、调酒数据、社交媒体数据等,用于构建推荐系统。
机器学习项目想法:建立像亚马逊一样的产品推荐系统。推荐系统可以根据您的兴趣以及您之前喜欢和使用过的东西来推荐您的产品、电影等。
12. UCI 垃圾邮件数据库数据集
将电子邮件分类为垃圾邮件或非垃圾邮件是一项非常常见且有用的任务。该数据集包含 4601 封电子邮件和有关电子邮件的 57 条元信息。您可以构建模型来过滤掉垃圾邮件。
机器学习项目想法:您可以构建一个模型来将您的电子邮件识别为垃圾邮件或非垃圾邮件。
13.GTSRB(德国交通标志识别基准)数据集
GTSRB 数据集包含大约 50,000 张属于 43 个不同类别的交通标志图像,并包含有关每个标志的边界框的信息。该数据集用于多类分类。
机器学习项目想法:使用深度学习框架构建模型,对交通标志进行分类并识别标志的边界框。交通标志分类在自动驾驶车辆中也很有用,可以识别标志并采取适当的行动。
14. 城市景观数据集
这是计算机视觉项目的开源数据集。它包含在 50 条不同城市街道拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深度神经网络以理解城市场景。
机器学习项目 主意:执行图像分割并从道路上的视频中检测不同的物体。图像分割是将图像数字化划分为各种不同类别的过程,如汽车、公共汽车、人、树木、道路等。
15.动力学数据集
Kinetics 共有三种不同的数据集:Kinetics 400、Kinetics 600 和 Kinetics 700 数据集。这是一个大型数据集,包含约 650 万个高质量视频的 URL 链接。
机器学习项目想法:建立人体动作识别模型并检测人体动作。人类动作识别是通过一系列观察来识别的。
16.IMDB-Wiki 数据集
IMDB-Wiki 数据集是最大的带有标记性别和年龄的人脸图像开源数据集之一。这些图像是从 IMDB 和维基百科收集的。它有超过 500 万张标记图像。
机器学习项目想法:制作一个能够检测面部并预测其性别和年龄的模型。您可以有不同范围的类别,例如 0-10、10-20、30-40、50-60 等。
17.颜色检测数据集
该数据集包含一个 CSV 文件,其中包含 865 个颜色名称及其相应的 RGB(红、绿、蓝)颜色值。它还具有颜色的十六进制值。
机器学习项目想法:颜色数据集可用于制作颜色检测应用程序,其中我们可以有一个界面从图像中选择颜色,并且应用程序将显示颜色的名称。
18.Urban Sound 8K 数据集
城市声音数据集包含空调、狗吠、钻探、警笛、街头音乐等 10 个类别的 8732 个城市声音。该数据集在城市声音分类问题中很受欢迎。
机器学习项目想法:我们可以建立一个声音分类系统来检测背景中播放的城市声音的类型。这将帮助您开始使用音频数据并了解如何使用非结构化数据。
19.Librispeech 数据集
该数据集包含大量源自 LibriVox 项目的英语演讲。它有 1000 小时的各种口音的英语朗读演讲。它用于语音识别项目。
机器学习项目想法:构建语音识别模型来检测所说内容并将其转换为文本。语音识别的目标是自动识别音频中所说的内容。
20. 乳腺组织病理学图像数据集
该数据集包含 2,77,524 张尺寸为 50×50 的图像,这些图像是从以 40 倍扫描的乳腺癌标本的 162 张载玻片图像中提取的。 IDC 的检测结果为 1,98,738 例阴性,78,786 例阳性检测。
机器学习项目想法:建立一个可以对乳腺癌进行分类的模型。您使用卷积神经网络构建图像分类模型。
21.Youtube 8M数据集
YouTube 8M 数据集是一个大规模标记视频数据集,拥有 610 万个 YouTube 视频 ID、35 万小时的视频、26 亿个音频/视觉特征、3862 个类别以及每个视频 3 个平均标签。它用于视频分类目的。
数据链接:YouTube 8M
机器学习项目想法:利用数据集可以进行视频分类,模型可以描述视频的内容。视频需要一系列输入来对视频所属的类别进行分类。
尾注
在本文中,我们看到了 20 多个机器学习数据集,您可以使用它们来练习机器学习或数据科学。自己创建数据集的成本很高,因此我们可以使用其他人的数据集来完成我们的工作。但是我们应该仔细阅读数据集的文档,因为有些数据集是免费的,而对于某些数据集,你必须给予他们声明的所有者的信任。
简介: Shivashish Thaku 是一名分析师和技术内容作家。他是一个技术狂,喜欢撰写正在改变世界的最新尖端技术。他也是一名体育迷,喜欢踢球和看足球。
有关的: