http://archive.ics.uci.edu/ml/datasets.php
https://archive-beta.ics.uci.edu/ml/datasets
旧金山犯罪分类数据
Dates - 犯罪事件的时间
Category - 犯罪事件类别(要预测的目标变量)
Descript - 犯罪事件的详细描述(只在训练集上)不使用
DayOfWeek - 星期几
PdDistrict - 出警的警局名称
Resolution - 犯罪事件是如何解决的(只在训练集上)不使用
Address - 犯罪事件的大致街道地址
X - 经度
Y - 纬度
六个国家的FIFA(fifa是缩写,全称是Fédération Internationale de Football Association,就是国际足球联合会。)历史排名数据集:
Argentina (ARG), Brazil (BRA), Spain (ESP), France (FRA), Germany (GER), and Italy (ITA)。
1973年,统计学家F.J. Anscombe构造出了四组奇特的数据:测试线性回归及散点图
葡萄酒评论数据集
字段名 字段描述
country 葡萄酒产地(国家)
description 对酒的评语(气味味道外观感觉等)
designation 用于酿酒的葡萄产自哪个葡萄园
points WineEnthusiast(葡萄酒爱好者杂志)对葡萄酒的评分(1~100)
price 价格
province 葡萄酒产地(省/州)
region_1 葡萄种植区_1
region_2 葡萄种植区_2(有可能为空)
variety 用于酿酒的葡萄种类
winery 酿酒厂名
APP Store 数据
数据字段说明
id : App ID 每个App唯⼀一标识
track_name: App的名称
size_bytes: 以byte为单位的app⼤大⼩小
price:定价(美元)
rating_count_tot: App所有版本的⽤用户评分数量量
rating_count_ver: App当前版本的⽤用户评分数量量
prime_genre: App的类别
user_rating: App所有版本的⽤用户评分
sup_devices.num: ⽀支持的iOS设备数量量
ipadSc_urls.num: app提供的截屏展示数量量
lang.num ⽀支持的语⾔言数量量
Uniqlo销售数据
数据字段说明
Store_id ⻔门店随机id
City 城市
Channel 销售渠道 ⽹网购⾃自提 ⻔门店购买
gender_group 客户性别 男⼥女女
age_group 客户年年龄段
wkd_ind 购买发⽣生的时间(周末,周间)
Product 产品类别
customer 客户数量量
revenue 销售⾦金金额
Order 订单数量量
Quant 购买产品的数量量
unit_cost 成本(制作+运营)
链家租房数据:
['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更新时间', '看房人数','备
注', '链接地址']
['district', 'address', 'title', 'house_type', 'area', 'price', 'floor',
'build_time', 'direction', 'update_time', 'view_num', 'extra_info', 'link']
college.csv
列名:字段含义
INSTNM:大学名称
CITY:所在城市
STABBR:所在州简称
HBCU:历史上的黑人学员和大学
MENONLY:0/1:只有男学生
WOMENONLY:0/1:只有女学生
RELAFFIL:0/1:宗教信仰
SATVRMID:SAT考试:Verbal分数中位数
SATMTMID:SAT考试:数学分数中位数
DISTANCEONLY:只接受远程教育学生
UGDS:本科招生
UGDS_WHITE:本科生白人比例
UGDS_BLACK:本科生黑人比例
UGDS_HISP:本科生拉丁裔比例
UGDS_ASIAN:本科生亚裔比例
UGDS_AIAN:本科生美洲印第安人/阿拉斯加土著比例
UGDS_NHPI:本科生夏威夷/太平洋群岛土著比例
UGDS_2MOR:本科生混血比例
UGDS_NRA:本科生中留学生比例
UGDS_UNKN:本科生未知族裔比例
PPTUG_EF:非全日制学生比例
CURROPER:0/1:正在运营
PCTPELL:佩尔资助计划学生比例
PCTFLOAN:学费贷款学生比例
UG25ABV:年龄大于25岁的学生比例
MD_EARN_WNE_P10:入学10年后收入中位数
GRAD_DEBT_MDN_SUPP:毕业生债务中位数
泰坦尼克生存预测数据 titanic_train.csv:
PassengerId:乘客的ID
Survived:乘客是否获救,Key:0=没获救,1=已获救
Pclass:乘客船舱等级(1/2/3三个等级舱位)
Name:乘客姓名
Sex:性别
Age:年龄
SibSp:乘客在船上的兄弟姐妹/配偶数量
Parch:乘客在船上的父母/孩子数量
Ticket:船票号
Fare:船票价
Cabin:客舱号码
Embarked:登船的港口
小费:tips.csv
某餐厅服务员收集的顾客付小费的相关数据:
总账单 ,小费, 性别,是否吸烟,星期几,哪顿饭 ,人数
total_bill tip sex smoker day time size
movie.csv:
movie_title:电影标题
color:颜色
num_critic_for_reviews:评论的评分数量
movie_facebook_likes:电影facebook点赞数
duration:电影时长
director_name:导演名字
director_facebook_likes:导演facebook赞数
actor_3_name: 演员3的姓名
actor_3_facebook_likes: 演员3的facebook赞数
actor_2_name:演员2的姓名
actor_2_facebook_likes :演员2的姓名
actor_1_name`: 演员1的姓名
actor_1_facebook_likes:演员1的姓名
gross:票房收入
genres:体裁
num_voted_users:投票用户数
cast_total_facebook_likes:演员总的facebook赞数
facenumber_in_poster:海报中的人脸数量
plot_keywords:情节关键词
movie_imdb_link:电影imdb链接
num_user_for_reviews:评论的用户数
language:语言
country:国家
content_rating:内容评级
budget:成本
title_year:上线日期
imdb_score:imdb评分
aspect_ratio:电影宽高比
大型电影评论数据集(情感分析):http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
http://ai.stanford.edu/~amaas/data/sentiment/