首页
>教学工作>资源下载

常见数据集字段说明

发布日期:2022-10-21信息来源:计算中心访问次数:字号:[ ]

http://archive.ics.uci.edu/ml/datasets.php

https://archive-beta.ics.uci.edu/ml/datasets


旧金山犯罪分类数据

Dates -  犯罪事件的时间 

Category - 犯罪事件类别(要预测的目标变量)

Descript - 犯罪事件的详细描述(只在训练集上)不使用

DayOfWeek - 星期几

PdDistrict - 出警的警局名称

Resolution - 犯罪事件是如何解决的(只在训练集上)不使用

Address - 犯罪事件的大致街道地址

X - 经度

Y - 纬度


六个国家的FIFA(fifa是缩写,全称是Fédération Internationale de Football Association,就是国际足球联合会。)历史排名数据集

Argentina (ARG), Brazil (BRA), Spain (ESP), France (FRA), Germany (GER), and Italy (ITA)。

fifa.rar

1973年,统计学家F.J. Anscombe构造出了四组奇特的数据:测试线性回归及散点图

anscombe.zip

葡萄酒评论数据集

字段名    字段描述

country   葡萄酒产地(国家)

description     对酒的评语(气味味道外观感觉等)

designation    用于酿酒的葡萄产自哪个葡萄园

points     WineEnthusiast(葡萄酒爱好者杂志)对葡萄酒的评分(1~100)

price       价格

province 葡萄酒产地(省/州)

region_1 葡萄种植区_1

region_2 葡萄种植区_2(有可能为空)

variety    用于酿酒的葡萄种类

winery    酿酒厂名

winemag-data_first150k.rar

APP Store 数据

数据字段说明

id : App ID 每个App唯⼀一标识

track_name: App的名称

size_bytes: 以byte为单位的app⼤大⼩小

price:定价(美元)

rating_count_tot: App所有版本的⽤用户评分数量

rating_count_ver: App当前版本的⽤用户评分数量

prime_genre: App的类别

user_rating: App所有版本的⽤用户评分

sup_devices.num: ⽀支持的iOS设备数量

ipadSc_urls.num: app提供的截屏展示数量

lang.num ⽀支持的语⾔言数量

applestore.rar


Uniqlo销售数据

数据字段说明

Store_id ⻔门店随机id

City 城市

Channel 销售渠道 ⽹网购⾃自提 ⻔门店购买

gender_group 客户性别 男⼥女

age_group 客户年龄段

wkd_ind 购买发⽣生的时间(周末,周间)

Product 产品类别

customer 客户数量

revenue 销售⾦金

Order 订单数量

Quant 购买产品的数量

unit_cost 成本(制作+运营)

uniqlo.rar


链家租房数据:

['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更新时间', '看房人数','备

注', '链接地址']

['district', 'address', 'title', 'house_type', 'area', 'price', 'floor',

'build_time', 'direction', 'update_time', 'view_num', 'extra_info', 'link']

LJdata.rar

college.csv

列名:字段含义

INSTNM:大学名称

CITY:所在城市

STABBR:所在州简称

HBCU:历史上的黑人学员和大学

MENONLY:0/1:只有男学生

WOMENONLY:0/1:只有女学生

RELAFFIL:0/1:宗教信仰

SATVRMID:SAT考试:Verbal分数中位数

SATMTMID:SAT考试:数学分数中位数

DISTANCEONLY:只接受远程教育学生

UGDS:本科招生

UGDS_WHITE:本科生白人比例

UGDS_BLACK:本科生黑人比例

UGDS_HISP:本科生拉丁裔比例

UGDS_ASIAN:本科生亚裔比例

UGDS_AIAN:本科生美洲印第安人/阿拉斯加土著比例

UGDS_NHPI:本科生夏威夷/太平洋群岛土著比例

UGDS_2MOR:本科生混血比例

UGDS_NRA:本科生中留学生比例

UGDS_UNKN:本科生未知族裔比例

PPTUG_EF:非全日制学生比例

CURROPER:0/1:正在运营

PCTPELL:佩尔资助计划学生比例

PCTFLOAN:学费贷款学生比例

UG25ABV:年龄大于25岁的学生比例

MD_EARN_WNE_P10:入学10年后收入中位数

GRAD_DEBT_MDN_SUPP:毕业生债务中位数

college.rar

泰坦尼克生存预测数据 titanic_train.csv:

PassengerId:乘客的ID

Survived:乘客是否获救,Key:0=没获救,1=已获救

Pclass:乘客船舱等级(1/2/3三个等级舱位)

Name:乘客姓名

Sex:性别

Age:年龄

SibSp:乘客在船上的兄弟姐妹/配偶数量

Parch:乘客在船上的父母/孩子数量

Ticket:船票号

Fare:船票价

Cabin:客舱号码

Embarked:登船的港口

 titanic.rar

小费:tips.csv

某餐厅服务员收集的顾客付小费的相关数据:

总账单   ,小费, 性别,是否吸烟,星期几,哪顿饭 ,人数

 total_bill   tip     sex smoker   day    time  size

tips.rar

movie.csv:

movie_title:电影标题

color:颜色

num_critic_for_reviews:评论的评分数量

movie_facebook_likes:电影facebook点赞数

duration:电影时长

director_name:导演名字

director_facebook_likes:导演facebook赞数

actor_3_name: 演员3的姓名

actor_3_facebook_likes: 演员3的facebook赞数

actor_2_name:演员2的姓名

actor_2_facebook_likes :演员2的姓名

actor_1_name`: 演员1的姓名

actor_1_facebook_likes:演员1的姓名

gross:票房收入

genres:体裁

num_voted_users:投票用户数

cast_total_facebook_likes:演员总的facebook赞数

facenumber_in_poster:海报中的人脸数量

plot_keywords:情节关键词

movie_imdb_link:电影imdb链接

num_user_for_reviews:评论的用户数

language:语言

country:国家

content_rating:内容评级

budget:成本

title_year:上线日期

imdb_score:imdb评分

aspect_ratio:电影宽高比

movie.zip

大型电影评论数据集(情感分析):http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz

http://ai.stanford.edu/~amaas/data/sentiment/

Learning Word Vectors for Sentiment Analysis.pdf