十个Kaggle项目带你入门数据分析

首页 > 科技 > 大数据 > 正文 2020-12-21

发表自话题:拍拍贷借了4万块钱没还

以下这些案例都是比较经典的数据分析项目,适合熟悉pandas、numpy和matplotlib库的数据分析爱好者。

1)纽约市Airbnb开放数据New York City Airbnb Open Data

2)电影数据集分析The Movies Dataset

3)电信客户流失问题Telco Customer Churn

4)贷款数据分析Lending Club Loan Data

5)比特币数据分析Bitcoin Historical Data

6)共享单车

7)酒店预订需求

8)电子游戏销售分析

9)US Accidents 美国交通事故分析(2016-2019)

10)预测模型——如何用python对今年的经济数据预测


1 New York City Airbnb OpenData纽约市Airbnb开放数据

实际因为找到了北京和上海的Airbnb数据,就没有继续分析纽约市的数据了,北京市的房源列举了30000多条,文件非常大,CSV足足有100M以上,主要有以下数据。

相关代码:

https://github.com/ShaoZC/Financial-report-ac-and-data-processing-with-Python/blob/master/AB_NYC_2019.ipynbgithub.com

数据来源:http://insideairbnb.com/get-the-data.html

阅读更多:python如何画出漂亮的地图?

类似项目:ysiwgtus:探索Airbnb数据 周贰毛:Airbnb(爱彼迎)产品数据分析 小嘿同学:Airbnb出租数据探索以及可视化 涛aaaa涛:Airbnb数据分析报告 阿姆斯特丹AB-和鲸社区 - Kesci.com 大叔22号:Airbnb房源分析—天池数据集 小嘿同学:Airbnb出租数据探索以及可视化 朝歌:北京airbnb民宿数据分析及可视化 yhh:Airbnb短租房源数据集分析 羊小高:Tableau-实现Airbnb数据运营分析可视化 卜贰:2019年 Airbnb 纽约订单数据集 EDA 小小猫依米:想成为Airbnb超赞房东?数据揭秘什么样的房子最受欢迎!(连载一) 斯基大人:Tableau——airbnb房源数据分析

数据增长模型 涛aaaa涛:Airbnb数据分析报告 jobmesboger:Airbnb产品数据分析(SQL&Tableau) 海胜同学:Airbnb产品分析报告 爆米花炒番茄:基于python的Airbnb销售渠道数据分析 jobmesboger:Airbnb产品数据分析(SQL&Tableau) 艾伦SJ:大数据之火爆全球的Airbnb

2 The Movies Dataset电影数据集分析

(貌似获取这些数据有点门槛)https://www.kaggle.com/rounakbanik/the-movies-dataset

数据替代方案可以点击这里和鲸社区 - Kesci.com

用途:多表关联、评分排序、收入分析、推荐引擎

这里是一些参考的资料:

曾露:Kaggle:电影数据分析朱文华:电影数据分析太湖刁民:数据分析实战02-探索电影数据集hanajya:像制作人一样思考——电影数据分析邓芊:数据可视化-电影数据分析默言:电影数据分析案例toyama123:电影数据分析项目韩籽:电影数据之推荐系统曾露:Kaggle:电影数据分析


3 Telco Customer Churn电信客户流失问题

数据:

https://www.kaggle.com/blastchar/telco-customer-churn 或者和鲸社区 - Kesci.com

用途:流失客户分析、客户终生价值LTV

详情可以点击:

yulang:电信运营商客户流失风险分析 yulang:电信运营商客户流失风险分析-另一篇

4 Lending Club Loan Data贷款数据分析

数据下载:

https://www.kaggle.com/wendykan/lending-club-loan-data或者和鲸社区 - Kesci.com

用途:金融小贷、逾期分析、逾期预测

我之前分析用的代码:

ShaoZC/_Risk_Management_in_Python

附一些案例分析

4.1. 拍拍贷互联网金融数据

果果的学习之路:P2P信贷数据分析和鲸社区 - Kesci.com 和鲸社区 - Kesci.comjolly2136:信贷风控常用指标的python实现今日冬至:数据分析:信贷数据分析报告

4.2. kaggle上的give me some credit数据集

Give Me Some Credit小叶子:基于Python的信用评分卡建模分析Carl:基于Python的信用评分卡模型分析Avenger:Kaggle项目:信用评分卡建模(一)未知:python之信贷数据分析蓝色:Python信用评分卡建模

4.3. 狗熊会在线实习项目相关资料

狗熊会 | 数据科学精品案例库夏商记:手把手教你建立信用卡申请评分模型(上篇)

5 Bitcoin Historical Data比特币数据分析

数据下载:

https://www.kaggle.com/mczielinski/bitcoin-historical-data或者和鲸社区 - Kesci.com

用途:时间戳、数据清洗、价格预测

6 共享单车

数据参见和鲸社区 - Kesci.com

需要通过不同时间和环境的数据,预测共享单车的需求分布。

我们可以看到2012年共享单车的租借数量比2011年是有明显提升的,一年中6-10月是租借的高峰期。租车数量随季节变化趋势大体是一致的,春天租车最少,冬天最多。

相关链接:https://www.kaggle.com/c/bike-sharing-demandCaiNiao:共享单车项目——数据可视化赡葡:kaggle 共享单车项目,排名前8%沫沫:数据可视化——基于Kaggle的共享单车项目【数据分析】Kaggle项目之共享单车数据分析(一)_人工智能_ccszbd的博客-CSDN博客

字段:

datetime:时间season:季节,1=春,2=夏,3=秋,4=冬holiday:节假日,0:否,1:是workingday:工作日,0:否,1:是weather:天气,1:晴天,2:阴天 ,3:小雨或小雪 ,4:恶劣天气(大雨、冰雹、暴风雨或者大雪)temp:实际温度,摄氏度atemp:体感温度,摄氏度humidity:湿度,相对湿度windspeed:风速casual:未注册用户租借数量registered:注册用户租借数量count:总租借数量

相关代码:

ShaoZC/Financial-report-ac-and-data-processing-with-Python

更多链接:

大祎:plotly 数据可视化——地图anne:共享单车的数据分析foremost:共享单车数据可视化分析报告(PPT)追风者G:数据可视化——共享单车案例端午:共享单车数据分析及可视化吴小剑:共享单车项目-数据分析篇随遇而安:共享单车数据分析-pythoncloverzxl/4root

7 Hotel booking demand酒店预订需求

数据下载:

Kaggle或者和鲸社区 - Kesci.com


该数据集包含城市酒店和度假酒店的预订信息,包括预订时间停留时间成人/儿童/婴儿人数以及可用停车位数量等信息。

适用场景:社会科学旅行酒店用户行为,不具有明显的行业标识,可进行常规用户行为分析

数据量:32列共12W数据量。

可以定义的问题

1)基本情况:城市酒店和假日酒店预订需求和入住率比较; 2)用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况; 3)一年中最佳预订酒店时间; 4)利用Logistic预测酒店预订。

以下为一年中入住的用户分布,可以看出年中是旺季,冬天只有元旦左右迎来一波高峰。

相关代码:

ShaoZC/Financial-report-ac-and-data-processing-with-Python

8 Video Game Sales电子游戏销售分析

数据下载

Kaggle或者和鲸社区 - Kesci.com

包含游戏名称类型发行时间、发布者以及在全球各地的销售额数据。

适用场景:电商游戏销售常规销售数据

数据量:11列共1.66W数据量。

可以定义的问题1)电子游戏市场分析:受欢迎的游戏、类型、发布平台、发行人等; 2)预测每年电子游戏销售额。 3)可视化应用:如何完整清晰地展示这个销售故事。

9 US Accidents 美国交通事故分析(2016-2019)

数据下载:

https://www.kaggle.com/sobhanmoosavi/us-accidents或者和鲸社区 - Kesci.com

覆盖全美49州的全国性交通事故数据集,时间跨度:2016.02-2019.12,包括事故严重程度事故开始结束时间事故地点天气温度湿度等数据。

适用场景:无明显行业标识,通用

数据量:49列共300W数据量。

可以定义的问题1)发生事故最多的州,什么时候容易发生事故; 2)影响事故严重程度的因素; 3)预测事故发生的地点; 4)可视化应用:讲述4年间美国发生事故的总体情况

感谢:如何自己找数据分析项目来做?

10 预测模型——如何用python对今年的经济数据预测

yulang:预测模型——如何用python对今年的经济数据预测zhuanlan.zhihu.com跳投哥:【NBA大数据】争夺激烈,究竟谁才是空砍群群主? 

工资数据可视化

Finding the Worst, Highest-Paid NBA Player, Ever

Using advanced NBA stats to rank player performance against pay.

The Worst, Highest-Paid NBA Player, Everpudding.cool

Source:Basketball Reference

顺便介绍一下这个网站,The Pudding explains ideas debated in culture with visual essays.,内容非常惊艳

流行音乐Are Pop Lyrics Getting More Repetitive? An Interactive Visualization of Every Line in Hamilton Are Men Singing Higher in Pop Music?体育The NBA Has a Defensive Three Seconds Problem文化 What Does the Path to Fame Look Like? A People Map of the US

这样的数据可视化交互网站是怎么做出来的?@洪日日 @Michelllsm

标签组:[大数据] [https] [数据分析] [python] [kaggle] [nba分析

上一篇提前还款,要交清一年总利息。

下一篇正规的借款平台都有哪些,哪些比较容易审核通过

相关阅读

相同话题文章

相关话题