财新传媒 财新传媒

阅读:0
听报道

 

文 | 曹培信
 
疫情蔓延全球,韩国是重灾区。
 
昨天,韩国疾控中心(KCDC,Korea Centers for Disease Control & Prevention)在Kaggle上更新了一个COVID-2019的全国病例数据集,共计5766个病例。
  
该数据集详细记录了韩国目前已经确诊的5766名病例的基本信息,以及自韩国首例确诊病例以来全国的数据增长情况。
 
数据由韩国疾控中心官方公布,目前在Kaggle上已有近5000次下载。
 
数据集地址:
https://www.kaggle.com/kimjihoo/coronavirusdataset
 
数据共分为三个部分:
一是病例的一些基本信息,包括编号、性别、国籍、地区、感染原因、接触人数、确诊时间、目前状态等;
二是病毒的传染路线,里面记录了1月19日以来各省市的首次发现确诊的地点,包括是在机场还是在餐馆,以及经纬度都进行了详细的记录;
三是韩国的1月20日以来韩国感染病例的增加情况,包括每天的确诊数量,疑似数量等。
 
目前,Kaggle上已经有三十多人对该数据进行了相关分析,主要是一些统计和可视化的工作。
 
比如一位名叫Vansh Jatana的印度学生就用Python进行一些分析。
  
项目地址:
https://www.kaggle.com/vanshjatana/analysis-on-coronavirus
 
首先是确诊数量随时间的变化,可以看到从2月22日开始,韩国的确诊数了开始暴增,迅速突破了1000.
            
而后是死亡病例的年龄分布情况,可以看出,死亡病例大多集中在40岁以上,呈正态分布。
 
 
结合性别来看,男性的死亡病例数量要大于女性。
       
 
根据地理信息,作者也绘制了一份韩国的疫情地图。
 
另外,作者还根据病例数据的增长情况进行了拟合,对未来的韩国疫情情况进行了预测。
   
 
数据集公开后,许多Kaggle的网友都对韩国疾控中心公开的数据集表示感谢,认为这有助于大家对疾病的了解,另外也有网友表示,可否进一步添加一些信息,比如患者是否有吸烟史等等。
 
 
韩国的疫情目前已经进入到了高速增长的时期,根据韩国政府6日通报,截止当地时间5日0时至6日0时,韩国新增518例新冠肺炎确诊病例,累计确诊6284例。韩国疾控中心官方表示,此数据集也将根据疫情情况每日进行更新。
 
 
话题:



0

推荐

大数据文摘

大数据文摘

448篇文章 1次访问 2年前更新

普及数据思维,传播数据文化

文章