TLab教材专著
交通大数据:理论与方法
数据集更新
针对部分读者反映的无法及时获取分析数据的相关事宜,本书为了方便读者的使用,将数据集分别命名为DATASET-A以及DATASET-B。其中DATASET-A是2016年11月1日至2016年11月30日的网约车原始轨迹数据,读者可以访问滴滴盖亚数据开放计划,选择“2016年11月成都市二环局部区域轨迹数据”进行下载。DATASET-B是在原始轨迹数据基础上,进行网格化和特征提取后的衍生数据,读者可以访问GitHub网址获取数据处理代码:
https://github.com/Tlab-seu/traffic-big-data-theory-and-applications
同时,对于无法顺利获取数据的读者,为了帮助大家进行各类算例的实践操作,编者又进一步利用随机数生成了一套数据集,命名为DATASET-C。包含DATASET-C-A.csv和DATASET-C-B.csv,可以分别替代DATASET-A和DATASET-B进行本书涉及的各项操作。随机生成的数据集与书中的数据标签严格对应,可以充分满足学习要求。该数据可从以下百度网盘链接获取:https://pan.baidu.com/share/init?surl=merYPcw29NwZekq5Fj5ciA(提取码为 tlab)。
提升部分表述的解释性
为了方便读者理解与整理,书稿进一步规范了相关概念的表述、图表描述以及代码注释。如在绪论中给出了5V特性的定义:大量(Volume)、高速(Velocity)、多样(Variety)、真实(Veracity)、和低密度价值(Value)。在介绍原始数据中可能包含缺失和谬误的信息时引入误差的概念等。
提升部分内容的科学性
集众多专家与读者的智慧,重印版本对有歧义或错误的内容进行了修改,如在第4章中将“条形图通常用于展示不同分类下对应的某个数值”的表述替换为“条形图通常用于展示不同分类下各个类别的某个统计特征”,以提升书稿相关内容的科学性。
提升部分关键词的拓展性
本书作为通识类教材,目的是让读者迅速掌握机器学习的基础知识,并将所学知识融会贯通,解决交通领域的重要问题。书稿重印版在此基础上对数据处理思想进行了延申。如数据重采样给出了可利用有放回采样(bootstrap)的拥堵应用情景。我们希望本书不仅提供机器学习基础知识,更能让读者感受交通大数据的学习乐趣,进而鼓励读者主动去寻找更多的相关内容。
教学赠书
为了进一步推动书稿的质量,支撑大数据教学的需要,编者将免费为授课教师赠书,请授课教师发邮件到 zhiyuanl@seu.edu.cn 联系,谢谢。
欢·迎·大·家·阅·读·分·享