《交通大数据：理论与方法》第2次印刷版本介绍

作者：发布时间：2021-11-16浏览次数：290

TLab教材专著

交通大数据：理论与方法

2021年2月，《交通大数据：理论与方法》初版亮相。书籍定位为通识教材，理论知识由浅入深，并配合交通行业的特色案例，致力于帮助交通工程专业背景的初学者迅速、深入掌握各类大数据分析的工具与方法。

半年来，我们与书稿共同成长，编者在东南大学交通学院开设的“交通大数据”大二年级本科生课，以及“数据分析与建模”研究生学位课程中进行相关内容的授课，并在课件、课堂代码练习、课程作业、学生算法比赛等方面都与本书的内容进行深度关联。基于交通大数据本科课程的教学与实践经验，以及广大读者、授课老师和同学的使用情况反馈，我们围绕书稿内容与形式不断进行更深入的思考、修改与延伸。本文将对《交通大数据：理论与方法》重印版本的修改内容进行详细介绍，以飨读者。

数据集更新

针对部分读者反映的无法及时获取分析数据的相关事宜，本书为了方便读者的使用，将数据集分别命名为DATASET-A以及DATASET-B。其中DATASET-A是2016年11月1日至2016年11月30日的网约车原始轨迹数据，读者可以访问滴滴盖亚数据开放计划，选择“2016年11月成都市二环局部区域轨迹数据”进行下载。DATASET-B是在原始轨迹数据基础上，进行网格化和特征提取后的衍生数据，读者可以访问GitHub网址获取数据处理代码：

https://github.com/Tlab-seu/traffic-big-data-theory-and-applications

同时，对于无法顺利获取数据的读者，为了帮助大家进行各类算例的实践操作，编者又进一步利用随机数生成了一套数据集，命名为DATASET-C。包含DATASET-C-A.csv和DATASET-C-B.csv，可以分别替代DATASET-A和DATASET-B进行本书涉及的各项操作。随机生成的数据集与书中的数据标签严格对应，可以充分满足学习要求。该数据可从以下百度网盘链接获取：https://pan.baidu.com/share/init?surl=merYPcw29NwZekq5Fj5ciA（提取码为 tlab）。

提升部分表述的解释性

为了方便读者理解与整理，书稿进一步规范了相关概念的表述、图表描述以及代码注释。如在绪论中给出了5V特性的定义：大量（Volume）、高速（Velocity）、多样（Variety）、真实（Veracity）、和低密度价值（Value）。在介绍原始数据中可能包含缺失和谬误的信息时引入误差的概念等。

提升部分内容的科学性

集众多专家与读者的智慧，重印版本对有歧义或错误的内容进行了修改，如在第4章中将“条形图通常用于展示不同分类下对应的某个数值”的表述替换为“条形图通常用于展示不同分类下各个类别的某个统计特征”，以提升书稿相关内容的科学性。

提升部分关键词的拓展性

本书作为通识类教材，目的是让读者迅速掌握机器学习的基础知识，并将所学知识融会贯通，解决交通领域的重要问题。书稿重印版在此基础上对数据处理思想进行了延申。如数据重采样给出了可利用有放回采样（bootstrap）的拥堵应用情景。我们希望本书不仅提供机器学习基础知识，更能让读者感受交通大数据的学习乐趣，进而鼓励读者主动去寻找更多的相关内容。

教学赠书

为了进一步推动书稿的质量，支撑大数据教学的需要，编者将免费为授课教师赠书，请授课教师发邮件到 zhiyuanl@seu.edu.cn 联系，谢谢。

欢·迎·大·家·阅·读·分·享