《大数据原理与实践》第4次公开课：Application

本次课程讨论大数据方面的的应用，主要包括如下几个方面的内容：

大数据的典型应用领域
大数据与智慧城市
大数据与政府治理
大数据与人工智能
大数据与开放创新

首先来看一个关于“大”方面的例子。以前有个国王很高兴想奖赏他的宠臣，然后说让他来提任何奖励，这个大臣给国王看下面这个棋盘，是个8＊8的方格，如果我在每个标号的格子内放米粒，第一个格子放1粒米，后面的格子总是前面格子的两倍。那么问题来了，如果我把整个棋盘放满，需要多少米粒？我们学过级数的话，可以快速做个演算，它的推演是 1 + 2 + 4 ... + 2^63 ＝ 2^64 - 1 这个数字多大很多人没印象，反正如果真的要兑现的话，这个国家肯定是破产了。其实这个棋盘可以分成上下两半，在上一半总共需要的米粒是2^32, 这并不是个很大的数（4294967296），但下半场就完全不一样了，这是个平方级别增长的scale，宇宙中所有沙砾都标号也不需要这么大的数字。

大数据的发展很多时候已经超出了我们的想象。从微观层次看，大数据是在新一代信息基础设施支撑下，物理空间运动过程加速向网络空间映射的结果，表现为规模巨大、种类多样、内在关联的数据集，趋向于无限接近真实世界；从中观层次看，大数据是信息经济时代主要的生产要素，是改造“生产力”和“生产关系”的基础性力量，个人脚色、企业组织结构与战略、国家治理方式、国家之间竞争方式，将在数字空间中被重新构建；从宏观层次看，大数据是认识论的变革，大量对象从不可知到可知，从不确定到精确预测，从小样本近似到全样本把握，是认识世界和改造世界能力的升华。

要把大数据应用到我们的现实生活当中，一定要和具体的问题、具体的应用场景联系起来。莎士比亚有个名言：一切不以结婚为目的的谈恋爱都是耍流氓（不合理的）！杜撰过来就是：一切不谈具体应用场景的大数据都是耍流氓！因此，开发好大数据应用，我们需要把握好3R原则，即：Solve RIGHT problem（问题）、Build RIGHT team（人）和Use RIGHT tools（工具）。其中第一条最重要，它是方向性的。

我们首先“走马观花”式地看看大数据的部分应用场景。包括：

大数据医疗，看病更靠谱
大数据基因，揭示生命的奥秘
大数据金融，财源滚滚来
大数据零售，比自己更懂自己
大数据电商，精准营销法宝
大数据交通，平安畅行无阻
大数据体育，重塑竞技世界
大数据食品，餐桌上的安全
大数据舆情，请叫我上帝

接下来，我们具体从四个板块来看看大数据的应用。

首先是大数据与智慧城市。

随着我国城市化进程的不断推进，人口和资源迅速向城市集中，中国城市化比例已经超过了50%，是世界上城市人口最多的国家。城市化虽然提高了人们的生活水平，但同时也带来一系列的社会和环境问题。目前，各大城市普遍出现了以人口膨胀、交通拥堵、资源紧缺、环境恶化、生态破坏、事故频发等为特征的“城市病”。此外，中国城市的空间结构和社会环境尤为复杂，繁华的城市中心人口密度大、人员结构复杂、流动性大、犯罪率高，成为城市发展的不稳定因素，给城市管理和公共安全防护带来极大的困难。这些问题已成为制约城市健康、可持续发展的难题，如何妥善解决这些问题并提供更好的城市生活已经迫在眉睫。渐趋成熟的“智慧城市”理念为解决上述问题提供了思路，成为促进未来城市发展的新理论和实践。目前，智慧城市建设已经上升为国家战略，科学技术部、工业和信息化部、住房和城乡建设部、发展和改革委员会等多个部委纷纷制定了相关政策和方案推动智慧城市建设，至今已有近百个城市（区）在进行智慧城市建设试点。

智慧城市建立在数字城市基础之上，可以看作数字城市的高级形态，旨在将云计算、物联网以及数据挖掘等先进技术充分地运用到城市的各行各业，人类可以用一种更加精细和动态的方式管理生产和生活，达到“智慧”的状态。随着十多年来数字城市项目的开展，目前国内各大城市都构建了较好的城市信息化基础设施，给智慧城市建设提供了海量的城市大数据：在市民家庭方面，移动电话、有线电视、宽带网络基本普及；在政府层面，电子政务网络平台基本形成，对外提供信息公开和网上办事等功能，人口、交通、土地、房屋、企业、市政、地理等基础信息数据库不断完善；在医疗卫生领域，电子病历、健康档案开始试点；几十万甚至几千万个监控摄像头覆盖整个城市；电子商务不断发展壮大。通过各种传感设备可以实现人类对城市环境各种数据的获取，总的来说，城市大数据包含两方面的内容：一类是城市数字化（数字城市、数字交通、数字医疗、数字政务等）产生的物理实体感知数据，另一类是人类社会交往产生的社会感知数据（E-mail、微信、微博等）。这些数据从多个维度描述了城市现实物理环境和社会生活的方方面面，构成了一个与之平行的虚拟镜像。智慧城市的一个重要内涵就是通过数据关联、分析，提取知识和智能，挖掘其中蕴含的巨大价值，实现城市运行与管理的智能化。

微软亚洲研究院有个专门做智慧城市方面的专家叫郑宇，他和他的团队提出了一个“城市计算”（Urban computing）的框架，并在该框架下做了许多非常优秀的理论与实证方面的研究。城市计算的基本框架包括城市感知及数据捕获、数据管理、城市数据分析、服务提供四个环节。与自然语言分析和图像处理等“单数据单任务”系统相比，城市计算是一个“多数据多任务”的系统。城市计算中的任务涵盖改进城市规划、缓解交通拥堵、保护自然环境、减少能源消耗等等。而在一个任务中又需要同时用到多种数据。比如，在城市规划的设计过程中，我们需要同时参考道路结构、兴趣点分布、交通流等多种数据源。

大家可以从他们课题组的网页上找到非常多的学习材料：

https://www.microsoft.com/en-us/research/project/urban-computing/

第二个是大数据与政府治理。

正如《哈佛商业评论》所称，大数据本质上是“一场管理革命”。它不仅是一场技术变革，更意味着一场社会变革，而这种社会变革又伴随并呼唤着公共管理与公共服务领域的变革。

政府部门能够从大数据的使用中突出受益，是因为它在数据占有方面具有天然的优势。大数据的既是一种数据资源，也是一种数据技术，还是一种数据思维。只有先占有巨量的数据，才能从中挖掘出巨大的价值。首先，政府有专门的统计部门和干部队伍，例如，国家统计局会定期开展人口普查和经济调查，大多数部委都设有发展规划司，很多单位都设有发展规划处，而财政、交通和气象等部门其实也掌握了大量有关经济社会运行的数据；其次，政府工作关系着民生的方方面面，在日常行政过程中，也自然而然地积累了各类与社会生活息息相关的数据；最后，政府还可以根据需求，要求企业、事业单位、行业协会提供各种数据。

大数据可以帮助政府部门提高改革决策的科学性，把大数据技术与思维运用到管理与决策中，掌握决策依据、优化决策过程、跟踪决策实施。

一是“用数据说话”，为决策提供科学依据。数据是科学的基础，也是科学的度量标准。在大数据时代，政府决策应更多地基于科学的数据、分析和事实做出，基于对科学规律的把握。例如，纽约市警方开发了一款电子数据地图CompStat，通过分析案件与发薪日、体育赛事、天气变化和假日等变量的相关性，预测最可能发生罪案的“热点”地区，并预先在这些地区部署警力。应用这套系统后的次年，该市犯罪率就出现了明显的下降，凶杀案发生数量创下50年来最低。纽约的巨大成功很快引起美国司法部门的注意，开始在全国范围内推行数据驱动的管理方法，强调“数据和信息是执法工作中制定战略和决策的基础”。
二是智能辅助决策，大幅提高行政效率。大数据能够创造出复杂的人工智能，让计算机代替人类完成动态监测、语音咨询、即时翻译乃至医疗诊断、法律文书处理等专业任务。这种处理不仅是实时的、大批量的，更是科学的、精准的。例如，用红绿灯代替交警指挥节省了大量的人力成本，这是一种进步，但是还谈不上智能。人们常常会遇到这样一种情况，开车到达路口时碰巧指示灯变红了，即便对面没有车通过，也要无效率地等待。另外，人行横道的绿灯时间太短，威胁行人安全，也使社会对红绿灯设置的合理性产生了广泛的质疑。2013年，温州市主城区新增了172个自适应交通控制系统，根据各个路口的车流、人流大小自动调整红绿灯的等待时间，实现了对交通流的实时最佳配置和控制。
三是跟踪决策实施，持续改进公共管理与服务。大数据不仅能为政府提供决策产生机制，而且能根据实际需求和公众体验提供相应的决策信息反馈机制、决策调控纠偏机制。例如，哈佛大学和麻省理工学院的在线教育平台向全世界免费开放高质量的学习课程，为的就是让更多的学习者在上面学习、使用，这样它们就能搜集更多的数据，从而研究世界各国学习者的行为模式，使知识传播的形式不断优化、效率不断提高。任何错误都会在互联网上的千万双眼睛的关注下无所遁形，而教师之间、大学之间教学质量的差异变得高下立判。教育在我国本身就是一种公共服务，与传统的派驻专家组的方法相比，大数据对于学科建设、本科教学的改进而言也许有着更加积极的意义。大数据使得公共管理和服务变得可以监督、全过程监督、全员监督，为避免政绩工程和地方政府行为失范提供了一种可能。

大数据应用和服务已经在全世界范围内开花。在西班牙首都马德里，整合警察、消防、医疗系统，使救援时间大幅度缩短，巡逻队、消防车、救护车能够在8分钟内到达81%的突发事件现场；在新加坡，智能交通综合信息管理平台在预测交通流速和流量方面有高达85%的准确率，能通过有效的引导和干预，显著提升高峰时段的车辆通行效率；在苏州市，覆盖城乡的信息化防控网络，在警力与人口配比不足万分之十的情况下，使打击处理案件数、刑拘转捕率、技术支撑率均为全省最高，实现了“以十抵万”的办案效率。

总之，未来大数据将会从各个方面帮助政府实施高效和精细化管理。政府运作效率的提升，决策的科学客观，财政支出合理透明都将大大提升国家整体实力，成为国家竞争优势。大数据带给国家和社会的益处将会极大的想象空间。

第三个是大数据与人工智能

最近人工智能成为全球热门新闻话题，很多是因为大家看到AlphaGo在几个月前击败了李世石。智能要取代人虽然还是一个非常遥远的事情，但我们需要更关注的事情是人工智能是今天能够拿来用的工具，它能帮助人类解决问题，能取代重复性的工作，能创造商业价值。正因为这个理由，我们今天进入了人工智能的黄金时代。

今天很多的工作以后大部分都会消失，比如说翻译，虽然现在还不是做的那么完美，但是每年进步的都很快，再过几年人工的翻译可能就会非常难找到工作了。记者也同样如此，如今90%美联社的文章都是用机器来写的。几乎所有思考模式可以被理性推算的工作岗位，在有足够数据支撑的时候，都会被取代。

计算机之所以能战胜人类，是因为机器获得智能的方式和人类不同，它不是靠逻辑推理，而是靠大数据和智能算法。在数据方面，Google使用了几十万盘围棋高手之间对弈的数据来训练AlphaGo，这是它获得所谓的“智能”的原因。在计算方面，Google采用了上万台服务器来训练AlphaGo下棋的模型，并且让不同版本的AlphaGo相互对弈了上千万盘，这才保证它能做到“算无遗策”。下围棋这个看似智能型的问题，从本质上讲，是一个大数据和算法的问题。

AlphaGo无论是在训练模型时，还是在下棋时所采用的算法都是几十年前大家就已经知道的机器学习和博弈树搜索算法，Google所做的工作是让这些算法能够在上万台甚至上百万台服务器上并行运行，这就使得计算机解决智能问题的能力有了本质的提高。这些算法并非专门针对下棋而设计，其中很多已经在其他智能应用的领域（比如语音识别、机器翻译、图像识别和大数据医疗）获得了成功。AlphaGo成功的意义不仅在于它标志着机器智能的水平达到了一个新的台阶，还在于计算机可以解决更多的智能问题。今天，计算机已经开始完成很多过去必须用人的智力才能够完成的任务，比如：医疗诊断，阅读和处理文件，自动回答问题，撰写新闻稿，驾驶汽车，等等。可以讲，AlphaGo的获胜，宣告了机器智能时代的到来。

AlphaGo的获胜让一些不了解机器智能的人开始杞人忧天，担心机器在未来能够控制人类。这种担心是不必要的，因为AlphaGo的灵魂是计算机科学家和数据科学家为它编写的程序。机器不会控制人类，但是制造智能机器的人可以。而科技在人类进步中总是扮演着最活跃最革命的角色，它的发展是无法阻止的，我们能做的就是面对现实，抓住智能革命的机遇，而不是回避它、否定它和阻止它。未来的社会，属于那些具有创意的人，包括计算机科学家、数据科学家，而不属于掌握某种技能做重复性工作的人。

这方面，可以推荐一本书给大家：《智能时代：大数据与智能革命重新定义未》（吴军著）。这本书可以让大家更多地了解大数据的本质、它的作用、它和机器智能的关系、机器智能的原理和发展历程，以及它们对未来产业和社会的影响。

最后一个是大数据与开放创新。

谈到开放与创新，我们重新回顾下大数据的研究发展轨迹。

2012年前主要是关注数据和机器的关系，水平扩展、容错、一致性、软硬件协同设计，还有就是厘清各种计算模式，从批处理（MapReduce）到流处理、Big SQL/Ad hoc query、图计算和机器学习。

2013年开始看数据与人的关系，对于数据科学家怎么做好分布式机器学习、特征工程与非监督学习，对于领域专家来说怎么做好交互式分析工具，对于终端用户怎么做好交互式可视化工具。

2014年开始看数据和数据的关系。为什么要琢磨数据和数据的关系呢？前面大数据技术发展的重心是开源，后来发现开源只是开放式创新的一个部分，做大数据的开放式创新还要做数据的开放，大数据基础设施的开放，以及价值提取能力的开放。

这是一张非常有意思的图，黄色部分是化石级的、还没有联网、或者没有数字化的数据，而绝大多数的数据是在这么一个海里面。只有海平面的这些数据（有的把它称为Surface Web），才是真正大家能访问到的数据，爬虫能爬到、搜索引擎能检索的数据，而绝大多数的数据是在暗黑之海里面（相应地叫做Dark Web，据说占数据总量的85%以上），在一些孤岛里面，在一些企业躺在地板上睡大觉。

数据之于数据社会，就如同水之于城市或者血液之于身体。城市因为河流而诞生，也受其滋养，血液一旦流动停滞了，身体就有危险。所以，对于号称数据化生存的社会来说，我们一定要让数据流动起来，不然这个社会将会失去很多功能。

所以，我们希望数据能够像“金风玉露一相逢，便产生化学作用”。数据有个非常奇妙的效应叫做外部效应（Externality），比如这个数据对我没用但对他很有用，所谓“我之毒药，彼之蜜糖“。张家的数据和赵家的数据各自都没啥活性，一碰到一起就发生化学作用。一些数据跨行业融合的案例包括：

金融数据跟电商数据碰撞在一起，就产生了像小微贷款那样的互联网金融；
电信数据跟政府数据碰在一起，可以产生人口统计学方面的价值，帮助城市规划人们居住、工作、娱乐的场所；
金融数据跟医学数据碰在一起，麦肯锡列举了很多应用，比如说可以发现骗保；
物流数据和电商数据凑一块，可以了解各个经济子领域的运行情况；
物流数据跟金融数据放在一起，就产生了供应链金融；
金融数据跟农业数据也能够发生一些化学作用，Google analytics出来的几个人，利用美国开放气象数据，能够在每一块农田上面建立微气象模型，预测灾害，帮助农民保险和理赔。

所以，要走数据开放之路，让不同领域的数据真正流动起来、融合起来，才能释放大数据的价值。

先来看狭义的数据开放。数据开放的主体首先是政府和科研机构，把非涉密的政府数据，以及国家拿纳税人的钱做的一些科研数据开放出来。现在也有一些企业愿意开放数据，像Netflix、电信运营商、BAT等，来帮助他们的数据价值化，建构生态系统。

数据开放不等于信息公开。首先，数据不等于信息，信息是从数据里面提炼出来的东西。我们希望，首先要开放原始的数据（raw data）。其次，它是一种主动和免费的开放，我们现在经常听说要申请信息公开，那是被动的开放。

Tim Berners Lee提出了数据开放的五星标准，以保证数据质量：一星是开放授权的格式，比如说PDF；其次是结构化，把数据从文件变成了像Excel这样的表；三星是开放格式，如CSV；四星是能够通过URI找到每一个数据项；五星，能够跟其它数据链接，形成一个开放的数据图谱。

现在主流的数据开放门户，像data.dov或data.gov.uk，都基于开源软件。Data.gov用WordPress做数据内容呈现，用CKAN做数据目录，甚至data.gov自身也在github开源了。

广义的数据开放还有数据的共享及交易，比如点对点进行数据共享或在多边平台上做数据交易。

马克思说生产资料所有制是经济的基础，但是现在大家可以发现，生产资料的租赁制变成了一种主流，在数据的场景下，我不一定拥有数据，甚至不用整个数据集，但可以租赁。租赁的过程中要保证数据的权利。

首先，我可以做到数据给你用，但不可以给你看见。这就是典型的“可用但不可见”场景。在实际生活中的例子很多，例如：美国国土安全部有恐怖分子名单（数据1），航空公司有乘客飞行记录（数据2），国土安全部去问航空公司要乘客飞行记录，航空公司不给，因为隐私，他反过来问国土安全部要恐怖分子名单，也不行，因为是国家机密。双方都有发现恐怖分子的意愿，但都不愿意给出数据，有没有办法让数据1和数据2放一起扫一下，但又保障数据安全呢？

其次，在数据使用过程中要有审计。万一那个扫描程序偷偷把数据藏起来送回去怎么办？

再者，需要数据定价机制，双方数据的价值一定不对等，产生的洞察对各方的用途也不一样，因此要有个定价机制，比大锅饭式的数据共享更有激励性。

有不少研究可以解决上面说的这些问题，比如说可用而不可见。案例一是通过加密数据库。在数据拥有方甲方这边的数据库是完全加密的，这事实上也防止了现在出现的很多数据泄露问题，大家已经听到，比如说某互联网服务提供商的员工偷偷把数据拿出来卖，你的数据一旦加密了他拿出来也没用。其次，这个加密数据库可以运行乙方的普通SQL程序。因为它采用了同态加密技术和洋葱加密法，SQL的一些语义在密文上也可以执行。另一种可用但不可见的技术是多方安全计算技术。

而数据在公开市场交易该怎么定价的问题，目前则没有一个统一的答案。是根据市场价值发现机制来定价？还是根据数据的种类来定价？还是根据数据访问API的调用次数来定价？在点对点的时候，各方的数据对于智慧产生的贡献不一样，也需要定价。

另外就是个人数据也需要定价，大家知道现在个人数据几乎是免费的，我们为了获得互联网服务提供商的免费服务，把数据免费给了服务提供商。但是，现在国外对于小数据、对于个人数据有价，已经开始觉醒了。有国外初创公司开始愿意给消费者一部分钱，你把你的Facebook数据、Twitter数据、银行交易数据给这家公司，他来价值化（比如找广告商）。现在的定价很简单，比如，女性一个月14美金（女性的消费能力强啊），男性一个月8美金，未来该怎么定价也是个很有意思的话题。

除了数据的开放，进一步还有大数据基础设施的开放。

现在有的是有大数据思维的人，但他们很捉急，玩不起、玩不会大数据，他不懂怎么去存储、怎么处理这些大数据，这就需要云计算。如果说数据开放是Data as a Service，基础设施的开放还是传统的Platform as a Service，比如Amazon AWS里有MapReduce，Google有Big Query。这些大数据的基础处理和分析平台可以来降低数据思维者的门槛，来释放他们的创造力。

比如decide.com（被eBay收购），每天爬几十万的数据，对价格信息（结构化的和非结构化的）进行分析，然后告诉你买什么牌子、什么时候买最好。开始的时候只有四个PhD搞算法，其他的靠AWS。另一家公司Prismatic，也利用了AWS，这是一家做个性化阅读推荐的，最开始真正做技术的只有三个学生。

所以当这些基础设施社会化以后，大数据思维者的春天很快就要到来。

最后一种开放是价值提取能力的开放。比如，Kaggle，它提供了一个双边的平台，一边是10万多的分析师，另一边是需求方企业，企业在Kaggle上发标，分析师竞标，获得业务。这可能是解决长尾公司价值提取能力一个好办法。

Kaggle同时也是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据，统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。这一众包模式依赖于这一洞见：解决某一预测性问题的方法和策略有很多，究竟什么方法对某一特定问题是最为有效的呢？答案就是群众的力量。Kaggle的目标就是试图通过众包的形式来解决这一难题，进而促进数据科学的发展。关于Kaggle的具体内容，可以参看我们前面的一篇文章。

参考文献：

徐继华, 冯启娜, 陈贞汝, 智慧政府: 大数据治国时代的来临, 中信出版社, 2014.
吴甘沙, 大数据的开放式创新, 2014.
陈宝权, 程章林, 大数据与智慧城市, 2015.
吴军, 智能时代：大数据与智能革命重新定义未, 中信出版社, 2016.

注：如需该课件，可以在微信公众号中回复“大数据04”进行获取，欢迎订阅本公众号！

走马观花！