Uber全揭露：技术团队、反欺诈算法、数据分布◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

这可能是uber对其技术最集中最全面的一次介绍了。

在虎嗅主办的“下一步，uber们这样研发你的出行”沙龙活动中，uber cto thuan pham首次在中国揭秘uber技术。除了介绍了uber的技术本地化、数据分布、云存储进展、反欺诈算法、技术团队架构、地图数据检测等核心内容外，thuan pham无意中提及，他们很有可能会与百度云开展合作，一部分中国数据会迁移到百度云中。而之前uber在全球一直坚持自建数据中心。干货很多也很长，建议慢慢来读。

uber cto thuan pham

uber全球共有1200技术人员，一个小的团队为核心技术团队，负责app的稳定运营。其他的技术团队都是基于这个核心团队所做的架构进行补充。

uber旗下所有产品的执行都是用一个技术平台，但不同的城市团队会根据当地情况做一些调整。uber在9个城市中有技术团队，其中包括北京。那么，如果当地业务模式与核心技术流程产生冲突怎么办？那您得看下文了。

uber在全球共有四个数据中心，有两个在中国之外，有两个在中国之内。uber一直坚持自建数据中心，但这个现象似乎有些松动。thuan pham在现场爆了一个料，他们正在尝试与百度云合作。他的原话是：“如果在中国和百度合作用百度云，相当于加了十个数据中心。这十个数据中心是用来进行车辆调度服务，也就是说将车和乘客进行匹配的服务可以放在百度云上进行。”

uber试图用机器学习的方式来抓取欺诈模型，从而来反欺诈。

uber地图主要依赖自己的地图数据，但是也有特殊的情况，比如说在中国用百度地图，而在没有自己地图数据的地方会使用google map。

在活动现场，吴甘沙（原英特尔中国研究院院长、驭势科技ceo）、沈海寅（原360副总裁、智车优行ceo）也向观众分享了技术团队的管理理念以及大数据对未来出行的改造，对创业者或有启发。

uber的技术团队构成

thuan pham：uber技术团队已经从开始的40多人发展到了超过1200人。我们所谓的“核心”技术团队，是很小的一个团队，负责网站和app的构建，确保它们稳定运营。其他的工程团队都是基于这个核心团队所做的架构来补充的。

技术本土化

问题1：我们知道uber的产品很多，不同产品在后台技术、架构方面是一样的吗？或者说技术团队是一个吗？

thuan pham：所有产品的执行都是用一个技术平台，正因为此，我们的效率才非常高。对于工程师来说，如果你要调度一辆车到乘客那里去，其实我们不在乎车型是什么，是按照同一个公式来进行计算的。

但是从当地层面的角度来说，在重大市场上有专门的工程团队对产品进行定制化，以确保该产品能够因地制宜，从文化上契合这个市场。比如在一些城市会提供摩托车。这些不同的产品都是由当地的城市团队去决定的，但是技术还是uber的技术。

总的来说，一方面全球共有一个核心技术团队来服务，另外一方面是当地的团队可以去定制化。我们在全球9个市场中有技术团队，包括中国，有的时候在某个地方发现一些特殊的地方，所以在那里就可以单独成立一个办事处。

问题2：在产品上，uber做了哪些中国化改变？

thuan pham：从全球范围来说，在各个市场，uber的服务有很多共同点，比如整个app的外观设计、使用流程，以及乘客和司机的服务方式，在全球都是差不多的。

但是对于一个很重要的市场而言，我们会有专门的工程师团队，专门定制一些体验。比如中国是一个非常重要的市场，与全球其他市场相比，我们有很多的专门服务于中国市场的员工，在中国也设立了技术团队。具体一些中国化的改变，比如在中国用的是百度地图的技术。除此之外，我们还整合了支付宝支付，像这个支付体系是专门针对中国市场的，在全球是没有的。

问题3：如您所说，uber在每个国家、城市都有不同的业务模式，但uber核心又是一个统一的体系。那么各个地区不同的业务模式，会不会和核心流程产生冲突？是用技术手段改进冲突，还是去保持自己的统一性不会改变核心的东西？

thuan pham：没错，我们是要用技术的办法来解决这些问题。我不认为这是个矛盾，我认为这是互补。比方说你要看一颗树，树根是给所有的树枝提供营养。技术实际上跟树干一样，是基础的东西。我们的服务、储存平台，甚至于计算方法、调配方法、支付计算方法，这些都是核心服务，我觉得这属于树干的部分。一旦分到不同的城市中，我们的服务可能就要个性化、具体化，要符合当地的市场需求。

要随时看到同一套技术可不可以重复使用，从而提高技术利用效率。比方说在中国市场的支付体系很特殊，需要我们把支付的技术和当地的支付系统接轨。于是，在完成对接和匹配后，我们可以把这些技术推广到其他国家我们觉得这是一种巨大的工程上的挑战，并不是一个矛盾。

uber的数据分布（thuan pham爆料将和百度云合作）

问题1： uber在全球提供服务，如何考虑数据的分布和本地化问题？因为之前thuan pham先生在“连线”做了一个分享，好像uber从来没有用云服务，而是用了自己的数据中心、基础设施，是这样吗？如果是的话，能不能针对这个问题详细讲一下。

thuan pham：到至今为止，我们都是用自己的基础设施，而不是用云服务。但是现在在改变，我们要平衡需求，一方面从技术角度而言要跟进，另外一方面还要符合监管，不管在哪里营运都必须在当地法律框架之下营运。

举个例子，现在我们数据中心有两个在中国之外，有两个在中国之内，一共是四个数据中心。在中国所有的服务都是由设立在中国的数据中心提供的数据支持，所以数据在这里、服务也在这里，这是符合监管和法律要求的。

这个数据是非常隐私化的，对于乘客也是非常隐私化的，我们保持数据的安全性。

自己有一个数据中心的好处是，可以服务于很多的城市，这个是有成本效应的。而不是说去租一个云服务按小时付费，这个会更贵，所以我们用自己经营的方式。

未来会不会用云服务？其实我们已经在开始做了，一些特殊案例，我们可以使用云服务。因为这个速度会更快，而且服务会更可靠。

现在在中国有两个数据中心，如果在中国和百度合作用百度云，相当于加了十个数据中心。这十个数据中心是用来进行车辆调度服务，也就是说将车和乘客进行匹配的服务可以放在百度云上进行。会发生什么事情呢？由于有很多的云服务中心，一旦你打开手机的app，有一个数据中心可能离你的手机非常近，从网络速度上来说离你非常近，这样你就可以很快地得到叫车的响应服务。而不是说你在中国某个地方，一切都要通过北京的数据中心进行交付，这样就会很远。

在这样的例子上，使用当地的云服务因为延迟性低、成本低、速度快，我们的服务响应时间会更快。而且我们的乘客、车主都会更喜欢快速响应的服务。

如果有十到二十个小的数据中心在全中国遍布的话，如果任何一个数据中心出现故障的话，其他数据中心都可以进行接力把出现故障的数据中心转到其他数据中心上，这样就永远不会有数据中心受到影响，抗打击能力也非常强。我们的模型叫模型 “n+1+2”，n可以是一个很大的数字，现在要提供+1、+2额外的备份，让我们可以应对在未来某一个数据中心失败所带来的影响，而且成本不会太高。这样的话，既非常可靠，成本也低，速度非常快。这样的数据肯定是储存在我们中国国内的大数据中心之内，另外刚才说的遍布的十个云数据中心可以从主数据中心当中取。主要的数据中心是在中间的。

问题2：刚才讲到我们在世界上总共有四个数据中心，我们会遇到一个问题，怎么考虑全球去访问数据中心遇到时延的问题？每个数据中心的机器规模是多少？是在一万级别，还是在十万级别？

thuan pham：我也不能对数据中心的规模来进行回答，因为这是属于商业机密。但是我可以回答你前面的问题，就是怎么处理时延的问题。我早先讲到了，现在希望把我们的服务从自己的数据中心转移到嫁接云上，相当于在云上有很多小的数据中心。这样一来每个城市都可以有一个小数据中心离自己比较近，所以全世界可能会有好几百个数据中心在云上，这样的话速度会高、时延会比较低。

uber的反欺诈技术

thuan pham：反欺诈是非常有意思的工种。在任何电子商务平台上，包括uber和其他平台，只要是电子商务平台就会有欺诈，人性如此。

我们会使用各种不同的技术，包括大数据、机器学习、各种各样的公式、各种运算等等，依靠这些来抓取欺诈的模式，然后再训练机器学习和公式，让他们的反应速度更加快，更快地捕捉到欺诈行为的产生。我们希望在不久的将来假设某个特定的用户把自己的信用卡信息登记到系统的时候，就可以从中看到作弊方式。我们不会立刻把这个人屏蔽出去，但是会给他评一个很高的欺诈分。那我们的系统就会挑战这个人，来减少单个人欺诈的可能性。我们会让这种做法自动化，因为我们现在在全世界业务量非常大，不可能让人的团队来抓取欺诈者，只能让机器来做，所以需要训练机器和公式来自动捕捉欺诈的可能性。

我特别喜欢一个电影《少数派报告》可以从规律中预计这个人会不会犯罪，我们在uber的情况就是看这个人会不会欺诈。然后提出挑战，让他证明他的身份，以预先的方式来减少欺诈行为。也就是说我们就是把欺诈的门槛设得非常高，想欺诈的人就不会找uber来欺诈，这是我们长期以来通过技术采取的措施。

uber的地图数据

提问：我们都知道在中国，uber用的是百度地图服务。但是在世界其他地方是自己的地图服务，一些空白的路你们是怎么检测到的？有没有考虑把这些数据更新到地图库？

thuan pham：这个问题提得不错，我们的工程师们在提供服务的时候，是用不同的绘图技术。比方说在中国用百度地图，在其他的地方用我们自己的地图数据，当这个地方没有自己的数据时，我们用google map。

有的地图还没有画上新的路，所以有一些空白。但是我们的合作司机已经在这些路上跑来跑去，只要他们走这条路，这条信息就可以包括到数据里面去。所以我们的服务可能比map service更好。

在uber中所有的司机都有数据平台，会把所有数据输入平台到数据库里面，这样可以帮助司机更有效率地开车。做得越好，当然效率就越高，司机可以节省时间，而且跑的单也可以更多，所以技术可以大大改进大家的生活，可以把实时的数据马上输入到地图数据库里面。

uber造车进程

thuan pham：没错，我们已经开始这个工作了，我们有一个团队、有一些工程师已经着手做这个工作了。在未来到处都是无人驾驶车的时候，这样就不需要再买自己的车了，车的利用率、使用率也会非常高。

我们要展望这种未来，而且要参与未来，如果可以把成本削减这么多，也可以提供这种便捷服务，我们当然非常喜欢这种前景。

技术预算

thuan pham：刚才关于预算，提出来要一个预算数字。我在这里不能说很详细的数据，我的职责是带领技术团队，不是财务总监，只能说工程师团队大概是公司的20%。

还有两个管理和趋势的问题，你可能也感兴趣~

如何管理跨国技术团队？

thuan pham：赋予不同国家的技术团队，同样重要的地位

我们的挑战并不是多国的问题，因为聪明的人就是聪明的人，有聪明的人是非常有动力的，这些人都是非常相近的。

我们面临的最大问题是怎么样把在不同时区的人协调起来，充分给予他们独立自主去开创的权利。我们需要要保证每一个团队都有很高的自治能力，换句话说，所有的团队都是平等的，他们都有自己的责任。不管是中国的技术团队，还是哪里的团队，都有和在旧金山总部一样重要、一样高效、一样平等的地位，这就是本地化有自治、自由的精神。因为非常聪明的人都有共同点，就是想创造一个东西，赋予他这种自由使他可以在这个领域中做得非常好、非常出色，这是一个共识。

吴甘沙（原英特尔中国研究院院长、驭势科技ceo）：放权给员工

我在英特尔待了16年，跨国公司的文化应该是了然于心。但是一直到最近两年我才意识到，很多文化并不是最好的。最近两年接触多很多新的文化，比如google的文化，像netflix，甚至一年休几天假让员工自己定，公司不规定，你爱休几天就休几天。包括最近比较火的合弄制，这都是新的文化。

我觉得一个公司好的管理、好的文化，其实就像一个自然的生态系统，就像一个珊瑚礁。珊瑚礁事实上是生命最旺盛的一个生命群体，里面可能有上千万种生物，他们能够保持生态系统的多样性，然后能够使得珊瑚礁的规模不断扩大。

这里面能够学到几个东西，一个是你一定要赋能或赋权。其实传统的大公司里面的很多员工，你给我一个工作，我就给你做，没事的时候就等着。而真正赋权或真正当作合伙人的事，他在想如何把自己变得更好、把公司做得更好，帮别人做到更好，这一定会使整个公司的效率更高。传统上在大公司里面一个人的潜力发挥了50%，在这样的公司一个人的潜力会发挥百分之百，赋权非常重要。

第二个，要鼓励冒险，能够鼓励试错。我觉得一家创新公司最明显的特征，就是能够非常低成本的试错。就像我们生物当中，生物的创新来自于什么？来自于突变，在不断复制当中产生了突变，于是有了创新。

第三个，激励还是重要的。做得好的人，你一定奖励到超出他自己的预期。做得不好的人，一分钱都没有，这种激励我觉得也是非常重要的。

如果有赋权，然后能够让他们不断地去试错和冒险，同时又有好的激励机制，我想这个公司的文化和管理一定是非常有生命力。

大数据对出行领域会有怎样的改造？

沈海寅（原360副总裁、智车优行ceo）：极大得丰富数据

车能够在背后反应出来的数据，其实是非常巨大的，你用这个数据其实是可以做很多事情的。

第一点，有些数据是用手机去取得的，比如说gps、当地的天气。但是有些数据是取不到的，必须通过车的方式来获取，比如路面本身的平稳状态、局部天气情况，甚至包括pm2.5、局部温度或湿度的信息。虽然我也不知道这些数据在今天能够产生多大的效应，但是未来在这些数据上有很多东西可以做的。

第二点是更加密集的数据，不再局限于简单测量的量，我们可以通过摄像头、视频、传感器可以探测到的数据。还有在车上为了自动驾驶也会有雷达，包括像未来的激光雷达，这些数据也都会可以给新的服务提供非常好的支撑。

吴甘沙：见微、知著

在智能行驶和未来的智能出行当中有很多大数据的应用，如果能够把200万辆出租车调度得非常好，让人想用车的时候马上就来车，让他能够保证我自己剩余的电量是能够服务好哪一个人，这里面是需要有大量的大数据分析。即使在现在做的智能驾车里面也是有大量的大数据。

大数据有两个基本的功能，分别是见微、知著。见微是了解个性化的需求，知著是在群体层面、宏观层面能够了解一些规律。

现在用人工智能去开车，这个事情其实是需要大量数据的处理。我们说人工智能跟人有什么区别呢？人在驾校学几十个小时，上路开几百公里，就可以开得很好了。我只需要一点点数据，能够举一反三，能够触类旁通，关键时候还能容错。现在机器学习还没有那么聪明，需要大量的数据去学习，没有见过的不会处理。

反过来，人一年可能只能开一万公里，而且越开到后面技能的提升就越少了，而且会的开车的记忆也没有办法转给其他人。但是人工智能不一样，如果装了一万台车，每台车一年开一万公里，那人工智能就学到了一万乘一万，等于一亿公里。在大量数据的训练之下就会开得越来越好、越来越聪明这就是大数据知著。但同时又是见微，我们是不是对每个人都有同样的一种最好的开车方式吗？未必。我们每个人驾驶行为不一样，每个人对安全距离的判断，每个人去刹车或加速的习惯不一样，每个人换道的激进程度不一样。我们不希望人坐在自动驾驶车里面是战战兢兢的，或者是好像我现在坐在副驾驶上面的感觉。大家说现在夫妻吵架，其中重要的原因是坐在副驾驶上面觉得另外一位开车怎么开得那么烂。

我们是希望自动驾驶对机器的操控，跟特定的个人对机器的操控是趋向于一致的，这样坐在里面会非常舒服，这就是见微了。我是觉得大数据在这些里面有大量的应用。

原文发布时间为：2016-03-11

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“bigdatadigest”微信公众号

Uber全揭露：技术团队、反欺诈算法、数据分布◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆◆ ◆ ◆

继续阅读

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

C++ 第十五周报告1--《冒泡法排序》

浅谈企业活动中进行数据分析的重要性

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark

hdu7108哈希