所以奈飞从2007年,推出线上视频流媒体服务开始,就在打造自己的数据仓库系统,并陆续研发出了许多数据技术和工具,用来支持各种数据工程实务上的需求。
从内容绩效评估、观众理解分析、程序化发展战略等各方面,去推动整个数据工程的发展。
整个数据工程技术架构的核心原则,其实很简单,那就是要让常见需求更容易进行,而且可以兼顾到不同层级的定制化需求。
但这也就决定了,很多任务和工具,都需要由他们自己去开发。
要知道,数据工程技术架构中最典型的两大数据流程,就是批处理和流媒体处理。
这也是企业常见的两种数据流程。
但想要全靠自身去研发,那难度可就太高了,但是没有办法,这事儿从外面,还真就找不到现成的,所以也只能靠自力更生了。
而批处理流程有四大关键步骤:
第一步,是数据转换和逻辑汇集处理,这里会涉及到云储存、云计算和大数据;
第二步,在数据汇集整理后,还需要一套成熟的数据品质生态圈工具,在数据品质管控、单元数据异常检测,以及审核机制管理上,确保不会出现垃圾数据和错误分析;
第三步,则是任务调度和监控,这同样需要一个支持超大规模任务的工作流程调度平台,每天会执行高达7万个工作流程,累计超过50万个任务步骤;
最后,那就是数据管理了,这个反倒是最没有难度的一个……
而不管怎么样,奈飞最后都将其一一实现了,单凭这一点,人家就足够牛皮。
或许很多人有些理解不了,觉得这有啥了不起的。
举个简单的例子吧。
就拿微服务来说,这个很多公司其实都在搞,比如易贝、亚马逊、BAT啊啥的。
但在大规模生产级微服务领域做的最好的,奈飞绝对是舍我其谁的存在。
100s范围的微服务,1000s范围的日产变更,10000s范围的实例,1000000s范围的活跃客户量,1000000000s范围的量度……却只有10s范围的运维工程师。
而且没有自己的数据中心NOC。
这是什么概念,跨境界的层面跃迁啊好不好!
再比如那个开源的微服务技术栈的核心组件,这个很多人同样不怎么了解。
但大家只需要知道,后来的Pivotal,就是将这些开源的组件改头换面,再拼凑上配置中心、调用链监控等,就变成了Spring Cloud。
再后来,耳熟能详的Zuul网关、Eureka服务发现注册中心、Hystrix熔断限流、Archaius配置等组件,其实也是奈飞早在多年前,就开源出来的……
够牛皮了吧!
奈飞为什么多年以来,都代表着工程师和技术员最高的薪资待遇水准?
或许这就是人家最霸气、最有底气的一面了。
硅谷顶薪可不是开玩笑的。
要知道奈飞几年后,可是就给博士毕业生开出了30万美金年薪的。
而且,还是那种进去难,而留下来一般就不会跳槽的。
这其实就很说明一些问题了……
所以,杨振在某种程度上,就借鉴了奈飞的很多优点,对于本来应该属于奈飞的很多技术,自然也不会手软。
而这样一个加强版的嘉禾微视频平台,又有谁能拦得住它的崛起?