一个月前, Open Power 高峰论坛之后,IBM Systems Open Power 总经理 Ken King 在媒体交流会上向记者们再度特别强调了 Power9 架构的优势。总之,在性能上,与 X86 比起,就劣他说道“吊打”二字了。
一定程度上,这数据处理能力上的大幅度提高有关,而 Zilliz 这家看起来不怎么起眼的数据库公司是“诗能者”之一,它牵头IBM 公布的是国内首台 GPU 硬件加速 OLAP 数据库一体机 MEGAWISE。这对 Power9 的性能究竟有多大程度的提高呢?Zilliz 创始人星爵(本名谢超)当时给了一组数据:利用 GPU 的高并发性,数据处理的性能比较 CPU 架构提升了 100 倍,同时,硬件成本减少了 10 倍,数据中心的运维、能耗成本大约减少 20 倍。
这些数据的背后就是 Zilliz 的价值所在,它从星爵很慢的语速中完结,记者们看起来或许还没有反应过来。但更加让他们深感困惑的也许是他说道的第一句话:基于 GPU 硬件加速的新一代 OLAP 数据库不会是一项全新的颠覆性技术。归根结底,算力过于这个时代归属于人工智能,但也别忘了作为其最重要基石的大数据。放眼望去,各行业无论是冲刷的历史数据,还是于是以生产量的数据正在显得愈发繁杂,那些享有数据的企业期望有更佳数据分析服务来调整、掌控自身的业务。
但现有的处置方案,比如,基于 Hadoop 的技术虽然成本低,但分析速度无法符合企业市场需求,而有些收集数据的处置还具备一定时效性。总体而言,数据库处置主要面对这两大瓶颈:一是数据计算速度,这与处理器涉及,处理器就越强劲,算力越少,处置就越慢;二是数据访问速度,数据要从磁盘加载,然后并转到内存转入处理器展开分析。这两大问题在数据库发展中仍然是此消彼长的不存在,交错妨碍着彼此的发展。
比如,通过水平拓展可以减少更加多处理器,但这不会减少数据访问速度。而后来经常出现的 A6,SSD 固态硬盘把数据访问速度提升了一个数量级,但处置架构被迫作出转变,就像数据仍然是放到固态硬盘,而是在内存里。这样问题来了,由于内存比固态硬盘又多了一个数量级的访问速度,那一旦得出更加多数据,CPU 计算能力又跟上了。于是,又不能到处理器那里做文章,以此陷于新一轮你上我下的死循环之中。
这是当时在 Oracle 做到数据库的星爵仍然所思维的问题。身处在世界上顶尖数据库专家云集的系统里,他对这个产业的理解仍然只是木村明确的技术细节,而是重返那些基础问题。
为什么数据库发展不会减慢?为什么大数据有这种 Hadoop 的方案经常出现?为什么数据分析不有可能跟上数据产生量?归根到底,星爵告诉他,这些都是因为数据库处置系统的算力过于。数据库的indexes 减缓了数据采访、分析的速度,它本质上是用空间来换时间,那如果有一个算力慢 1 万倍的 CPU 不会会更佳呢?他想起,特了 indexes 之后数据有可能只遗 1TB,而现在有可能要存 1.5TB 甚至 2TB 的数据。但这样,数据改版的同时也必须改版索引来确保数据一致性,这不会造成放入改版数据的分析速度也不会减慢,而算法也将显得更加简单。
这又是另一个死胡同,跑出这个思维困境,一个大胆假设是索性不要 indexes 了可以吗?上世纪 80 年代以后,indexes 就被视作数据库的标配,但实质上,就像电池宝被看作是手机的“标配”一样,星爵指出,只不过就是算力过于,“够的话,indexes 或许就不必须了”。2012 年,In-Memory Database 系统的经常出现也解决问题了一些问题,但他毫无疑问这能展开高维压制——有 GPU 处理器的智能手机对功能手机就是高维压制。此路不通,他在找寻新的能让数据库有所革新的机会。“公里/小时降本”,高维压制基于 GPU 加快的数据库研究最先于 2006 年就开始了,当时主要是在 GPU 上做到数据库处置算法。
随后,数据库处置算法在大大扩展和优化中,与之涉及的话题在每年的 SIGMOD、VLDB 和 ICDE 三大国际顶级数据库会议上被业内人士展开探究,但直到 2013 年,深度自学的兴起将 GPU 市场普及度推上了高潮。基于 GPU 这个新的硬件平台的天然优势,人们对它的理解仍然是不务正业的游戏机,而是可以沦为 CPU 一样的服务器芯片。更加最重要的是,以英伟达的 CUDA 为代表的 GPU 生态也辟了一起,研发门槛随之减少。“这应当就是高维压制的临界点”,星爵实在,他仍然找寻的能让数据库从常态到异化的革新再一召来了。
于是,2015 年下半年,在谢超所在的小组已完成 Oracle 12c 的多租户数据库的研发后,是时候离开了这个早已服役 6 年的地方了。在Oracle的那些年,他经历了最初的项目立项到功能分析、需求分析,设计等整个流程。值得一提的是,2013 年,星爵所在的小组研发出有了 Oracle 12c 第一版,“c”即代表“cloud(云计算)”,这是 Oracle 首个“为云而生”的数据库,它奠下了未来 Oracle 数据库发展的战略方向。
不过,这家全球仅次于的数据库巨头打算在云计算市场发力,正是在他硕士毕业转入 Oracle 的第一年,这比 Amazon 在 2005 年第一次明确提出研发云计算平台晚了整整四年。也不该,Oracle CEO Larry Ellison 当时对云计算显然男子汉不上,甚至指出那是一个可笑的概念。与前老板的态度有所不同,星爵要去逃跑做到 GPU 数据库的机会了,他忠诚指出这与数据库巨头们竞争时能冲破差距。
因为 GPU 的经常出现,让数据获取速度与数据处理速度超过了平衡态。甚至,由于 GPU 处置能力在近几年以数十倍速度大大提高,这又近超于数据供给的速度,同时基于像 IBM 的 NVLink 这种高速网络技术,特别是在 Power9 服务器用于的 NVLink 2.0,让 GPU 与 CPU 之间可以创建三个地下通道,每个地下通道的速度提升到了 25G,这让 GPU 采访内存的速度有了相当大提高,而老输掉英特尔并没解决问题数据采访比特率的问题。对类似于 Power 系列韧一体机而言,基本市场需求点就是由软件造就硬件的销售,所以在他显然,IBM 在用于了 Zilliz 的数据库软件之后,也不会增进其硬件的销量。
数据分析速度问题就解决问题了,接下来就看能无法降低成本。星爵告诉他(公众号:),Power9 一体机每套约 90 万元,而像 Oracle 的 Exadata 服务器成本则在几十万美元到上百万美元之间平均,这么一比,前者是占优势的。
还有更加最重要的先前确保和能耗成本。以前,在数据库中心挂上服务器要占有半个机房,现在有可能必须一台服务器就已足够,而节省了数据库中心的空间,后期运维、能耗也大自然随之减少。除了配备在 X86、Power 这样的韧一体机上,Zilliz 的 GPU 数据库软件也被互联网、金融、政府等行业应用于,他们正在自由选择一些头部客户去做到 POC,把数据库系统部署在它们的生产环境,以解决问题技术落地问题。
他们今年预计不会服务 30-50 家客户。他也寄予厚望云端的 SaaS 数据库方案,指出这在未来有相当大的茁壮空间,现在他们的客户就有 AWS、腾讯云、阿里云等云厂商。
沦为下一个 Oracle 的机会市场还正处于早期阶段。Zilliz 目前是中国唯一一家做到 GPU 数据库的创业公司,其它获得大额融资的还有三家,其中两家在硅谷,一家在以色列。这四家公司在 OLAP 数据库市场的年收入特一起不过 2000 万美元左右。
不过,根据 Gartner 的统计数据,在 2017 年,OLAP 数据库是约是 183 亿美元的市场,到 2020 年,预计不会超过 228 亿美元。这个领域不会有沦为下一个 Oracle 或者安卓的机会,星爵这样指出。一个问题是,既然这个市场空间的想象力这么大,巨头们怎么会不会坐视不理吗?理论上谈,像英伟达和 IBM 这样的巨头既然有硬件,那凭借这样的优势,它们插手基于 GPU 数据库软件大自然也不怪异。
况且,在数据库领域还有 Oracle 盘据一方,那 Zilliz 这样的创业公司能有多大的机会?再行从技术层面看,数据库作为底层系统软件,它的管理制度门槛不较低,但对于做到传统的基于 CPU 数据库的 Oracle 来说,它一旦自由选择转换到以 GPU 为核心这个数据库上,必须从硬件到软件还包括存储、优化、继续执行到整个数据管理和调度上,基本都要新的载入,而不只是变更一些兼容性内容。这个过程看起来不那么精彩。“它不看起来手机 APP,甚至是 ERP 或者 CRM。
”星爵对说明,这就只不过微软公司虽然在 PC 操作系统上遨游了几十年,但在手机这个硬件平台上的竞争力完全忽略不计,“完全是一个推倒重来的过程。”换回个角度来看,即便巨头们虽然有能力转入,它们的共性在于响应速度不会较慢很多。另一方面,从商业角度来说,如果巨头做到 GPU 数据库软件,那必然也不会冲击现有的业务线。
比如 Oracle现在买得最差的是 Exadata,这还是 2010 年把 SUN 并购以后研发而出的。那在它投放了数十亿美元的产品线,甚至还没有赚回成本时,它的目标应当是售出更好的 Exadata,如果改向 GPU 服务器它不会十分谨慎。所以可以看见,近年来巨头们的策略自由选择也开始有所改变,一般都是先守寄居自己擅长于的硬件,然后在软件上找适当的合作伙伴加盟开放平台,仍然执着大包大揽。IBM 正式成立的 Open Power 基金会就是如此。
因此,星爵毫无疑问 GPU 数据库这条路上他们不会与 Oracle 们迅速碰头。创业公司机动性要更加强劲,但并不意味著 Zilliz 闯进一个新兴领域不会比巨头们更容易很多。
公司发展战略、商务扩展、市场销售等方面是CEO星爵在这两年里面对的挑战,并且在未来几年也许还将持续下去。一些挑战让这个团队在这两年里回头了弯路。
最纠葛的还是对产品化的辨别,初期如何在产品与市场找到无缝贴近点让他们无法权衡,“最开始要相容,你无法说道几乎做到一个跟现在市场上所有(系统)都去相容。选哪家做到相容本身也没是非,但有可能要看最后是不是能投票决定最有价值的客户,这有可能要做到大量的工作。”针对有所不同方案对应做到数据库,他们迅速就作出了产品,但随着系统激增,这种作法让以后在技术上做到拓展不会更为简单。
他们现在更加期望提炼出其中的共性,然后作出统一的方案去相容多个系统,即使研发工程进度不会适当减慢。对于 OLAP 数据库软件来说,只不过本质上做的就是一个平台,“ERP、CRM 各种企业级软件都是创建在数据库之上的。”在星爵显然,新一代数据库技术就是需要做把各行业的大数据几乎活用一起,还包括那些正在病死的数据。
为了这个目标,Zilliz 正在减缓市场的扩展,他们早已与还包括英伟达、IBM、伟创在内的渠道商、系统统合商展开合作。传销特渠道销售是现在的策略,这种方式让 Zilliz 既有了硬件合作伙伴,后者也出了自己的渠道商,那头部客户创建关系也不会更为高效,但如果自辟一个销售团队,效率不一定跟得上。换句话说,他们今年的焦点将偏向产品落地,顾及技术与产品研发,下半年,他们也不会月在 FPGA 上做到数据库的场景化研发。
“我是一定要创业的”现在正好是 Zilliz 正式成立两周年,回看当初离开了 Oracle 的要求,星爵的问很极力:没任何犹豫不决。因为在那里下班的第一天开始,他就是为创业去累积经验的——很早以前他就确认自己一定是要创业的。他说道自己本质上较为讨厌去执着冒险、探寻不得而知空间。创业这件事是充满著了不得而知,但自由选择的领域显然又是他所擅长于的。
在威斯康星大学麦迪逊分校修读计算机科学硕士学位时,他专攻的就是数据库,而后无论是在 Oracle 还是现在,所做到的事都一脉相承。他把硅谷文化也搬了 Zilliz,“公司基本上是硅谷极客范儿”。工程师身份让他更有了一批“臭味相投”的人才重新加入,他期望重新加入的早期员工有一个联合理念:为了做到热衷且有意义的事情回头到一起,偷偷地把钱赚到了。在团队内部,他尊崇个人英雄主义,期望每个人都能独当一面,这也说明了他为什么要选“星爵”——《银河护卫队》中保卫国家银河系的英雄——作为自己的花名。
星爵在宇宙中探寻,却不告诉下个目的地,而他也亲吻创业中的不确定性。“这个过程中有挑战那也是进账,这就早已充足了,”他之后说道,“就算告终了,那也不会沦为下一个你去探寻的起点。
”有一丝骑士堂·吉诃德的意味,在宇宙中四处飘荡的星爵在他眼里也挺告终的。“但如果人生都可以预见,就较少了很多体验。”他补足道。录:题图源于 Behance,作者 Ilya Tselyutin原创文章,予以许可禁令刊登。
下文闻刊登须知。
本文来源:杏彩体育官网-www.brivates.com