h2o.ai项目简介
参考h2o.ai官网中给出的项目定位是“open source platform for AI”。相较于当前市面上的机器学习平台,h2o.ai的优势在于:
- 上乘的开源技术:h2o.ai是基于Java的开源项目,并可以无缝对接Apache hadoop,Spark等优秀的开源项目,为使用者在面临各种数据分析挑战时提供了多种灵活的解决方案
- 直观方便使用的WebUI以及丰富的API接口:h2o.ai提供了基于web的工作流图形化界面,此外丰富的API接口为R, Python, Java, Scala, JSON等多种编程环境提供支持。
- 支持多种数据源和数据格式:除了可对Microsoft Excel, R Studio, Tableau等来源的大数据提供了便捷的数据建模和分析方式,也支持HDFS, S3, 传统SQL数据库及多种NoSQL数据库的数据源。
- 大规模可扩展的大数据分析:得益于h2o.ai内部封装的基于内存的快速并发计算框架。
- 实时数据评分:支持训练模型导出成POJO和MOJO(model-optimized Java objects),从而支持在任何环境中快速部署并对新数据提供快速预测评分。
Gartner魔力象限对2016-2017年度数据分析平台的评测如下:
由此可见h2o.ai项目是比较有发展前景的。
h2o.ai整体架构
官方文档给出的架构图如下:
【说明】以上是h2o.ai的核心框架h2oai/h2o-3项目的整体架构。目前的h2o.ai体系扩展了h2oai/deepwater项目整合了其核心框架h2o-3和多种深度学习平台的对接。deepwater的整体架构如下
h2o.ai源码目录
参考资料
(1)h2o.ai官网:https://www.h2o.ai/
(2)h2o.ai官方文档:http://docs.h2o.ai/h2o/latest-stable/index.html
(3)h2o.ai源码github:https://github.com/h2oai/h2o-3