阿里云大数据计算服务MaxCompute使用教程

MaxCompute简介

大数据计算服务(MaxCompute，原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型，能够更快速的解决用户海量数据计算问题，有效降低企业成本，并保障数据安全。MaxCompute主要服务于批量结构化数据的存储和计算，可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善，越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百GB、TB、乃至PB)级别。在分析海量数据场景下，由于单台服务器的处理能力限制，数据分析者通常采用分布式计算模式。但分布式的计算模型对数据分析人员提出了较高的要求，且不易维护。使用分布式模型，数据分析人员不仅需要了解业务需求，同时还需要熟悉底层计算模型。MaxCompute的目的是为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节，从而达到分析大数据的目的。MaxCompute已经在阿里巴巴集团内部得到大规模应用，例如：大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。

关于MaxCompute使用教程的详细信息：大数据计算服务MaxCompute使用教程

MaxCompute发展历程

从2009年9月阿里云成立，愿景就是做运算/分享数据第一平台；2010年4月，伴随阿里金融的贷款业务上线，ODPS正式投入生产运行，2012年建立统一数据平台，2013年具备超大规模海量数据处理能力，2014~2015年大数据平台开始日趋成熟，2016 MaxCompute 2.0的诞生，成立之初的愿景经过一步步努力逐步实现。

关键性里程碑

2010.04 ODPS正式投入生产运行。阿里金融的贷款业务上线稳定运行。

2013.05 ODPS公测。

2013.07 ODPS正式提供商业化服务，单集群规模5K台服务器多级群能力。

2016.09 ODPS正式更名为MaxCompute，并推出2.0，实现高性能，新功能，富生态。

MaxCompute组件介绍

数据通道：

TUNNEL：提供高并发的离线数据上传下载服务。用户可以使用Tunnel服务向MaxCompute批量上传或下载数据。MaxCompute Tunnel仅提供Java编程接口供用户使用。

计算及分析任务：

SQL ：MaxCompute只能以表的形式存储数据，并对外提供了SQL查询功能。用户可以将MaxCompute作为传统的数据库软件操作，但其却能处理TB、PB级别的海量数据。需要注意的是，MaxCompute SQL不支持事务、索引及Update/Delete等操作，同时MaxCompute的SQL语法与Oracle，MySQL有一定差别，用户无法将其他数据库中得SQL语句无缝迁移到MaxCompute上来。此外，在使用方式上，MaxCompute SQL最快可以在分钟，乃至秒级别完成查询，无法在毫秒级别返回用户结果。MaxCompute SQL的优点是对用户的学习成本低，用户不需要了解复杂的分布式计算概念。具备数据库操作经验的用户可以快速熟悉MaxCompute SQL的使用。

MapReduce ：MapReduce最早是由Google提出的分布式数据处理模型，随后受到了业内的广泛关注，并被大量应用到各种商业场景中。在本文档中，我们会对MapReduce模型做简要介绍，以便于用户快速熟悉、了解该模型。使用MaxCompute MapReduce的用户需要对分布式计算概念有基本了解，并有相对应的编程经验。MaxCompute MapReduce为用户提供Java编程接口。

Graph：MaxCompute提供的Graph功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模，图由点(Vertex)和边(Edge)组成，点和边包含权值(Value)。通过迭代对图进行编辑、演化，最终求解出结果，典型应用：PageRank，单源最短距离算法，K-均值聚类算法等等。

SDK：提供给开发者的工具包，SDK的相关介绍请参考 SDK介绍。

安全：MaxCompute提供了功能强大的安全服务，为用户的数据安全提供保护，详情请参考安全参考手册。

---------------------

作者：阿里云小百科

来源：CSDN

原文：

https://blog.csdn.net/weixin_40050195/article/details/85157821

阿里云大数据计算服务MaxCompute使用教程阿里云大数据计算服务MaxCompute使用教程

阿里云大数据计算服务MaxCompute使用教程

继续阅读

MySQL的4种隔离级别？出现问题

数据结构与算法（27）——排序（二）

XX系统实施过程问题总结

无组件上传图片到数据库中，最完整解决方案

【MySQL数据库】数据库索引事务1.索引2.事务

neo4j之cypher使用文档

Dijkstra--简易版（最短路径）

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

NOSQL安全攻击

mybatis_入门程序Mybatis入门

登录plsql 报错 the account is locked --用户被锁

sqlServer根据经纬查距离

SequoiaDB巨杉数据库C++驱动概述

win10本地scala和spark安装安装scala安装spark

hdu7108哈希