天天看点

mongoDB入门

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。

在这里我们有必要先简单介绍一下非关系型数据库(NoSQL)

 NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系型数据库的数据库管理系统的统称。 NoSQL用于超大规模数据的存储。(例如谷歌或Facebook每天为他们的用户收集万亿比特的数据)。这些类型的数据存储不需要固定的模式,无需多余操作就可以横向扩展。

RDBMS 

NoSQL 

高度组织化结构化数据 

代表着不仅仅是SQL

结构化查询语言(SQL) 

没有声明性查询语言

数据和关系都存储在单独的表中。 

没有预定义的模式

数据操纵语言,数据定义语言 

键 - 值对存储,列存储,文档存储,图形数据库

严格的一致性

最终一致性,而非ACID属性

基础事务

非结构化和不可预知的数据

 

CAP定理 

高性能,高可用性和可伸缩性

类型

部分代表

特点

列存储

Hbase

Cassandra

Hypertable

顾名思义,是按照列存储数据的。最大的特点是方便存储结构化和半结

构化的数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势

文档存储

MongoDB

CounchDB

文档存储一般用类似json的格式存储,存储的内容是文档型的。这样也就有有机

会对某些字段建立索引,实现关系数据库的某些功能。

key-value存储

Tokyo Cabinet / Tyrant

Berkelery DB

MemcacheDB

Redis

可以通过key快速查询到其value。一般来说,存储不管value的格式,

照单全收。(Redis包含了其他功能)

图存储

Neo4J

FlockDB

图形关系的最佳存储。使用传统关系数据库来解决的话性能低下,

而且设计使用不方便。

对象存储

db4o

Versant

通过类似面向对象语言的语法操作数据库,通过对象的方式存储数据。

xml数据库

Berkeley DB XML

BaseX

高效的存储XML数据,并存储XML的内部查询语法,比如XQuery,Xpath。

在计算机科学中, CAP定理(CAP theorem), 又被称作 布鲁尔定理(Brewer's theorem), 它指出对于一个分布式计算系统来说,不可能同时满足以下三点:

一致性(Consistency) (所有节点在同一时间具有相同的数据)

可用性(Availability) (保证每个请求不管成功或者失败都有响应)

分隔容忍(Partition tolerance) (系统中任意信息的丢失或失败不会影响系统的继续运作)

CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。 因此,根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三 大类: CA - 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。 CP - 满足一致性,分区容忍必的系统,通常性能不是特别高。 AP - 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。

MongoDB的基础单元——文档

文档是MongoDB的核心概念。多个键值对有序的放置在一起便是文档。

Js代码:

说明:文档是有序的,键是区分大小写的

集合

集合就是一组文档。

集合是无模式的,即:一个集合中的文档可以是各式各样的例如:

集合代码:

 数据库

MongoDB中多个集合组成数据库。一个MongoDB实例可以承载多个数据库,它们之间可视为完全独立的。每个数据库有自己的权限控制

mongoDB入门

对于习惯了关系型数据库的朋友们,我将MongoDB与关系型数据库的逻辑结构进行了对比。

关系型数据库

文档(document)

行(row)

集合(collection)

表(table)

数据库(database)

 null

布尔

32位整数

64位整数

64位浮点数

字符串

对象id

日期

正则表达式

函数

二进制数据

可以由任意字节的串组成

最大值

最小值

未定义

数组

内嵌文档

 Mongodb中存储的文档必须有一个“_id”键。这个键的值可以是任何类型的,默认是ObjectId对象。在集合中,每个文档都有唯一的“_id”,来确保集合里面每个文档都能被唯一标示。

一个BSON ObjectID是12字节的值,包含了4字节的时间戳(纪元以来的秒数),3字节机器id,2字节进程id,和3字节计数值。注意不同于BSON中的其他字段,时间戳和计数值字段必须存储为big endian。这是由于会对它们按字节比较,我们希望大多数情况下保证是升序。它的格式:

1

2

3

4

5

6

7

8

9

10

11

time

machine

pid

inc

当神已无能为力,那便是魔渡众生