原文地址:http://www.mongodb.org/display/DOCS/Introduction
MongoDB不是在实验室中设计的,它来源于我们构建大规模、高实用性、健壮性系统的经验中。我们不是从头开始的,我们想要指出问题在哪里并且扭转局面。所以我考虑MongoDB的方法是,如果你使用MySql,并且想要从关系型数据库转到基于文档的数据库(MongoDB是基于文档的数据库——译者注),你就获得了大量优秀的特征:绑定文档提升了速度,易管理性,通过无模式数据库进行敏捷开发,更容易的水平括展性(因为连接不再重要)。关系型数据库有很多重要的东西:索引、动态查询和更新,等等。但是我们不需要更改很多。例如,在MongoDB中设计索引的方法应该和在MySql和Oracle中完全一样,你具有的是决定是否对绑定字段进行索引的权力。
– Eliot Horowitz,10创CTO和联合创始人
Why MongoDB?
面向文档
文档(对象)能很好地映射编程语言数据类型
绑定文档和数组降低了连接的需求
动态类型(无模式)便于模式演进
无连接和无多文档事务提高了性能和扩展性
高性能
无连接和绑定使得读写更快了
索引包括了绑定文档和数组的键的索引
可选的流写入(无需确认)
高可用性
备份服务器可以自动进行故障恢复
易扩展性
自动分片(通过服务器对数据自动分区)
读写被跨片分配
无连接和多文档事务使得分布式查询更方便快捷
最终一致的读可以通过备份服务器分配
富查询语言
大规模部署
1. 一个或多个分片,每个分片承载全部数据的一个分区(自动管理)。读和写被自动发送到合适的分片,每个分片都由一个备份集支持(备份集只承载该分片的数据)。
一个备份集就是一个或多个服务器,每个都承载着相同数据的拷贝。在任何时间,其中一个是主要集而其他都是次要集。若主要集失效则其中一个次要集自动变为主要集。所有的写入和一致读出都在主要集上,所有的最终一致读出都分配在次要集中。
2. 多个配置服务器,每个都承载着元数据的一个拷贝,用以表明哪些数据在哪个分片上。
3. 一个或多个路由器,每个都为一个或多个客户端充当一个服务器。客户端向路由器发送查询更新请求,路由器在查询配置服务器后将它们路由给合适的分片。
4.一个或多个客户端,每个都是用户应用(的一部分),并且通过mongo客户端库(驱动)自己的语言向路由器发送命令。
图中,mongod是服务器程序(数据或配置)。Mongos是路由器程序。
小规模部署
1. 一个备份集(自动故障恢复),或者一个服务器带有0个或多个从属机(不能自动故障恢复)
2. 一个或多个客户端作为一个整体或单一管理者向备份集发送命令。
Mongol数据模型
<!--[if !supportLists]-->· 一个Mongo系统(参考上面的部署)承载多个数据库(database)
<!--[if !supportLists]-->· 一个数据库承载多个集合(collection)
<!--[if !supportLists]-->· 一个集合承载多个文档document
<!--[if !supportLists]-->· 一个文档就是多个字段field
<!--[if !supportLists]-->· 一个字段就是一个键值对key/value
<!--[if !supportLists]-->· 一个键是一个字符串名称
<!--[if !supportLists]-->· 一个值是一个
<!--[if !supportLists]-->· 基本数据类型(string, integer, float, timestamp, binary, etc)
<!--[if !supportLists]-->· 文档
<!--[if !supportLists]-->· 值的数组
Mongo查询语言
想要从数据库集合(collection)中取回某些数据,你要提供一个查询到匹配你想要的字段的文档中。
例如,{name: {first: 'John', last: 'Doe'}}将匹配集合中所有名字是John Doe的文档。
类似地,{name.last: 'Doe'}将匹配所有姓是Doe的文档。
而且,{name.last: /^D/}会匹配姓是以D开始的文档(正则式匹配)。
查询也会匹配内部绑定的数组。例如,{keywords: 'storage'}会匹配关键字数组中有storage的文档。
类似地,{keywords: {$in: ['storage', 'DBMS']}} 将匹配关键字数组中有storage或者DBMS的文档。
如果你的集合中有大量文档,而你想要进行快速查询,那就为查询构建一个索引。
例如,ensureIndex({name.last: 1}) 或者ensureIndex({keywords: 1})。
注意,索引会占据空间并且降低更新效率,所以仅在值得折衷的时候使用吧。