【文件存储NAS】数据迁移工具介绍及使用指南一、简介二、使用方法

文件存储nas是面向阿里云ecs、hpc、docker等计算节点的共享文件存储服务，具备简单易用、多共享、高性能、安全等特性，目前支持nfsv3和nfsv4协议。nas的推出极大丰富了阿里云存储产品线，为用户存储上云提供了更加多样的选择。

与其他存储产品（主要是对象存储和块存储）及自建nas相比，阿里云文件存储nas具备鲜明的特点：

文件存储nas

对象存储（如oss、七牛、s3等）

块存储（如阿里云磁盘、aws ebs等）

自己搭建nas

标准协议（标准nfs协议、标准nfs客户端、兼容posix接口）

yes

通过ossfs等工具提供有限支持

多共享（同一文件系统/名字空间被多个计算节点同时读写访问）

不支持共享

高性能（高吞吐、低延迟、水平弹性扩展）

延迟较高，随机读写性能较差

低延迟，吞吐无法水平扩展

性能没有保证，无法水平扩展

高可靠、高可用、安全

无法保证

为了满足数据迁移需求，让用户更加方便、快捷地将数据迁移到文件存储nas，我们于近期推出了nas数据迁移工具nasimport，nasimport具备以下功能特性：

（1）支持的数据源：本地磁盘、oss、七牛、百度对象存储、金山对象存储、又拍云、亚马逊 s3、腾讯云 cos、http链接；

（2）支持存量数据同步（允许指定只同步某个时间点之后的文件）；

（3）支持增量数据自动同步；

（4）支持断点续传；

（5）支持并行数据下载和上传。

程序运行前请检查进程允许打开的文件数的配置(ulimit -n 查看），如果小于10240，需要作相应修改。

示例：创建 /root/ms 目录为工作目录，且工具包下载在该工作目录下：

建议您直接使用配置默认值。如有特殊要求，可以编辑配置字段值:

字段

说明

workingdir

表示当前的工作目录，即工具包解压后所在的目录

slavetaskthreadnum

表示同时执行同步的工作线程数

slavemaxthroughput(kb/s)

slaveabortwhenuncatchedexception

表示遇到未知错误时是否跳过还是 abort，默认不 abort

dispatcherthreadnum

表示分发任务的并行线程数，默认值一般够用

请注意：相关的 log 文件会自动生成在您执行启动服务的当前目录中，建议您在工作目录（$work_dir）下执行启动命令。启动任务时如果 skip_exist_file=true，则在上传中如果碰到 nas 文件系统中上存在且长度和源端一致的文件，将会跳过此文件

任务描述文件字段说明：

字段名

jobname

自定义任务名字，任务的唯一标识，支持提交多个名字不同的任务

jobtype

可以配置为 import(执行数据同步操作)或者 audit（仅进行同步源数据与同步目标数据全局一致性校验)

isincremental=false

是否打开自动增量模式，如果设为 true，会每间隔incrementalmodeinterval(单位秒)重新扫描一次增量数据，并将增量数据同步到nas上

incrementalmodeinterval=86400

增量模式下的同步间隔

importsince

指定时间，用于同步大于该时间的数据，这个时间为 unix 时间戳（秒数）；默认为0

srctype

同步源类型，目前支持 oss,qiniu,baidu,ks3,youpai,local

srcaccesskey

如果 srctype设置为 oss、qiniu、baidu、ks3、youpai，则需要填写数据源的 access key

srcsecretkey

如果 srctype 设置为 oss、qiniu、baidu、ks3、youpai，则需要填写数据源的 secret key

srcdomain

源 endpoint

srcbucket

源 bucket 名字

srcprefix

源前缀，默认为空；如果 srctype=local，则填写本地待同步目录，请注意您需要填写完整的目录路径(以’/‘结尾)。如果 srctype 设置为 oss、qiniu、baidu、ks3、youpai，则需要填写待同步的 object 前缀，同步所有文件前缀可以设置为空。

desttype

同步目标类型（默认为 nas）

destmountdir

nas 本地挂载目录

destmounttarget

nas 挂载点域名

destneedmount=true

工具是否执行自动挂载，默认为 true，您也可以选择false并手动将nas挂载点到 destmountdir 目录下

destprefix

填写同步目标端文件前缀，默认为空

taskobjectcountlimit

每个子任务最大的文件个数限制，这个会影响到任务执行的并行度，一般配置为总的文件数/你配置的下载线程数,如果不知道总文件数，建议保持默认值

taskobjectsizelimit

每个子任务下载的数据量大小限制(bytes)，建议保持默认值

scanthreadcount

并行扫描文件的线程数，与扫描文件的效率有关，建议保持默认值

maxmultithreadscandepth

最大允许并行扫描目录的深度，建议保持默认值

请注意：

（1）如果配置了自动增量模式，则任务会定期被执行以扫描最新的数据，该任务永远不会结束。

（2）对于 srctype 为 youpai 的情况，由于又拍云本身 api 限制，list 文件的操作无法实现 checkpoint，在 list 完成之前杀掉进程会导致重新 list 所有文件的操作。

注意事项：

（1）如果有同名任务正在执行，则提交任务会失败。

（2）如果您需要暂停同步任务，您可以停止 nasimport 进程，需要同步时重启 nasimport 进程即可，重启后会按照上次的进度继续上传。

（3）如果您需要重新全量同步文件，您可以先停止 nasimport 进程，再调用如下命令清除当前任务。示例：假设当前任务名为 nas_job（这个任务名配置在文件 nas_job.cfg 中），命令如下：

这里会显示当前任务的总体的执行进度，并且会显示当前正在执行的 task 进度。例如上文中：“26378979/26378979”表示：总共需要上传的数据量(26378979字节)/已经上传完成的数据量(26378979字节)。“1/1” 表示：总共需要上传的文件个数(1个)/已经上传完成的文件个数(1个)。

迁移工具会将用户提交的一个 job 任务分解为多个 task 并行执行，当所有的 task 都执行完成之后，job 任务才算执行完成。任务执行完成之后，jobstate 会显示为”succeed”或者”failed”，表示任务执行成功或者失败。如果任务执行失败，可以通过如下命令查看各个task失败的原因：（以下命令中 $jobname 需要替换成对应的 job 名字，jobname 配置在文件 nas_job.cfg中）

对于任务失败的情况，我们在工具中已经做了较为充分的重试，对于可能由于数据源或者目标源暂时不可用引起的失败情况，可以通过如下命令尝试重新执行失败的任务：

（1）任务配置出错，比如 access key/id 出错，权限不足等，这种情况下通常现象是所有task都失败，具体确认需要查看 $work_dir/nasimport.log 文件。

（2）源文件名的编码方式与系统默认的文件名编码方式不符，例如在 windows 下文件名默认为 gbk 编码，linux 下默认为 utf-8 编码，对于数据源是 nfs 的情况下较容易出现该问题。

（3）上传过程中源目录的文件发生了修改，这种情况在 audit.log 里会提示size_not_match 相关字样的错误，这种情况下老的文件已经上传成功，新的修改没有上传到nas。

（4）源文件在上传过程中被删除，导致下载文件时失败。

（5）数据源出现问题导致下载数据源文件失败。

（6）没有先杀掉进程再执行 clean 有可能会导致程序执行异常。

（7）程序异常退出，任务状态为 abort，这种情况请联系我们（请加旺旺群：1562614356 ）。

在配置迁移服务时，如果源端是 oss，请将 srcdomain 设为带 internal 的内网域名，可以省掉从 oss 源端下载的流量费，仅收取 oss 访问次数的费用，且可以获得更快的迁移速度，oss 内网域名您可以从 oss 控制台获取。

【文件存储NAS】数据迁移工具介绍及使用指南一、简介二、使用方法

继续阅读

关于Gradle配置的小结

Java小案例——随机数猜测随机数猜测

nginx location中斜线的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

Effective Java 8:通用程序设计

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method