在 Linux 上运行 ZFS

本演示使用了 ZFS-FUSE。FUSE 是一种机制,允许您在没有内核代码(除 FUSE 内核模块和现有的文件系统代码以外)情况下在用户空间中实现文件系统。该模块为用户和文件系统实现提供从内核文件系统接口到用户空间的桥梁。首先,安装 ZFS-FUSE 包(下面的演示针对 Ubuntu)。

安装 ZFS-FUSE

安装 ZFS-FUSE 很简单,尤其是在使用 apt 的 Ubuntu 上。下面的命令行安装了您开始使用 ZFS-FUSE 所需的一切:

$ sudo apt-get install zfs-fuse

此命令行安装 ZFS-FUSE 和所有其他依赖包( 我的也需要 libaiol),为新的程序包执行必要的设置并启动 zfs-fuse 守护进程。

使用 ZFS-FUSE

在此演示中,您使用环回设备以便在主机操作系统内将磁盘仿真为文件。要开始此操作,请通过 dd 实用程序(参见清单 1)创建这些文件(使用 /dev/zero 作为源)。在创建了四个磁盘映像之后,使用 losetup 将磁盘映像与环路设备关联在一起。

清单 1. 使用 ZFS-FUSE 的设置
$ mkdir zfstest
$ cd zfstest
$ dd if=/dev/zero of=disk1.img bs=64M count=1
1+0 records in
1+0 records out
67108864 bytes (67 MB) copied, 1.235 s, 54.3 MB/s
$ dd if=/dev/zero of=disk2.img bs=64M count=1
1+0 records in
1+0 records out
67108864 bytes (67 MB) copied, 0.531909 s, 126 MB/s
$ dd if=/dev/zero of=disk3.img bs=64M count=1
1+0 records in
1+0 records out
67108864 bytes (67 MB) copied, 0.680588 s, 98.6 MB/s
$ dd if=/dev/zero of=disk4.img bs=64M count=1
1+0 records in
1+0 records out
67108864 bytes (67 MB) copied, 0.429055 s, 156 MB/s
$ ls
disk1.img  disk2.img  disk3.img  disk4.img
$ sudo losetup /dev/loop0 ./disk1.img 
$ sudo losetup /dev/loop1 ./disk2.img 
$ sudo losetup /dev/loop2 ./disk3.img 
$ sudo losetup /dev/loop3 ./disk4.img 
$

有了四台设备作为您的 ZFS 块设备(总大小 256MB),使用 zpool 命令来创建您的池。您可以使用 zpool 命令来管理 ZFS 存储池,不过您将看到,您可以将其用于各种其他目的。下面的命令要求通过四个设备创建 ZFS 存储池并通过 RAID-Z 提供数据保护。在此命令后为一个列表请求,以便提供您池中的数据(参见清单 2)。

清单 2. 创建 ZFS 池
$ sudo zpool create myzpool raidz /dev/loop0 /dev/loop1 /dev/loop2 /dev/loop3
$ sudo zfs list
NAME      USED  AVAIL  REFER  MOUNTPOINT
myzpool  96.5K   146M  31.4K  /myzpool
$

您还可以研究池的一些属性,如清单 3 所示,其代表默认值。对于其他事项,您可以查看可用容量和已使用的部分。(为了简洁,此代码已经被压缩。)

清单 3. 查看存储池的属性
$ sudo zfs get all myzpool
NAME     PROPERTY              VALUE                  SOURCE
myzpool  type                  filesystem             -
myzpool  creation              Sat Nov 13 22:43 2010  -
myzpool  used                  96.5K                  -
myzpool  available             146M                   -
myzpool  referenced            31.4K                  -
myzpool  compressratio         1.00x                  -
myzpool  mounted               yes                    -
myzpool  quota                 none                   default
myzpool  reservation           none                   default
myzpool  recordsize            128K                   default
myzpool  mountpoint            /myzpool               default
myzpool  sharenfs              off                    default
myzpool  checksum              on                     default
myzpool  compression           off                    default
myzpool  atime                 on                     default
myzpool  copies                1                      default
myzpool  version               4                      -
...
myzpool  primarycache          all                    default
myzpool  secondarycache        all                    default
myzpool  usedbysnapshots       0                      -
myzpool  usedbydataset         31.4K                  -
myzpool  usedbychildren        65.1K                  -
myzpool  usedbyrefreservation  0                      -
$

现在,让我们实际使用 ZFS 池。首先,在您的池中创建目录,然后在该目录中启用压缩(使用 zfs set 命令)。其次,将文件复制到其中。我已经选择了大小 120KB 左右的文件来查看 ZFS 压缩的效果。请注意您的池挂载在根目录上,因此就像您的根文件系统内的目录一样加以处理。一旦复制该文件,您就可以列出它来表示文件已存在(但与原来同样大小)。通过使用 dh 命令,您可以看到文件大小为原来的一半,这说明 ZFS 已经将其压缩。您还可以查看 compressratio 属性,了解您的池有多少已经被压缩(使用默认压缩程序,gzip)。清单 4 显示了该压缩。

清单 4. 演示 ZFS 压缩
$ sudo zfs create myzpool/myzdev
$ sudo zfs list
NAME             USED  AVAIL  REFER  MOUNTPOINT
myzpool          139K   146M  31.4K  /myzpool
myzpool/myzdev  31.4K   146M  31.4K  /myzpool/myzdev
$ sudo zfs set compression=on myzpool/myzdev
$ ls /myzpool/myzdev/
$ sudo cp ../linux-2.6.34/Documentation/devices.txt /myzpool/myzdev/
$ ls -la ../linux-2.6.34/Documentation/devices.txt 
-rw-r--r-- 1 mtj mtj 118144 2010-05-16 14:17 ../linux-2.6.34/Documentation/devices.txt
$ ls -la /myzpool/myzdev/
total 5
drwxr-xr-x 2 root root      3 2010-11-20 22:59 .
drwxr-xr-x 3 root root      3 2010-11-20 22:55 ..
-rw-r--r-- 1 root root 118144 2010-11-20 22:59 devices.txt
$ du -ah /myzpool/myzdev/
60K /myzpool/myzdev/devices.txt
62K /myzpool/myzdev/
$ sudo zfs get compressratio myzpool
NAME     PROPERTY       VALUE  SOURCE
myzpool  compressratio  1.55x  -
$

最后,让我们看看 ZFS 的自修复功能。请回想在您创建池时,您要求四个设备具有 RAID-Z。通过使用 zpool status 命令您可以检查池的状态, 如清单 5 所示。如清单所示,您可以看到池的元素(RAID-Z 1 以及四个设备)。

清单 5. 检查池状态
$ sudo zpool status myzpool
  pool: myzpool
 state: ONLINE
 scrub: none requested
config:

    NAME        STATE     READ WRITE CKSUM
    myzpool     ONLINE       0     0     0
      raidz1    ONLINE       0     0     0
        loop0   ONLINE       0     0     0
        loop1   ONLINE       0     0     0
        loop2   ONLINE       0     0     0
        loop3   ONLINE       0     0     0

errors: No known data errors
$

现在,让我们强制执行一个错误到池中。对于此演示来说,转到后台并损坏组成设备的磁盘文件(disk4.img,通过 loop3 设备显示在 ZFS 中)。使用 dd 命令将整个设备清零(参见清单 6)。

清单 6. 损坏 ZFS 池
$ dd if=/dev/zero of=disk4.img bs=64M count=1
1+0 records in
1+0 records out
67108864 bytes (67 MB) copied, 1.84791 s, 36.3 MB/s
$

ZFS 目前未意识到损坏,但是您可以通过请求池的清理,强制池发现问题。如清单 7 所示,ZFS 现在认识到(loop3 设备的)损坏并建议操作以便替换该设备。还请注意在 ZFS 通过 RAID-Z 自我更正时,池仍然在线,您仍然可以访问您的数据。

清单 7. 清理并检查池
$ sudo zpool scrub myzpool
$ sudo zpool status myzpool
  pool: myzpool
 state: ONLINE
status: One or more devices could not be used because the label is missing or
    invalid.  Sufficient replicas exist for the pool to continue
    functioning in a degraded state.
action: Replace the device using 'zpool replace'.
   see: http://www.sun.com/msg/ZFS-8000-4J
 scrub: scrub completed after 0h0m with 0 errors on Sat Nov 20 23:15:03 2010
config:

    NAME        STATE     READ WRITE CKSUM
    myzpool     ONLINE       0     0     0
      raidz1    ONLINE       0     0     0
        loop0   ONLINE       0     0     0
        loop1   ONLINE       0     0     0
        loop2   ONLINE       0     0     0
        loop3   UNAVAIL      0     0     0  corrupted data

errors: No known data errors
$ wc -l /myzpool/myzdev/devices.txt
3340 /myzpool/myzdev/devices.txt
$

根据建议,引入新的设备到您的 RAID-Z 集以便充当新的容器。首先创建新的磁盘映像并通过 losetup 将其表示为设备。请注意此过程类似于将新的物理磁盘添加到集。然后,您使用 zpool replace 用新的设备(loop4)交换已损坏的设备(loop3)。检查池状态,您可以看到新设备具有一条消息,指示其上重新构建了数据(称为 resilvering)以及移到那里的数据量。还请注意池仍保持在线,没有错误(对用户可见)。最后,再次清理池;在检查其状态以后,您将看不到存在问题,如清单 8 所示。

清单 8. 使用 zpool replace 修复池
$ dd if=/dev/zero of=disk5.img bs=64M count=1
1+0 records in
1+0 records out
67108864 bytes (67 MB) copied, 0.925143 s, 72.5 MB/s
$ sudo losetup /dev/loop4 ./disk5.img 
$ sudo zpool replace myzpool loop3 loop4
$ sudo zpool status myzpool
  pool: myzpool
 state: ONLINE
 scrub: resilver completed after 0h0m with 0 errors on Sat Nov 20 23:23:12 2010
config:

    NAME        STATE     READ WRITE CKSUM
    myzpool     ONLINE       0     0     0
      raidz1    ONLINE       0     0     0
        loop0   ONLINE       0     0     0
        loop1   ONLINE       0     0     0
        loop2   ONLINE       0     0     0
        loop4   ONLINE       0     0     0  59.5K resilvered

errors: No known data errors
$ sudo zpool scrub myzpool
$ sudo zpool status myzpool
  pool: myzpool
 state: ONLINE
 scrub: scrub completed after 0h0m with 0 errors on Sat Nov 20 23:23:23 2010
config:

    NAME        STATE     READ WRITE CKSUM
    myzpool     ONLINE       0     0     0
      raidz1    ONLINE       0     0     0
        loop0   ONLINE       0     0     0
        loop1   ONLINE       0     0     0
        loop2   ONLINE       0     0     0
        loop4   ONLINE       0     0     0

errors: No known data errors
$

此简短演示探究了通过文件系统进行的卷管理的整合,并展示了管理 ZFS(即使是故障时)有多简单。

来源:https://www.ibm.com/developerworks/cn/linux/l-zfs/index.html