使用QUME搭建ZNS SSD

2023-10-15 12:52
文章标签 使用 搭建 ssd zns qume

本文主要是介绍使用QUME搭建ZNS SSD,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

安装QUME

QEMU从 1.6 版开始支持模拟 NVMe 命名空间。但是仅从QEMU 6.0 版本开始支持模拟分区命名空间。
下载QUME:https://www.qemu.org/download/#source

镜像下载

The user account and guest OS of the VM:

  • username: femu
  • passwd : femu
  • Guest OS: Ubuntu 20.04.1 server, with kernel 5.4
mkdir -p ~/images
wget http://people.cs.uchicago.edu/~huaicheng/femu/femu-vm.tar.xz
tar xJvf femu-vm.tar.xz

这些步骤做完以后,在当前文件夹下面将会得到两个文件: "u20s.qcow2 " 和 "u20s.md5sum "
可以通过下面的语句验证 VM 镜像的完整性

md5sum u20s.qcow2 > tmp.md5sum
diff tmp.md5sum u20s.md5sum

如果diff显示两个文件不同,则表示 VM 镜像已损坏,需要重做上述步骤。

建立host与guest之间的共享目录

qemu 启动参数需要添加 :

-fsdev local,security_model=passthrough,id=fsdev0,path=/tmp/share \
-device virtio-9p-pci,id=fs0,fsdev=fsdev0,mount_tag=hostshare

其中 path 为 host 本地的共享目录
在 guest 中挂载 host 共享的目录

mkdir /tmp/host_files
sudo mount -t 9p -o trans=virtio,version=9p2000.L hostshare /tmp/host_files

参考https://blog.csdn.net/gatieme/article/details/82912921

切换linux5.10内核

1.将提前下载好的 linux-5.10 上传至主机
2.通过share将5.10版本的内核压缩包从主机传到 QUME里
3.解压缩

cd /usr/src/
sudo tar -zxvpf linux-5.10.tar.gz

4.编译内核(可以在host侧编译)

cd linux-5.10/ 
sudo apt-get install ncurses-dev
sudo apt-get install flex
sudo apt-get install bison -y

配置内核选项

sudo make menuconfig

具体参考https://zonedstorage.io/docs/linux/config

sudo apt-get install libssl-dev
sudo make -j32

5.安装

sudo make modules_install
sudo make install
sudo poweroff

创建模拟分区命名空间

要创建模拟的分区命名空间,您必须首先拥有该命名空间可以使用的后备存储文件。文件的大小决定了从运行在QEMU虚拟机中的guest OS看到的命名空间的容量。
例如:创建32GiB分区的命名空间,必须先在主机上创建32GiB文件。这可以通过使用truncate命令创建一个稀疏文件,或者使用dd命令创建一个完全分配的文件来实现。
使用truncate创建仿真区域命名空间Backstore

# truncate -s 32G /var/lib/qemu/images/zns.raw# ls -l /var/lib/qemu/images/zns.raw
-rw-r--r-- 1 root root 34359738368 Jun 21 15:13 /var/lib/qemu/images/zns.raw

使用dd创建仿真区域命名空间Backstore

# dd if=/dev/zero of=/var/lib/qemu/images/zns.raw bs=1M count=32768
32768+0 records in
32768+0 records out
34359738368 bytes (34 GB, 32 GiB) copied, 11.4072 s, 3.0 GB/s# ls -l /var/lib/qemu/images/zns.raw
-rw-r--r-- 1 root root 34359738368 Jun 22 11:22 /var/lib/qemu/images/zns.raw

创建ZNS并使用Backstore文件

使用命令行选项和参数执行QEMU,以创建一个分区的名称空间,该名称空间使用后台存储文件作为存储。
QEMU中NVMe设备仿真和ZNS命名空间仿真的实现提供了几个配置选项来控制设备的特征。与“分区名称空间”相关的选项和参数如下。

OptionDefault ValueDescription
zoned.zasl=UINT320Zone Append Size Limit. If left at the default (0), the zone append size limit will be equal to the maximum data transfer size (MDTS). Otherwise, the zone append size limit is equal to 2 to the power of zasl multiplied by the minimum memory page size (4096 B), but cannot exceed the maximum data transfer size.
zoned.zone_size=SIZE128MiBDefine the zone size (ZSZE)
zoned.zone_capacity=SIZE0Define the zone capacity (ZCAP). If left at the default (0), the zone capacity will equal the zone size.
zoned.descr_ext_size=UINT320Set the Zone Descriptor Extension Size (ZDES). Must be a multiple of 64 bytes.
zoned.cross_read=BOOLoffSet to “on” to allow reads to cross zone boundaries.
zoned.max_active=UINT320Set the maximum number of active resources (MAR). The default (0) allows all zones to be active.
zoned.max_open=UINT320Set the maximum number of open resources (MOR). The default (0) allows all zones to be open. If zoned.max_active is specified, this value must be less than or equal to that

在下面的例子中,backstore文件被用来模拟一个分区的命名空间,分区的大小为64个MiB,分区的容量为62个MiB。命名空间块大小为4096b。命名空间最多允许16个开放的zone和32个活跃的zone。

#!/bin/bash
# Huaicheng Li <huaicheng@cs.uchicago.edu>
# Run FEMU as a black-box SSD (FTL managed by the device)# image directory
IMGDIR=/home/qwj/ZNS/images
# Virtual machine disk image
OSIMGF=$IMGDIR/u20s.qcow2
ZNSIMGF=$IMGDIR/zns.raw
if [[ ! -e "$OSIMGF" ]]; thenecho ""echo "VM disk image couldn't be found ..."echo "Please prepare a usable VM image and place it as $OSIMGF"echo "Once VM disk image is ready, please rerun this script again"echo ""exit
fisudo /home/qwj/ZNS/qemu-7.0.0/bin/debug/native/x86_64-softmmu/qemu-system-x86_64 \-name "FEMU-BBSSD-VM" \-enable-kvm \-cpu host \-smp 4 \-m 32G \-fsdev local,security_model=passthrough,id=fsdev0,path=/home/qwj/ZNS/share \-device virtio-9p-pci,id=fs0,fsdev=fsdev0,mount_tag=hostshare \-device virtio-scsi-pci,id=scsi0 \-device scsi-hd,drive=hd0 \-drive file=$OSIMGF,if=none,aio=native,cache=none,format=qcow2,id=hd0 \-device nvme,id=nvme0,serial=deadbeef,zoned.zasl=5 \-drive file=$ZNSIMGF,id=nvmezns0,format=raw,if=none \-device nvme-ns,drive=nvmezns0,bus=nvme0,nsid=1,logical_block_size=4096,physical_block_size=4096,zoned=true,zoned.zone_size=64M,zoned.zone_capacity=62M,zoned.max_open=16,zoned.max_active=32,uuid=5e40ec5f-eeb6-4317-bc5e-c919796a5f79 \-net user,hostfwd=tcp::8081-:22 \-net nic,model=virtio \-nographic \-qmp unix:./qmp-sock,server,nowait 2>&1 | tee log

一般不在该界面直接使用 VM,所以保持该界面不动,另开一个窗口使用 ssh 登陆

usernamexxx@hostnamexxx:~$ ssh -p8081 femu@localhost
# femu 的密码:femu

验证模拟分区命名空间

# sudo nvme list
Node             SN                   Model                                    Namespace Usage                      Format           FW Rev
---------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1     deadbeef             QEMU NVMe Ctrl                           1          34.36  GB /  34.36  GB      4 KiB +  0 B   1.

ZNS SSD搭建之rocksdb和zenfs

https://github.com/westerndigitalcorporation/zenfs
1.Download, build and install libzbd. See the libzbd READMEfor instructions.
2.Download rocksdb and the zenfs projects:

$ git clone https://github.com/facebook/rocksdb.git
$ cd rocksdb
$ git clone https://github.com/westerndigitalcorporation/zenfs plugin/zenfs

3.Build and install rocksdb with zenfs enabled:
安装前先安装sudo apt-get install libgflags-dev
https://github.com/westerndigitalcorporation/zenfs/issues/3
https://www.jianshu.com/p/4a79b95bca9a
https://blog.csdn.net/qq_41108558/article/details/118513202
启用调试log:ROCKSDB_PLUGINS=zenfs make -j4 db_bench dbg
https://github.com/westerndigitalcorporation/zenfs/issues/240
I mastered the latest version, I found that, > 1. users can change the destination for logs in #define DEFAULT_ZENV_LOG_PATH "/tmp/ > 2

$ DEBUG_LEVEL=0 ROCKSDB_PLUGINS=zenfs make -j4 db_bench install

4.Build the zenfs utility:

$ pushd
$ cd plugin/zenfs/util
$ make
$ popd

5.Configure the IO Scheduler for the zoned block device
The IO scheduler must be set to deadline to avoid writes from being reordered. This must be done every time the zoned name space is enumerated (e.g at boot).

echo deadline > /sys/class/block/<zoned block device>/queue/scheduler

6.Creating a ZenFS file system

cd ./rocksdb/plugin/zenfs/
mkdir log
sudo ./util/zenfs mkfs --zbd=nvme0n1 --aux-path=./log --force

7.Testing with db_bench
To instruct db_bench to use zenfs on a specific zoned block device, the --fs_uri parameter is used. The device name may be used by specifying --fs_uri=zenfs://dev: or by specifying a unique identifier for the created file system by specifying --fs_uri=zenfs://uuid:. UUIDs can be listed using ./plugin/zenfs/util/zenfs ls-uuid

sudo ./db_bench --fs_uri=zenfs://dev:nvme0n1 --benchmarks=fillrandom --use_direct_io_for_flush_and_compaction

ZNS SSD搭建之挂载F2FS(双硬盘)

1.创建传统SSD

由于f2fs 使用具有固定块位置的磁盘元数据块格式,因此仅支持包含常规区域的分区块设备。完全由顺序区域组成的分区设备不能与f2fs 一起用作独立设备,并且它们需要多设备设置才能将元数据块放置在随机可写存储上。f2fs支持多设备设置,其中多个块设备地址空间线性连接以形成逻辑上更大的块设备。
使用以下原理实现了F2FS 分区块设备支持:
1 Section Alignment 在f2fs中,section是一组固定大小的segment(2mb)。通过指定一个section中的segment数,来匹配分区设备zone大小。例如:zone大小为256mb,一个section包含128个2MB的段。
2 Forced LFS mode 默认情况下,f2fs通过允许段内的一些随机写操作来优化块分配(以避免过多的追加写操作)。LFS模式强制对段进行顺序写操作,并强制在段内顺序使用段,这导致完全符合分区的块设备的写约束。
3 Zone reset as discard operation 在过去,块discard(或trim)向设备表明一个块或一组块不再使用。当一个section的所有段的所有块都空闲时,就会执行“zone write pointer reset”命令。这允许重用该section。
与使用dm分区的设备映射器目标的解决方案相比,分区设备上的f2fs的性能不会受到“区域回收开销”的影响,因为写操作总是顺序的,并且不需要磁盘上的临时缓冲区。F2fs垃圾收集(段清理)只对频繁删除文件或修改文件数据的工作负载产生开销。
Zone Capacity Support
NVMe ZNS ssd的每个zone容量可以小于zone的大小。为了支持ZNS设备,f2fs确保块分配和计费只考虑一个区域内在该区域容量内的块。这种对NVMe ZNS区域容量的支持自从在Linux内核版本5.10中引入以来就一直可用。
F2fs卷需要一些随机可写的存储空间,以便存储和更新卷的元数据块。由于NVMe分区的名称空间没有conventional zones,所以不能在单个NVMe分区的名称空间中自包含f2fs卷。要使用NVMe分区的命名空间格式化f2fs卷,必须使用多设备卷格式,以便提供额外的常规块设备来存储卷元数据块。这个额外的常规块设备可以是同一个NVMe设备上的常规名称空间,也可以是另一个NVMe设备上的常规名称空间。
f2fs使用32位的块号,块大小为4 KB。这导致卷的最大大小为16 TB。任何设备或设备组合(对于多设备卷)总容量大于16tb的设备不能与f2fs一起使用。
为了克服这个限制,可以使用dm-linear设备映射器目标将分区的块设备划分为可用的、更小的逻辑设备。此配置必须确保为创建的每个逻辑设备分配足够数量的常规区域来存储f2fs固定位置元数据块。
在QUME的运行命令中加入传统NVMe SSD:


#!/bin/bash
# Huaicheng Li <huaicheng@cs.uchicago.edu>
# Run FEMU as a black-box SSD (FTL managed by the device)# image directory
IMGDIR=/home/qwj/ZNS/images
# Virtual machine disk image
OSIMGF=$IMGDIR/u20s.qcow2
ZNSIMGF=$IMGDIR/zns.raw
CONVIMGF=$IMGDIR/convSSD.raw
if [[ ! -e "$OSIMGF" ]]; thenecho ""echo "VM disk image couldn't be found ..."echo "Please prepare a usable VM image and place it as $OSIMGF"echo "Once VM disk image is ready, please rerun this script again"echo ""exit
fisudo /home/qwj/ZNS/qemu-7.0.0/bin/debug/native/x86_64-softmmu/qemu-system-x86_64 \-name "FEMU-BBSSD-VM" \-enable-kvm \-cpu host \-smp 4 \-m 32G \-fsdev local,security_model=passthrough,id=fsdev0,path=/home/qwj/ZNS/share \-device virtio-9p-pci,id=fs0,fsdev=fsdev0,mount_tag=hostshare \-device virtio-scsi-pci,id=scsi0 \-device scsi-hd,drive=hd0 \-drive file=$OSIMGF,if=none,aio=native,cache=none,format=qcow2,id=hd0 \-device nvme,id=nvme0,serial=deadbeef,zoned.zasl=5 \-drive file=$ZNSIMGF,id=nvmezns0,format=raw,if=none \-device nvme-ns,drive=nvmezns0,bus=nvme0,nsid=1,logical_block_size=4096,physical_block_size=4096,zoned=true,zoned.zone_size=64M,zoned.zone_capacity=62M,zoned.max_open=16,zoned.max_active=32,uuid=5e40ec5f-eeb6-4317-bc5e-c919796a5f79 \-drive file=$CONVIMGF,if=none,id=nvmeconv0,format=raw,if=none \-device nvme-ns,drive=nvmeconv0,logical_block_size=4096,physical_block_size=4096 \-net user,hostfwd=tcp::8081-:22 \-net nic,model=virtio \-nographic \-qmp unix:./qmp-sock,server,nowait 2>&1 | tee log

2.安装f2fs-tools-1.14.0

旧版本的f2fs-tools可能不支持双硬盘挂载F2FS,因此需要下载安装1.14.0及以上的工具
https://git.kernel.org/pub/scm/linux/kernel/git/jaegeuk/f2fs-tools.git
https://git.kernel.org/pub/scm/linux/kernel/git/jaegeuk/f2fs-tools.git/about/
https://f2fs.wiki.kernel.org/

3.挂载F2FS

与SMR硬盘不同,内核在默认情况下不会为代表NVMe分区名称空间的块设备选择mq-deadline块- io调度器。为了确保f2fs使用的常规写操作按顺序交付给设备,必须将NVMe分区的名称空间块设备的IO调配器设置为mq-deadline。这是通过以下命令完成的

echo mq-deadline > /sys/block/nvme1n1/queue/scheduler

在上面的命令中,/dev/nvme1n1是分区名称空间的块设备文件,将用于f2fs卷。使用这个名称空间,可以使用mkfs.f2fs的-c选项格式化使用额外常规块设备(以下示例中的/dev/nvme0n1)的多设备f2fs卷,如下面的示例所示

cd ~/f2fs-tools-1.14.0/mkfs
sudo ./mkfs.f2fs -f -m -c /dev/nvme1n1 /dev/nvme0n1F2FS-tools: mkfs.f2fs Ver: 1.14.0 (2021-06-23)Info: Disable heap-based policy
Info: Debug level = 0
Info: Trim is enabled
Info: Host-managed zoned block device:2048 zones, 0 randomly writeable zones524288 blocks per zone
Info: Segments per section = 1024
Info: Sections per zone = 1
Info: sector size = 4096
Info: total sectors = 1107296256 (4325376 MB)
Info: zone aligned segment0 blkaddr: 524288
Info: format version with"Linux version 5.13.0-rc6+ (user1@brahmaputra) (gcc (Ubuntu 10.3.0-1ubuntu1) 10.3.0, GNU ld (GNU Binutils for Ubuntu) 2.36.1) #2 SMP Fri Jun 18 16:45:29 IST 2021"
Info: [/dev/nvme0n1] Discarding device
Info: This device doesn't support BLKSECDISCARD
Info: This device doesn't support BLKDISCARD
Info: [/dev/nvme1n1] Discarding device
Info: Discarded 4194304 MB
Info: Overprovision ratio = 3.090%
Info: Overprovision segments = 74918 (GC reserved = 40216)
Info: format successful

要挂载使用上述命令格式化的卷,必须指定常规块设备:

# mount -t f2fs /dev/nvme0n1 /mnt/f2fs/

可能出现的问题

0.最好设置内存大于8G,我设的32GB,不然编译rocksdb可能会崩溃
需提前安装sudo apt-get install libgflags-dev
1.服务器无法git clone
使用linux的PC git clone后,通过U盘复制到服务器。然后你可能需要:
sudo chmod -R +x rocksdb/
sudo git config --global --add safe.directory /home/femu/rocksdb/plugin/zenfs
2.需要提前安装libzbd
https://github.com/westerndigitalcorporation/libzbd
其中需要先安装autoconf autoconf-archive automake libtool m4
3.对zenfs运行make时可能报错,原因是没有安装sudo apt-get install libgflags-dev
https://github.com/westerndigitalcorporation/zenfs/issues/3
在makefile中修改这一行,链接libgflags:
$(TARGET): $(TARGET).cc
$(CXX) $(CXXFLAGS) -g -o $(TARGET) $< $(LIBS) -lgflags $(LDFLAGS)
修改调度算法:echo deadline > /sys/class/block/nvme0n1/queue/scheduler
格式化文件系统:sudo ./plugin/zenfs/util/zenfs mkfs --zbd=nvme0n1 --aux-path=./plugin/zenfs/log

这篇关于使用QUME搭建ZNS SSD的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/217850

相关文章

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

Python使用getopt处理命令行参数示例解析(最佳实践)

《Python使用getopt处理命令行参数示例解析(最佳实践)》getopt模块是Python标准库中一个简单但强大的命令行参数处理工具,它特别适合那些需要快速实现基本命令行参数解析的场景,或者需要... 目录为什么需要处理命令行参数?getopt模块基础实际应用示例与其他参数处理方式的比较常见问http

C 语言中enum枚举的定义和使用小结

《C语言中enum枚举的定义和使用小结》在C语言里,enum(枚举)是一种用户自定义的数据类型,它能够让你创建一组具名的整数常量,下面我会从定义、使用、特性等方面详细介绍enum,感兴趣的朋友一起看... 目录1、引言2、基本定义3、定义枚举变量4、自定义枚举常量的值5、枚举与switch语句结合使用6、枚

使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)

《使用Python从PPT文档中提取图片和图片信息(如坐标、宽度和高度等)》PPT是一种高效的信息展示工具,广泛应用于教育、商务和设计等多个领域,PPT文档中常常包含丰富的图片内容,这些图片不仅提升了... 目录一、引言二、环境与工具三、python 提取PPT背景图片3.1 提取幻灯片背景图片3.2 提取

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

Maven的使用和配置国内源的保姆级教程

《Maven的使用和配置国内源的保姆级教程》Maven是⼀个项目管理工具,基于POM(ProjectObjectModel,项目对象模型)的概念,Maven可以通过一小段描述信息来管理项目的构建,报告... 目录1. 什么是Maven?2.创建⼀个Maven项目3.Maven 核心功能4.使用Maven H

Python中__init__方法使用的深度解析

《Python中__init__方法使用的深度解析》在Python的面向对象编程(OOP)体系中,__init__方法如同建造房屋时的奠基仪式——它定义了对象诞生时的初始状态,下面我们就来深入了解下_... 目录一、__init__的基因图谱二、初始化过程的魔法时刻继承链中的初始化顺序self参数的奥秘默认

SpringBoot使用GZIP压缩反回数据问题

《SpringBoot使用GZIP压缩反回数据问题》:本文主要介绍SpringBoot使用GZIP压缩反回数据问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录SpringBoot使用GZIP压缩反回数据1、初识gzip2、gzip是什么,可以干什么?3、Spr

Spring Boot 集成 Quartz并使用Cron 表达式实现定时任务

《SpringBoot集成Quartz并使用Cron表达式实现定时任务》本篇文章介绍了如何在SpringBoot中集成Quartz进行定时任务调度,并通过Cron表达式控制任务... 目录前言1. 添加 Quartz 依赖2. 创建 Quartz 任务3. 配置 Quartz 任务调度4. 启动 Sprin

Linux下如何使用C++获取硬件信息

《Linux下如何使用C++获取硬件信息》这篇文章主要为大家详细介绍了如何使用C++实现获取CPU,主板,磁盘,BIOS信息等硬件信息,文中的示例代码讲解详细,感兴趣的小伙伴可以了解下... 目录方法获取CPU信息:读取"/proc/cpuinfo"文件获取磁盘信息:读取"/proc/diskstats"文