标签：技术实现

大型语言模型（LLMs）是怎样“学习”的？一封给网络工程师的大模型指南

关注星融元

数字时代，人工智能（AI）及其相关技术正日益成为许多领域的热门话题。其中，生成式人工智能（Gen AI）和大型语言模型（LLMs）引起了广泛的兴趣和讨论。然而，尽管这些术语在科技界和专业领域中频繁出现，网络工程师对其的理解却不多。

什么是生成式人工智能和大型语言模型？本文将为大家介绍大型语言模型和生成式人工智能的基本概念、应用领域及大语言模型的运行原理，阅读本文后您将更全面地了解这些领域的前沿技术，我们一同踏上这段探索新领域的科普之旅吧！

什么是生成式人工智能和大型语言模型？

“生成式人工智能（Generative AI，一般简称为Gen AI）”是一种人工智能技术，专注于创造或生成新的内容，例如图像、文本或音乐。这些内容不是直接复制或派生自现有的示例，而是由计算机自己创造的。生成式AI的一个重要应用是生成文本，比如自动写作、诗歌创作或对话生成。

“大型语言模型（Large Language Models，LLMs）”是一类生成式AI，它们通过深度学习算法在大量自然语言数据上进行训练。这些模型学习人类语言的模式和结构，并能够对各种书面输入或提示生成类似人类的回应。最近的LLMs表现出了接近人类的水平，例如GPT-3.5，它能够产生几乎完美的文本回应。

这些近乎完美的类人化回应，包括来自chatGPT和其他最近的LLMs，得益于模型架构的进步。这些模型采用高效的具有数十亿个参数的深度神经网络（DNNs）经过大规模数据集的训练得出，其中大部分参数被用于训练和推理的矩阵权重。而训练这些模型的浮点运算次数（FLOP）几乎与参数数量和训练集大小成线性关系。这一系列运算是在专门用于矩阵运算的处理器上执行的，例如图形处理单元（GPUs）、张量处理单元（TPUs）和其他专用的AI芯片等。GPU、TPU、AI加速器以及它们之间的通信互联技术的进步让庞大模型训练成为现实。

LLMs有哪些应用？

大型语言模型（LLMs）具有许多用例，几乎每个行业都可以从中受益。不同的组织可以根据自身的特定需求和领域对模型进行微调。微调是指在特定数据集上对预先存在的语言模型进行训练，使其更专业化并适应特定任务。通过微调，组织可以在利用这些训练模型预先存在能力的同时，将其调整得能够满足自己得独特需求，这让模型能够获取领域特定的知识，从而提高其生成组织用例所需输出的能力。通过微调的模型，组织可以在多个用例中使用LLMs。

例如，根据公司文档进行微调的LLMs可用于客户支持。LLMs可以通过创建代码或支持他们创建部分代码来帮助软件工程师。当与组织的专有代码库进行微调时，LLMs有可能生成类似于并符合现有代码库的软件。

LLMs的众多用例包括用于评估客户反馈的情绪分析、将技术文档翻译成其他语言、总结会议和客户电话以及生成工程和营销内容。

pictures

随着这些LLMs的规模持续呈指数级增长，对计算和互连资源的需求也显着增加。只有当模型的训练和微调以及推理有足够成本效益时，LLMs才会被广泛采用。

LLMs如何使用深度学习算法进行训练？

为了使用自然语言文本训练LLM，通常需要收集大量数据，包括网络抓取（爬取网页）、维基百科、GitHub、Stack Exchange、ArXiv等。大多数模型通常使用开放数据集进行训练。这些数据集中的大量文本首先会进行标记化，通常使用字节对编码等方法。标记化将来自互联网的原始文本转换为整数序列（标记，tokens）。一个标记（唯一整数）可以表示一个字符或一个单词，甚至可以是单词的一部分。例如，单词“unhappy”可能会被分成两个标记——一个表示子词“un”，另一个表示子词“happy”。

比如这段文本先被标记化，再被编码化

根据数据集的不同，可能会有成千上万个唯一标记，数据集本身可能映射到数千亿个标记。序列长度是模型在训练过程中预测下一个标记时要考虑的连续标记的数量。GPT-3和LLaMA（Meta的LLM）的序列长度约为2000。一些模型使用的序列长度甚至达到10万。表1比较了GPT-3和LLaMA模型的训练参数。

为了训练模型，标记被分成大小为batch_size（B）x序列长度的数组，然后将这些批次馈送给大型神经网络模型。训练通常需要几周，甚至几个月，并且需要大量的GPU集群。

模型参数	GPT-3 Large	LLaMA
词汇量大小	50,257	32,000
序列长度	2,048	2,048
最大训练模型参数	1750亿	650亿
训练数据集中的标记数	3000亿	1到1.3万亿
GPU数量	10,000 x V100 GPUs	2,048 x A100 GPUs
训练时间	一个月	21天

一旦基础模型训练完成，通常会进行监督微调（Fine-Tuning，SFT）。这是一个可以让LLMs扮演助手角色，回答人们提示问题的重要步骤。在有监督微调中，人们会创建一个精心策划的数据集（数量较少但质量很高的数据集），其中包含提示和响应的形式，然后使用这个数据集重新训练基础模型。经过训练的SFT模型会成为一个能对用户提示作出类似人类回应的助手。

以上是对LLMs的简单解释，接下来将直接讲述LLMs的模型计算过程。（敲黑板，上强度了！）

模型计算

一个具有1750亿参数的模型通常需要超过1TB的内存来存储参数和计算过程中的中间状态。它还需要存储检查点的训练状态（以防在训练迭代过程中遇到硬件错误）。一万亿个标记通常需要4TB的存储空间。像Nvidia的H100这样的高端GPU具有80GB的集成HBM内存（如果想用H100装下一个一万亿标记的模型，需要4TB➗80GB=51.2张卡）。一个GPU的内存是无法容纳模型参数和训练集的。

根据维基百科的说法，大型语言模型（LLM）通常每个参数和标记需要进行六次浮点运算（FLOP）。这相当于对GPT-3模型进行训练需要进行3.15 x 10^23次浮点运算，其中GPT-3模型的训练耗时为三周。因此，在这三周的时间内，它需要5.8 x 10^16次每秒的浮点运算能力（FLOPs）。

pictures

一卡难求的H100长这样?

然而，尽管Nvidia的最高性能H100 GPU在FP32模式下可以达到约67 TeraFLOPS（每秒万亿次），但在许多训练工作负载中，由于内存和网络瓶颈，GPU的利用率通常只能维持在30%左右。因此，为了满足训练需求，我们需要三倍数量的GPU，大约是6,000个H100 GPU。原始的LLM模型（表1）是使用较旧版本的GPU进行训练的，因此需要10,000个GPU。

由于有成千上万个GPU，模型和训练数据集需要在这些GPU之间进行分区，以实现并行运行。并行性可以在多个维度上发生。

数据并行性

数据并行性（Data Parallelism）涉及将训练数据分割到多个GPU上，并在每个GPU上训练模型的副本。典型流程包含数据分布、数据复制、梯度计算、梯度聚合、模式更新和重复等。

数据分布：训练数据被划分为小批量，并在多个GPU之间分布。每个GPU获得一个独特的小批量训练集。
模型复制：模型的副本被放置在每个GPU上（也称为工作节点）。
梯度计算：每个GPU执行一次模型训练迭代，使用其小批量数据进行前向传播以进行预测，并进行反向传播以计算梯度（这些梯度指示模型参数在下一次迭代之前应如何调整）。
梯度聚合：来自所有GPU的梯度被汇总在一起。通常通过计算梯度的平均值来完成此步骤。
模型更新：汇总的梯度被广播到所有GPU。各个GPU更新其本地模型参数并进行同步。
重复：此过程重复多次，直到模型完全训练完成。

数据并行性可以在使用大型数据集时显著加快训练速度。然而，它可能会导致大量的GPU间通信，因为每个GPU都必须与训练中涉及的其他GPU通信。这种全对全的通信（All-to-All）可能会在每次训练迭代中在网络中产生大量的流量。

ALL-to-ALL

训练大型语言模型（LLMs）时，我们使用了一些方案，例如环形全局归约（Ring All-Reduce），将梯度以环形模式从一个GPU发送到另一个GPU。在这个过程中，每个GPU将其从前一个GPU接收到的梯度与本地计算的梯度进行聚合，然后将其发送到下一个GPU。然而，这个过程非常缓慢，因为梯度聚合分布在多个GPU之间，最终结果需要在环形拓扑中传播回所有GPU。如果网络拥塞，GPU之间的流量会因等待聚合梯度而停滞。

ALL-REDUCE

此外，具有数十亿参数的LLMs无法适应单个GPU。因此，仅靠数据并行性无法满足LLM模型的需求。

模型并行性

模型并行性（Model Parallelism）旨在解决模型无法适应单个GPU的情况，通过将模型参数（和计算）分布到多个GPU上。典型的流程包含模型分区、前向传播、反向传播、参数更新、重复等。

模型分区：将模型划分为若干个分区，每个分区分配给不同的GPU。由于深度神经网络通常包含一系列垂直层，因此按层次划分大型模型是合乎逻辑的，其中一个或一组层可能分配给不同的GPU。
前向传播：在前向传播过程中，每个GPU使用“整个”训练集计算其模型部分的输出。一个GPU的输出作为下一个GPU的输入传递。下一个GPU在接收到前一个GPU的更新之前无法开始处理。
反向传播：在反向传播过程中，一个GPU的梯度传递给序列中的前一个GPU。在接收到输入后，每个GPU计算其模型部分的梯度。与前向传播类似，这在GPU之间创建了顺序依赖关系。
参数更新：每个GPU在其反向传播结束时更新其模型部分的参数。需要注意的是，这些参数不需要广播到其他GPU。
重复：此过程重复多次，直到模型在所有数据上训练完成。

流水线并行性

流水线并行性（Pipeline Parallelism）将数据并行性和模型并行性相结合，其中训练数据集的每个小批量进一步分成几个微批量。在上面的模型并行性示例中，一个GPU使用第一个微批量计算输出，并将该数据传递给序列中的下一个GPU。与在反向传播中等待从该GPU获取输入不同，它开始处理训练数据集的第二个微批量，依此类推。这增加了GPU之间的通信，因为每个微批量都需要在序列中相邻的GPU之间进行前向传播和反向传播的通信。

张量并行性

张量并行性（Tensor Parallelism）是一种用于加速深度学习模型训练的技术。与模型并行和流水线并行技术不同，张量并行性在操作级别（或“张量”级别）上划分模型，而不是在层级别上划分。这种方法允许更精细的并行处理，对某些模型来说更高效。

具体来说，张量并行性的步骤如下：

模型分区：将模型划分为多个操作（或“张量”），每个操作分配给不同的GPU。这样，每个GPU只负责计算部分操作的输出。
前向传播：在前向传播过程中，每个GPU使用整个训练集计算其操作部分的输出。一个GPU的输出作为下一个GPU的输入传递。这样，模型的计算被分散到多个GPU上。
反向传播：在反向传播过程中，梯度从一个GPU传递到序列中的前一个GPU。每个GPU计算其操作部分的梯度。与前向传播类似，这也创建了GPU之间的顺序依赖关系。
参数更新：每个GPU在其反向传播结束时更新其操作部分的参数。这些参数不需要广播到其他GPU。

数据并行性、模型并行性、流水并行性、张量并行性……没搞懂不同并行技术的处理逻辑？下面这个案例或许可以给你一些启发，相信作为网工的你一定能很快理解~

假设我们有2台机器（node0和node1），每台机器上有8块GPU，GPU的编号为0~15。

我们使用这16块GPU，做MP/DP/TP/PP混合并行，如下图：

MP/DP/TP/PP混合并行

MP：模型并行组（Model Parallism）：

假设一个完整的模型需要布在8块GPU上，则如图所示，我们共布了2个model replica（2个MP）。MP组为：[[g0, g1, g4, g5, g8, g9, g12, g13], [g2, g3, g6, g7, g10, g11, g14, g15]]

TP：张量并行组（Tensor Parallism）

对于一个模型的每一层，我们将其参数纵向切开，分别置于不同的GPU上，则图中一共有8个TP组。TP组为：[[g0, g1], [g4, g5],[g8, g9], [g12, g13], [g2, g3], [g6, g7], [g10, g11], [g14, g15]]

PP：流水线并行组（Pipeline Parallism）：

对于一个模型，我们将其每一层都放置于不同的GPU上，则图中一共有4个PP组。PP组为：[[g0, g4, g8, g12], [g1, g5, g9, g13], [g2, g6, g10, g14], [g3, g7, g11, g15]]

DP：数据并行组（Data Parallism）：

经过上述切割，对维护有相同模型部分的GPU，我们就可以做数据并行，则图中共有8个DP组。DP组为[[g0, g2], [g1, g3], [g4, g6], [g5, g7], [g8, g10], [g9, g11], [g12, g14], [g13, g15]]

读完本文，相信你对训练大语言模型（LLMs）的三个步骤已经很熟悉：

通过网络抓取等方式进行数据集集成；
将源文本分割为标记；
通过模型参数并行处理的方式进行模型训练

相信你也对大数据模型的多种并行类型有了初步认识：无论使用何种并行性类型，LLM 凭借其参数和数据集的庞大规模，都会通过连接这些 GPU 的结构产生大量的 GPU 间流量。结构中的任何拥塞都可能导致训练时间过长且 GPU 利用率极低。之后将继续推出AI系列科普文，为大家介绍GPU/TPU 集群设计，以了解互连以及它们如何进行 LLM 训练。

实际应用中，训练完大语言模型（LLMs）之后，需要对模型进行微调以满足不同组织（企业）的个性化需求，该如何优化LLMs模型？后续的推文将为您解答这些疑惑。

星融元作为一家网络公司，为什么会那么关注AI、LLMs这些看似与自身业务关系不大的领域，甚至开辟专栏为网络工程师科普相关知识？主要出于技术和市场竞争方面的考虑。

1.技术方面，网络在大语言模型（LLMs）的训练过程中至关重要：

LLMs训练之初便需要通过网络抓取大量的数据集成数据集，数据集中的大量参数和数据需要通过网络传输到GPU上进行并行处理，网络连接的质量直接影响了数据传输的速度和效率。LLMs的训练会涉及到多个GPU的协同工作，连接这些GPU的网络结构会产生大量的GPU间流量，如果网络拥塞，数据传输会受到影响，导致训练时间过长且GPU利用效率降低。

因此，网络的稳定性、速度和带宽都对LLMs的训练效果至关重要。网络拥塞可能导致训练效率下降，因此需要优化网络架构，确保数据传输的高效性。

2.市场竞争方面，AI离不开LLMs训练，市场潜力无穷：

人工智能作为人们高度关注的热点话题，在许多领域拥有巨大的市场潜力。LLMs训练完毕后，大模型与用户的交互过程中（如chatGPT爆火，全球很多用户都在使用的情况），网络质量会直接影响用户对Gen AI应用的体验。拥有先进技术和工具是企业保持竞争优势的关键，星融元顺势而为，持续关注智算市场的发展，并推出HPC、AI等场景的网络解决方案，为用户提供良好的网络环境，实现用户与自身的双赢！

参考：Large Language Models – The Hardware Connection (juniper.net)
数据并行(DP)、张量模型并行(TP)、流水线并行(PP)_tp pp dp-CSDN博客

相关阅读：星融元针对LLM大模型承载网发布星智AI网络解决方案

技术手册-PXE配置指导手册-下载页面

留资下载

下载到本地

PXE配置指导手册

1 文件 817 KB

请登录后下载
登录
下载到邮箱

Name *

Email *

问题反馈：sales@asterfusion.com

从零开始：搭建PXE远程批量安装服务器

关注星融元

在大规模服务器部署时，面对成百上千台服务器，通过手动插入光盘或者USE驱动器来安装操作系统无比繁琐，让大量工程师在现场挨个安装系统也不切实际，PXE的出现使得网络远程批量自动安装和配置操作系统成为现实。

什么是PXE？

PXE（Pre-boot Execution Environment，预启动执行环境）是由Intel设计的协议，它允许计算机通过网络启动。这个协议工作在Client/Server模式下，允许客户机通过网络从远程服务器下载引导镜像，并加载安装文件或整个操作系统。

相比其他工具，PXE更好地解决了以下问题：

自动化：PXE允许自动安装和配置操作系统，减少了手动操作的工作量。
远程实现：通过网络远程安装操作系统，无需物理介质，方便管理远程服务器。
规模化：特别适用于大规模服务器部署，可以同时装配多台服务器。。

PXE工作原理和配置

工作原理

PXE启动：当终端进入网卡启动时，会发送一个特殊的PXE启动请求到本地网络上的DHCP服务器。
DHCP服务：DHCP服务器收到PXE启动请求后，会向计算机发送DHCP响应，DHCP响应包含了计算的网络配置信息，以及PXE引导服务器的IP地址——TFTP Server（Trivial File Transfer Protocol）。
TFTP传输：计算机收到DHCP响应后，会使用TFTP从Server下载引导文件——pxelinux.0或者bootx64.efi。
加载引导文件：计算机加载并执行从TFTP下载的引导文件。引导文件通常是一个小型的Linux内核，能够连接到PXE服务器并获取操作系统镜像。
获取配置信息：引导文件连接到PXE服务器后，会通过TFTP发送请求以获取更多的配置信息。
获取操作系统镜像：PXE服务器根据计算机的请求，将系统镜像发送给计算机。
操作系统加载：一旦操作系统映像文件下载完成，计算机会加载并执行该映像文件。此时，计算机将完全从网络上运行操作系统，而无需本地硬盘上的安装。

PXE启动流程

注意：虽然PXE很好用，但启动时也需要满足以下条件

网卡支持PXE，目前新出的网卡基本都支持，同时需要完成BIOS的启动项配置。
传统启动模式（Legacy）下，PXE客户端会请求pxelinux.0；UEFI启动会请求bootx64.efi。
也可以采用nfsboot方式，该流程采用的是ISO镜像下载再安装的方式。

由于星融元交换机的开放性，PXE Server所需的组件能全部部署在CX-M上，即一台CX-M设备即可满足PXE的需求。

安装配置

星融元已通过PXE成功实现了大规模服务器的商业部署、自动化操作系统安装，从安装配置TFTP到准备启动文件、安装配置TFTP、配置HTTP Server、配置启动文件、配置DHCP到最后的验证，都可以在PXE配置文档中学会。

在现代IT环境中，通过PXE自动化流程部署系统可以减少人为错误，有助于提高效率、简化管理并确保一致性，亲手配置试试吧~

技术手册-PXE配置指导手册

技术手册-Kolla-Ansible：在容器环境中部署OpenStack

关注星融元

OpenStack简介

OpenStack是一个云操作系统，它控制整个数据中心的大型计算、存储和网络资源池，所有这些资源都通过一个仪表板进行管理，该仪表板赋予管理员控制权，同时允许用户通过web界面提供资源。

它为私有云和公有云提供可扩展的弹性的云计算服务，提供实施简单、可大规模扩展、丰富、标准统一的云计算管理平台。

Kolla-Ansible简介

Kolla旨在为运行OpenStack提供生产就绪的容器和部署工具。

Kolla-Ansible是Kolla的子项目，该项目使用Ansible部署Kolla容器映像。

Kolla-Ansible是开箱即用的工具，即使你是个新手也可以快速部署OpenStack，也允许你根据需求定制化的部署。

目标

在容器中部署OpenStack最大的特点就是升级，用户基本是无感知的状态下完成。同时可以实现本地与云端一致，一次开发随处运行，通过迁移到不同的设备，快速的完成部署和升级操作。

本文将以详细操作指导的方式，给出一种在Docker容器环境中部署OpenStack的指导方法。

环境准备

两台server，一台作为controller，另一台作为compute节点，操作系统CentOS 7.6.1810 镜像CentOS-7-x86_64-DVD-1810.iso。服务器具体配置要求如下：

2个千兆网口
至少8G内存
磁盘至少40G
计算节点的BISO中开启CPU嵌套虚拟化(INTEL叫VT-x，AMD的叫AMD-V)

Kolla-Ansible部署过程

关闭SELinux 【控制节点、计算节点】

SELinux不关闭的情况下无法实现，会限制ssh免密码登录

[root@localhost ~]#setenforce 0

[root@localhost ~]# sed -i ‘s/SELINUX=enforcing/SELINUX=disabled/g’ /etc/sysconfig/selinux

关闭防火墙【控制节点、计算节点】

防止安装时出现各个组件的端口不能访问的问题

[root@localhost ~]#systemctl stop firewalld && systemctl disable firewalld

禁用宿主机的 Libvirt 服务

大多数操作系统会默认启动 Libvirt，但使用 Kolla 来部署 OpenStack 的话，Libvirt 应该在容器中运行并管理虚拟机。所以宿主机的 Libvirt 需要被关闭，以免造成冲突。

[root@localhost ~]#systemctl stop libvirtd.service
[root@localhost ~]#systemctl disable libvirtd.service

设置主机名，hosts文件【控制节点、计算节点】

控制节点

[root@localhost ~]#hostname controller
[root@localhost ~]#echo “controller”> /etc/hostname

计算节点根据节点名称修改

[root@localhost ~]#vim /etc/hosts
192.168.4.2 controller
192.168.4.150 computer1

修改网卡名称【控制节点、计算节点】

说明：网卡名字不是必须改，保持各服务器使用的网卡名称一样。

网卡1:

[root@localhost ~]#cd /etc/sysconfig/network-scripts
[root@localhost ~]#vim ifcfg-enp6s0f0
IPADDR=192.168.1.*
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
NAME=eno1
DEVICE=eno1

网卡2:

[root@localhost ~]#cd /etc/sysconfig/network-scripts
[root@localhost ~]#vim ifcfg-enp6s0f1
IPADDR=192.168.2*
NETMASK=255.255.255.0
GATEWAY=192.168.21
NAME=eno2
DEVICE=eno2

修改网卡文件名称:

[root@localhost ~]#mv ifcfg-enp6s0f0 ifcfg-eno1
[root@localhost ~]#mv ifcfg-enp6s0f1 ifcfg-eno2

修改net配置文件

[root@localhost ~]#vi /etc/udev/rules.d/70-persistent-net.rules
SUBSYSTEM==”net”,ACTION==”add”,DRIVERS==”?*”,ATTR{address}==”78:24:af:85:0c:ac”,ATTR{type}==”1″, NAME=”eno1″
SUBSYSTEM==”net”,ACTION==”add”,DRIVERS==”?*”,ATTR{address}==”78:24:af:85:0c:ad”,ATTR{type}==”1″, NAME=”eno2″

ATTR和服务器两网口MAC地址保持一致

重启服务器

[root@localhost ~]#reboot

重启网络服务

[root@localhost ~]#systemctl restart network

安装【控制节点、计算节点】

[root@localhost ~]#yum install -y epel-release
[root@localhost ~]#yum install -y python-pip
[root@localhost ~]#pip install -U pip

安装编译环境【控制节点】

[root@controller ~]#yum install -y python-devel libffi-devel gcc openssl-devel libselinux-python

安装ansible【控制节点】

[root@controller ~]#pip install -U ansible

l 安装docker【控制节点、计算节点】

[root@localhost ~]#tee /etc/yum.repos.d/docker.repo <<-‘EOF’
[dockerrepo]
name=Docker Repository
baseurl=https://yum.dockerproject.org/repo/main/centos/7/
enabled=1
gpgcheck=1
gpgkey=https://yum.dockerproject.org/gpg
EOF
[root@localhost ~]#yum install -y docker-engine docker-engine-selinux

问题1 安装docker失败，提示与其他安装包冲突Error: docker-engine-selinux conflicts with 2:container-selinux-2.107-3.el7.noarch

解决方法如下：

[root@compute1 ~]#rpm -qa |grep container-selinux-2.107-3.el7.noarch
[root@compute1 ~]#yum -y remove container-selinux-2.107-3.el7.noarch

设置Docker【控制节点、计算节点】

[root@localhost ~]#mkdir /etc/systemd/system/docker.service.d
[root@localhost ~]#tee /etc/systemd/system/docker.service.d/kolla.conf << ‘EOF’
[Service]
MountFlags=shared
EOF

重启相关服务【控制节点、计算节点】

[root@localhost ~]#systemctl daemon-reload
[root@localhost ~]#systemctl enable docker
[root@localhost ~]#systemctl restart docker

安装模块【控制节点、计算节点】

[root@localhost ~]#pip install docker

安装【控制节点】

[root@controller ~]#yum install git

安装kolla-ansible【控制节点】

[root@controller ~]#pip install kolla-ansible

如果报如下错误

Cannot uninstall ‘PyYAML’. It is a distutils installed project and thus we

cannot accurately determine which files belong to it which would lead to only a

partial uninstall.

[root@controller ~]#rm -rf /usr/lib64/python2.7/site-packages/PyYAML*

拷贝配置文件【控制节点】

[root@controller ~]#cp -r /usr/share/kolla-ansible/etc_examples/kolla /etc/kolla/

[root@controller ~]#cp /usr/share/kolla-ansible/ansible/inventory/* /home/

配置免密登录【控制节点】

[root@controller ~]#ssh-keygen                        #一路回车
[root@controller ~]#ssh-copy-id controller         #回车后输入服务器密码
[root@controller ~]#ssh-copy-id computer1          #回车后输入服务器密码

存储节点配置【计算节点】

(演示版本可以跳过此步骤)

要启动cinder存储服务，需先添加一块新的硬盘，然后创建pv、vg

[root@computer1 ~]#pvcreate /dev/sdb
[root@computer1 ~]#vgcreate cinder-volumes /dev/sdb //vg名取名为 cinder-volumes，这里主要跟 kolla配置文件里vg名一致

问题1 如果出现创建不了pv

解决方法如下：

[root@compute1 ~]#pvcreate devsdb
Device /dev/sdb excluded by a filter.

解决：

[root@compute1 ~]#dd if=/dev/urandom of=/dev/sdb bs=512 count=64
64+0 records in
64+0 records out
32768 bytes (33 kB) copied, 0.00760562 s, 4.3 MB/s
[root@compute1 ~]#pvcreate /dev/sdb
Physical volume “/dev/sdb” successfully created.

重启服务【计算节点】

[root@compute1 ~]#systemctl restart lvm2-lvmetad.service

修改【控制节点】

[root@controller ~]#vim /home/multinode
[control]
controller
[network]
controller
[inner-compute]
[external-compute]
computer1
[compute:children]
inner-compute
external-compute
[storage]
computer1
[monitoring]
controller
[deployment]
controller

获取docker镜像【控制节点、计算节点】

使用kolla官方镜像源

[root@localhost ~]#vim /etc/kolla/globals.yml
kolla_install_type: “binary”
openstack_release: “stein”
docker_namespace: “kolla”

下载镜像包

[root@controller ~]#kolla-ansible pull -i /home/multinode

修改全局配置文件globals.yml【控制节点】

管理网口eno1,外网网口eno2

如果采用cinder磁盘存储

kolla_base_distro: “centos”

kolla_install_type: “binary”
openstack_release: “stein”
kolla_internal_vip_address: “192.168.4.2”
# Valid options are [ qemu, kvm, vmware, xenapi ]
nova_compute_virt_type: “kvm”
network_interface: “eno1”
api_interface: “{{ network_interface }}”
neutron_external_interface: “eno2”
neutron_plugin_agent: “openvswitch”
enable_cinder: “yes”
enable_cinder_backend_iscsi: “no”
enable_cinder_backend_lvm: “yes”
enable_haproxy: “yes”
enable_heat: “yes”
glance_enable_rolling_upgrade: “no”
ironic_dnsmasq_dhcp_range:
tempest_image_id:
tempest_flavor_ref_id:
tempest_public_network_id:
tempest_floating_network_name:

如果采用外部ceph存储：

kolla_base_distro: “centos”


kolla_install_type: “binary”
openstack_release: “stein”
kolla_internal_vip_address: “192.168.4.2”
# Valid options are [ qemu, kvm, vmware, xenapi ]
nova_compute_virt_type: “qemu”
nova_backend_ceph: “yes”
network_interface: “eno1”
api_interface: “{{ network_interface }}”
neutron_external_interface: “eno2”
neutron_plugin_agent: “openvswitch”
enable_ceph: “no”
enable_cinder_backup: “yes”
cinder_backup_driver: “ceph”
enable_cinder: “yes”
enable_cinder_backend_iscsi: “no”
enable_cinder_backend_lvm: “no”
enable_haproxy: “yes”
enable_heat: “yes”
enable_sahara: “yes”
enable_trove: “yes”
cinder_backend_ceph: “yes”
glance_backend_ceph: “yes”
glance_enable_rolling_upgrade: “no”
ironic_dnsmasq_dhcp_range:
tempest_image_id:
tempest_flavor_ref_id:
tempest_public_network_id:
tempest_floating_network_name:

生成密码文件passwords.yml【控制节点】

这个密码文件可以使用工具自动生成，也可以手动输入但是手动输入需要注意格式，在：后需要空一格

再输入；而且ssh_key也比较麻烦所以推荐使用工具自动生成但是直接输入

[root@controller ~]#kolla-genpwd

修改dashboard登录密码

[root@controller ~]#vi /etc/kolla/passwords.yml

keystone_admin_password: admin

修改部署文件multinode【控制节点】

[root@controller ~]#vim /home/multinode
[control]
controller
[network]
controller
[inner-compute]
[external-compute]
computer1
[compute:children]
inner-compute
external-compute
[monitoring]
controller
[storage]
computer1
[deployment]
localhost ansible_connection=local

检查配置【控制节点】

[root@controller ~]#kolla-ansible prechecks -i /home/multinode

配置SchedNova主机基础环境【控制节点】

[root@controller ~]#kolla-ansible -i /home/multinode bootstrap-servers

部署OpenStack【控制节点】

[root@controller ~]#kolla-ansible deploy -i /home/multinode

验证OpenStack安装【控制节点】

[root@controller ~]#kolla-ansible post-deploy -i /home/multinode

OpenStack更新【控制节点】

### 修改镜像版本（此处不用更新,以后想更新版本再更新）

[root@controller ~]# vim /etc/kolla/globals.yml
openstack_release: “stein”
[root@controller ~]# kolla-ansible upgrade -i /home/multinode

重启所有应用【控制节点】

[root@controller ~]#kolla-ansible -i /home/multinode reconfigure

环境还原【控制节点】

#如果安装有错误，想重新安装，可以选择如下操作

##将删除所有容器和卷

[root@controller ~]#kolla-ansible destroy –yes-i-really-really-mean-it -i /home/multinode

生成 admin-openrc.sh【控制节点】

[root@controller ~]#kolla-ansible post-deploy

初始demo【控制节点】

执行后会自动下载cirros镜像, 创建网络, 并创建一批测试虚拟机.

[root@controller ~]#/usr/share/kolla-ansible/init-runonce

查询登录密码【控制节点】

[root@controller ~]#grep admin /etc/kolla/passwords.yml

安装OpenStack命令行客户端【控制节点】

[root@controller ~]#pip install python-openstackclient

创建实例到指定计算节点

查看有效区域

[root@controller ~]#openstack availability zone list

查看有效主机列表

[root@controller ~]#openstack host list

查看有效计算节点列表

[root@controller ~]#openstack hypervisor list

查询网络id

[root@controller ~]#openstack network list

查看安全组

[root@controller ~]#openstack security group list

创建flavor

[root@controller ~]#openstack flavor create –id 0 –vcpus 1 –ram 64 –disk 1 m1.nano
[root@controller ~]#openstack flavor create –id 1 –vcpus 1 –ram 512 –disk 1 m1.tiny
[root@controller ~]#openstack flavor create –id 2 –vcpus 1 –ram 2048 –disk 20 m1.small
[root@controller ~]#openstack flavor create –id 3 –vcpus 2 –ram 4096 –disk 40 m1.medium
[root@controller ~]#openstack flavor create –id 4 –vcpus 4 –ram 8192 –disk 80 m1.large
[root@controller ~]#openstack flavor create –id 5 –vcpus 8 –ram 16384 –disk 160 m1.xlarg

创建实例

[root@controller ~]#openstack server create –flavor m1.nano \
–image cirros \
–nic net-id=88b84388-40d2-48d9-b4ec-ab0dfa9b244e \
–security-group 5431def1-8856-4e48-ab02-50b9d459f9b1 \
–key-name mykey \
–availability-zone nova:computer2:computer2 instance2

–flavor 实例类型

–image 镜像

–nic 网络 net-id网络id 第4步查得

–availability-zone nova:compute1:compute1 前三步查得

compute1为指定计算节点。

结论

从上面的安装过程我们发现Kolla-Ansible来完成OpenStack安装过程非常的简洁，不需要过多修改OpenStack的配置文件，从而可以很轻松的完成部署和升级等操作。

参考资料

OpenStack官网： openstack.org
Kolla-Ansible项目官网：https://wiki.openstack.org/wiki/Kolla#Kolla
Kolla-Ansible官网安装：https://docs.openstack.org/kolla-ansible/latest/

技术手册-虚拟扩展本地局域网协议VXLAN

关注星融元

VXLAN全称Virtual eXtensible Local Area Network即虚拟扩展局域网，是由IETF定义的NVO3（Network Virtualization over Layer 3）标准技术之一，是对传统VLAN协议的一种扩展。VXLAN的特点是将L2的以太帧封装到UDP报文（即L2 over L4）中，并在L3网络中传输。

VXLAN的产生背景

数据中心规模的壮大，虚拟机数量的快速增长与虚拟机迁移业务的日趋频繁，给传统的“二层+三层”数据中心网络带来了新的挑战：

虚拟机规模受网络设备表项规格的限制

对于同网段主机的通信而言，报文通过查询MAC表进行二层转发。服务器虚拟化后，数据中心中VM的数量比原有的物理机发生了数量级的增长，伴随而来的便是虚拟机网卡MAC地址数量的空前增加。一般而言，接入侧二层设备的规格较小，MAC地址表项规模已经无法满足快速增长的VM数量。

传统网络的隔离能力有限

VLAN作为当前主流的网络隔离技术，在标准定义中只有12比特，也就是说可用的VLAN数量只有4096。对于公有云或其它大型虚拟化云计算服务这种动辄上万甚至更多租户的场景而言，VLAN的隔离能力显然已经力不从心。

虚拟机迁移范围受限

虚拟机迁移，顾名思义，就是将虚拟机从一个物理机迁移到另一个物理机，但是要求在迁移过程中业务不能中断。要做到这一点，需要保证虚拟机迁移前后，其IP地址、MAC地址等参数维持不变。这就决定了，虚拟机迁移必须发生在一个二层域中。而传统数据中心网络的二层域，将虚拟机迁移限制在了一个较小的局部范围内。值得一提的是，通过堆叠、SVF、TRILL等技术构建物理上的大二层网络，可以将虚拟机迁移的范围扩大。但是，构建物理上的大二层，难免需要对原来的网络做大的改动，并且物理大二层网络的范围依然会受到种种条件的限制。

VXLAN采用L2 over L4（MAC-in-UDP）的报文封装模式，将二层报文用三层协议进行封装，可实现二层网络在三层范围内进行扩展，同时满足数据中心大二层虚拟迁移和多租户的需求。

VXLAN的发展历程

协议最早由VMware、Arisa网络、Cisco提出，后期加入华为、博科、Red Hat、Intel等公司支持，IETF于2012年8月发布第一个RFC Internet Draft版本，最新的标准是2014年8月RFC 7348。

VXLAN的相关概念

NVO3（Network Virtualization Over Layer3 3层之上的网络虚拟化）

基于IP Overlay的虚拟局域网络技术统称为NVO3。

NVE(Network Virtrualization Edge网络虚拟边缘节点）

是实现网络虚拟化的功能实体，VM里的报文经过NVE封装后，NVE之间就可以在基于L3的网络基础上建立起L2虚拟网络。网络设备实体以及服务器实体上的VSwitch都可以作为NVE。

VTEP（VXLAN Tunnel Endpoints，VXLAN隧道端点）

VXLAN网络的边缘设备，是VXLAN隧道的起点和终点，VXLAN报文的相关处理均在这上面进行。VTEP既可以是一个独立的网络设备，也可以是虚拟机所在的服务器。

VNI（VXLAN Network Identifier，VXLAN 网络标识符）

VNI类似VLAN ID，用于区分VXLAN段，不同VXLAN段的虚拟机不能直接二层相互通信。一个VNI表示一个租户，即使多个终端用户属于同一个VNI，也表示一个租户。VNI由24比特组成，支持多达16M（(2^24-1)/1024^2）的租户。

VXLAN隧道

“隧道”是一个逻辑上的概念，它并不新鲜，比如大家熟悉的GRE。说白了就是将原始报文“变身”下，加以“包装”，好让它可以在承载网络（比如IP网络）上传输。从主机的角度看，就好像原始报文的起点和终点之间，有一条直通的链路一样。而这个看起来直通的链路，就是“隧道”。顾名思义，“VXLAN隧道”便是用来传输经过VXLAN封装的报文的，它是建立在两个VTEP之间的一条虚拟通道。

BD（bridge domain）,vxlan转发二层数据报文的广播域，是承载vxlan数据报文的实体。类似于传统网络中VLAN的概念，只不过在VXLAN网络中，它有另外一个名字BD。不同的VLAN是通过VLAN ID来进行区分的，那不同的BD是通过VNI来区分的。
VXLAN报文格式

VXLAN报文格式

图1： VXLAN报文格式

VXLAN标准报文格式

图2：VXLAN标准报文格式

VXLAN的工作原理

VXLAN网络中的通信过程

结合如下示例简要说明VXLAN网络中的通信过程：

VXLAN通信过程

图3：VXLAN通信过程

图3中 Host-A 和 Host-B 位于 VNI 10 的 VXLAN，通过 VTEP-1 和 VTEP-2 之间建立的 VXLAN 隧道通信。

数据传输过程如下：

Host-A 向 Host-B 发送数据时，Host-B 的 MAC 和 IP 作为数据包的目标 MAC 和 IP，Host-A 的 MAC 作为数据包的源 MAC 和 IP，然后通过 VTEP-1 将数据发送出去。
VTEP-1 从自己维护的映射表中找到 MAC-B 对应的 VTEP-2，然后执行 VXLAN 封装，加上 VXLAN 头，UDP 头，以及外层 IP 和 MAC 头。此时的外层 IP 头，目标地址为 VTEP-2 的 IP，源地址为 VTEP-1 的 IP。同时由于下一跳是 Router-1，所以外层 MAC 头中目标地址为 Router-1 的 MAC。
数据包从 VTEP-1 发送出去后，外部网络的路由器会依据外层 IP 头进行包路由，最后到达与 VTEP-2 连接的路由器 Router-2。
Router-2 将数据包发送给 VTEP-2。VTEP-2 负责解封数据包，依次去掉外层 MAC 头，外层 IP 头，UDP 头和 VXLAN 头。
VTEP-2 依据目标 MAC 地址将数据包发送给 Host-B。

上面的流程我们看到 VTEP 是 VXLAN 的最核心组件，负责数据的封装和解封。

隧道也是建立在 VTEP 之间的，VTEP 负责数据的传送。

VTEP节点工作机制

通过以上通信步骤的描述可以看到，VTEP节点在VXLAN网络通信中起到了至关重要的作用。在VXLAN网络通信中，VTEP节的职责主要有3项：

将虚拟网络通信的数据帧添加VXLAN头部和外部UDP和IP首部。
将封装好的数据包转发给正确的VTEP节点。
收到其他VTEP发来的VXLAN报文时，拆除外部IP、UDP以及VXLAN首部，然后将内部数据包交付给正确的终端。

对于功能2)的实现，即VXLAN数据包的转发过程。当VTEP节点收到一个VXLAN数据包时，需要根据内部以太网帧的目的MAC地址找到与拥有该目的地址的终端直接相连的VTEP地址，因此，这里需要一个目的MAC地址和VTEP节点IP地址的映射关系，VTEP节点利用一个转发表来存储此映射关系。转发表的格式为：<VNI, Inner Dst MAC,VTEP IP>，即给定VNI和目的MAC地址后映射到一个VTEP IP地址。

需要说明的是，映射VTEP节点IP地址时，之所以需要VNI的信息，是因为当存在多租户的情况下，各个租户将会独立组网，此时，多个租户设定的MAC地址有一定的概率会出现重叠，此时我们必须保证每个租户的网络都能独立地正常通信，因此，在为每个租户配置唯一的一个VNI的情况下，给定VNI和目的MAC地址，唯一确定一个VTEP地址。

下图4是一个样例，对于下图中的网络拓扑，分别给出了两个VTEP节点的转发表：

VTEP节点工作过程

图4：VTEP节点工作过程

上图中给出了6个终端，分别属于2个租户，其中，终端T1、T2和T4属于租户1，分配VNI为1，终端T3、T5和T6属于租户2，分配VNI为2，两个VTEP节点的转发表已在图中给出。

每一个VTEP节点都必须拥有完整的转发表才可以正确地进行转发的功能，转发表的学习过程可以基于这样一种简单的策略：通过ARP报文学习，当收到终端发送的数据帧时，首先根据收到数据的端口判定数据发送方的VNI值，根据VNI和数据帧中的目的MAC查找对应的VTEP节点，如果查找成功，则转发，否则，在当前VXLAN网络中广播ARP请求报文，这样，连接目的MAC终端的VTEP节点就会发送ARP回答报文，这样就学习到了新的转发表项。

需要说明的是，在多租户的环境下，基于信息安全等因素，各个租户的流量必须实现隔离，因此在发送广播ARP请求报文时，不可以直接在多租户的环境中广播，必须保证只有当前VXLAN网络的终端可以收到广播报文，因此，和物理网络中的ARP广播请求的实现有所不同，这里需要通过IP组播机制来模拟广播。

因此，VTEP节点还需要保存对应于每个租户的VNI值的组播域，即对于每一个VNI值，存储包含当前VXLAN网络中终端的所有VTEP节点的IP，用于ARP广播时的组播操作。

VXLAN二层网关与三层网关

VXLAN二层网关：用于终端接入VXLAN网络，也可用于同一VXLAN网络的子网通信。
VXLAN三层网关：用于VXLAN网络中跨子网通信以及访问外部网络。

VXLAN集中式网关与分布式网关

根据三层网关部署方式的不同，VXLAN三层网关又可以分为集中式网关和分布式网关。

VXLAN集中式网关

集中式网关是指将三层网关集中部署在一台设备上，如下图所示，所有跨子网的流量都经过这个三层网关转发，实现流量的集中管理。

图5：

部署集中式网关的优点和缺点如下：

优点：对跨子网流量进行集中管理，网关的部署和管理比较简单。
缺点：转发路径不是最优：同一二层网关下跨子网的数据中心三层流量都需要经过集中三层网关绕行转发（如图中橙色虚线所示）。
ARP表项规格瓶颈：由于采用集中三层网关，通过三层网关转发的终端的ARP表项都需要在三层网关上生成，而三层网关上的ARP表项规格有限，这不利于数据中心网络的扩展。
VXLAN分布式网关

VXLAN分布式网关是指在典型的“Spine-Leaf”组网结构下，将Leaf节点作为VXLAN隧道端点VTEP，每个Leaf节点都可作为VXLAN三层网关（同时也是VXLAN二层网关），Spine节点不感知VXLAN隧道，只作为VXLAN报文的转发节点。如下图所示，Server1和Server2不在同一个网段，但是都连接到一个Leaf节点。Server1和Server2通信时，流量只需要在Leaf1节点进行转发，不再需要经过Spine节点。

部署分布式网关时：

Spine节点：关注于高速IP转发，强调的是设备的高速转发能力。
Leaf节点：作为VXLAN网络中的二层网关设备，与物理服务器或VM对接，用于解决终端租户接入VXLAN虚拟网络的问题。作为VXLAN网络中的三层网关设备，进行VXLAN报文封装/解封装，实现跨子网的终端租户通信，以及外部网络的访问。

VXLAN分布式网关

图6：VXLAN分布式网关

VXLAN分布式网关具有如下特点：

同一个Leaf节点既可以做VXLAN二层网关，也可以做VXLAN三层网关，部署灵活。

Leaf节点只需要学习自身连接服务器的ARP表项，而不必像集中三层网关一样，需要学习所有服务器的ARP表项，解决了集中式三层网关带来的ARP表项瓶颈问题，网络规模扩展能力强。

VXLAN在星融元交换机上的配置实例

下面实例中星融元的两台CX306交换机通过配置BGP EVPN来实现VXLAN网络的建立。

CX306交换机通过配置BGP EVPN来实现VXLAN网络的建立

全文请注册/登录后获取：https://asterfusion.com/d-20220617/

技术手册-防火墙IP TABLES

关注星融元

IP Tables相关名词释义

iptables：iptables是一个用户空间工具，系统管理员可以通过它配置Linux内核防火墙的IP数据包的过滤规则，而这些规则的具体实现是由内核空间的netfilter完成的；
netfilter：netfilter是4.x版本Linux内核开始引入的一个子系统，它作为一个通用的、抽象的框架，提供一套完整的hook函数管理机制，实现了诸如数据包过滤、网络地址转换和基于协议类型的连接跟踪等功能；
hook函数：Linux内核中的有一套hook函数机制，可在不同hook点位置监控网络数据包，并执行丢弃、修改等操作，Linux内核的网络防火墙就是通过此机制实现的。

IP Tables的发展历史

目前iptables已在2.4、2.6及3.0版本的Linux内核中集成，旧版的Linux内核则使用ipchains及ipwadm来达成类似的功能，而2014年1月19日起发行的新版Linux内核（3.13+）则使用nftables取代iptables。

Linux内核（2+）：ipwadm；
Linux内核（2）：ipchains；
Linux内核（4、2.6、3.0+）：iptables；
Linux内核（13+）：nftables。

iptables虽然强大但是不可能永远适用于当前的技术发展，任何技术都有其局限性。位于用户空间的iptables，也在被抛弃，RHEL7/CentOS7中已经不再直接使用iptables，而选择firewalld作为他的前端配置工具。

iptables已在Linux内核中集成

IP Tables原理简介

管理工具iptables是与内核网络协议栈中有包过滤功能的5个hook交互来完成工作的，这些内核hook构成netfilter框架。每个进出网络的包在经过协议栈时都会触发这些hook，数据包在内核中的处理路径如下图所示。

数据包在内核中的处理路径

通过iptables下发的规则，最终都会与上图中标注的5个hook点位关联。iptables将这些规则，按照不同的作用划分到不同的表中，按照划分常用的有raw、mangle、filter、nat四张表，即为四表。而关联在5个hook点位的有优先级顺序的规则链，即为五链。这种配置管理逻辑，也就是使用iptables的人都最为熟知的“四表五链”。

下面是iptables常用的四种table类型及其具体作用：

iptables常用的四种table类型

Filter table：是最常用的table之一，用于判断是否允许一个包通过；
Nat table：用于实现数据包的IP地址转换；
Mangle table：用于修改包的IP头；
Raw table：iptables防火墙是有状态的，raw table其唯一目的就是让数据包绕过连接跟踪机制。

表和链的组织逻辑是：不同的表可以作用在不同的链（hook点位）中，在具体链中多种表之间又有优先级顺序，具体如下图所示，红色箭头方向表示各表的优先级顺序依次从高到低排列。

具体链中多种表之间又有优先级顺序

我们通过iptables下发的规则就放置在特定table的特定chain里面，当chain被触发调用的时候，包会依次匹配chain里面的规则，每条规则都有一个匹配部分和一个动作部分。规则的匹配部分指定了一些条件，数据包必须满足这些条件才会和将要执行的动作进行关联。匹配系统非常灵活，还可以通过iptables extension扩展其功能。规则可以匹配协议类型、源目地址、源目端口、源目网段、接收或发送的网卡、协议头、连接状态等条件。这些综合起来，能够组合成非常复杂的规则来区分不同的网络流量。

总结

netfilter包过滤框架和iptables是Linux服务器上大部分防火墙解决方案的基础。其中，netfilter的内核hook与Linux内核协议栈配合得足够紧密，提供了数据包在经过系统时的强大控制能力。而iptables正是基于这些能力提供了一个灵活的、可扩展的、将策略需求转化到内核的方法。理解了这些不同部分是如何联系到一起的，就可以使用iptables创建出可靠的防火墙策略。

IP Tables的应用场景

通过上文可以清楚地了解到，iptables其实是存在于操作系统应用层，作为配置内核中安全框架netfilter的一个客户端。通过iptables可以实现常规防火墙的几乎所有的功能，包括但不限于：

提供基于状态的源目IP地址、源目端口、访问时间等维度的访问控制；
提供双向NAT能力，配合Linux的网络工具可以在网络出口实现链路负载均衡功能；
利用iptables的limit模块，可以实现轻量的DDoS攻击防护；
利用iptables的connlimit模块，可以防护CC攻击；
利用iptables的string模块，对数据包中的内容进行检查，实现报文深度过滤或者数据脱敏功能；
按需管理iptables的日志，可以为不同规则设置不同的日志标识，以便灵活记录数据流日志。

除了作为常规的主机/网络防火墙外，iptables也作为重要的网络组成部分，存在于Docker、K8S、OpenStack的Neutron项目以及众多成熟且应用广泛的开源项目中。

IP Tables的部署实例

首先，简单了解下iptables命令的语法格式，命令格式可分解为如下几部分。

iptables -t <table> <cmd> <pattern> <action>

其中，-t <table>或–table <table>选项用来指定要查看或修改的表（raw、mangle、nat、filter），命令行在不使用-t参数时默认为filter表。<cmd>部分可选择对规则要进行的操作，即增删改查操作，<pattern>为规则的匹配部分，<action>为安全规则的动作部分，对匹配到的数据包做指定的动作。

屏蔽指定IP地址：若发现某个恶意攻击者并确定其IP地址，此时可以使用如下命令将指定IP的数据包丢弃。

BLOCK_THIS_IP=”x.x.x.x”

iptables -A INPUT -i eth0 -p tcp -s “$BLOCK_THIS_IP” -j DROP

此命令行，<cmd>部分使用-A INPUT参数将屏蔽规则插入到filter表（默认）的INPUT链尾。

网卡流量转发：如果在某些场景下使用服务器作为网关，则可能需要两张网卡分别接内网和公网，然后需要将内网的网卡流量转发到连接到公网的网卡中，可以使用iptables实现此功能，命令行如下所示。

iptables -A FORWARD -i eth0 -o eth1 -j ACCEPT

端口流量转发：若需要进行端口级别的流量转发，使用iptables同样可以完成，此命令会将2222端口流量转发到22。

iptables -t nat -A PREROUTING -p tcp -d 192.168.1.5 –dport 2222 -j DNAT –to 192.168.1.5:22

使用扩展模块实现WEB流量简单负载：下面将使用nth扩展模块，将80端口流量负载均衡到三台服务器。

iptables -A PREROUTING -i eth0 -p tcp –dport 80 -m state –state NEW -m statistic –mode nth –every 3 –packet 0 -j DNAT –to-destination 192.168.1.11:80

iptables -A PREROUTING -i eth0 -p tcp –dport 80 -m state –state NEW -m statistic –mode nth –every 2 –packet 0 -j DNAT –to-destination 192.168.1.12:80

iptables -A PREROUTING -i eth0 -p tcp –dport 80 -m state –state NEW -m statistic –mode nth –every 1 –packet 0 -j DNAT –to-destination 192.168.1.13:80

在上面的命令行中，采用statistic模块的nth模式来实现轮询的负载均衡效果，参数含义如下：

–every n表示每n个命中就会真正执行一次；
–packet p表示在这条规则的第几次命中时真正执行（0<=p<=n-1）。

需要注意的是，每条规则有独立的计数器，因此-m statistic –mode nth –every 3 –packet 0表示每三个包触发一次动作，在第0次命中时执行动作，在第1次和第2次命中后不触发动作，而是将数据包交给下一条规则处理。同理，第二个包的匹配规则为-m statistic –mode nth –every 2 –packet 0，第三个包的匹配规则为-m statistic –mode nth –every 1 –packet 0。

使用扩展模块实现DDoS流量清洗：下面将使用limit扩展模块，来实现简单的DDoS攻击流量清洗。

iptables -A INPUT -p tcp –dport 80 -m limit –limit 5/minute –limit-burst 100 -j ACCEPT

关于limit限速模块，各参数的含义如下：

–limit n/s表示s时间段内会新签发n个令牌，时间单位有秒、分、时、天；
–limit-burst m表示初始令牌数量以及令牌桶的最大容量。

IP Tables的配置总结

IP Tables的配置

技术手册-RoCEv2 / EVPN-VXLAN / MC-LAG 部署

关注星融元

本文主要描述如何在Asterfusion CX306P-48S（以下简称CX306P）搭建的模拟网络上部署如下解决方案：

RoCEv2：在模拟网络上承载RDMA应用，通过CX306P的PFC和ECN功能，为所承载的RDMA应用构建无损的RoCEv2环境。

BGP EVPN和VXLAN：在模拟网络上承载VXLAN网络，将原本在Open vSwitch上进行的封装、去封装全部从Server端卸载到CX306P内的VTEP上，并且在模拟网络上启动BGP EVPN，自动化地创建VXLAN隧道、传递虚拟网络路由。

MC-LAG：在模拟网络上为服务器创建一个高可靠环境，确保每台服务器都能通过标准LAG双上联到两台CX306P上，这两台CX306P通过MC-LAG被虚拟化成一台高可靠的交换节点。

如上解决方案共用一个物理拓扑，如图1所示：

CX-N的部署拓扑图

部署过程中所涉及到的设备、接口及管理网口的IP地址如下表所示：

设备名称	接口	IP地址
交换机A	管理口	192.168.4.102
交换机B	管理口	192.168.4.105
Server1	管理口	192.168.4.2
Server2	管理口	192.168.4.133
Server3	管理口	192.168.4.150

RoCEv2 / EVPN-VXLAN / MC-LAG部署的硬件与软件环境

部署环境中涉及到的硬件和软件如下表所示：

名称	型号	硬件指标	数量	备注
交换机	CX306P	《参见产品彩页》	2
服务器		1、至少8G内存 2、磁盘不少于500G 3、Server1和Server3的BIOS开启CPU嵌套虚拟化（INTEL：VT-x, AMD:AMD-V）	3	Server1和Server3各需要安装一块Mellanox ConnectX-4网卡（25G）
光模块	10G	SFP+	12
	100G	QSFP28	4
光纤	多模	10G/25G适用	6
	多模	100G适用	2

软件	版本	备注
操作系统	Centos7.6	安装时选择Compute Node 模式，根目录/至少500G
iperf3		可以直接yum install iperf3安装，3台server均需要安装
Mellanox网卡驱动	4.7-3.2.9.0	具体参考《解决方案-Mellanox网卡驱动安装-e-20200211-v1.1》
tcpdump		可以直接yum install tcpdump

RoCEv2的配置部署

逻辑组网与配置思路

RoCEv2的配置部署逻辑组网与配置思路

配置思路：

为交换机A和交换机B配置IP和路由
分别为Server1、Server2、Server3配置IP和路由网关
配置Server1的PFC功能
配置交换机A的ACL打标DSCP功能
使能交换机A和交换机B的QOS功能
先在Server1发送IB流量，观察队列流量
停掉Server1上的流量发送，在Server2发送普通TCP背景流量，观察队列流量
观察ACL规则匹配情况
将Server1和Server2的流量都打起来，观察交换机B的出口拥塞情况
配置交换机A和交换机B的PFC功能
观察测试PFC功能
关闭交换机A和交换机B的PFC功能，配置交换机B的ECN功能
配置服务器ECN相关设置
测试ECN功能

BGP EVPN和VXLAN配置部署

逻辑组网与配置思路

BGP EVPN和VXLAN配置部署逻辑组网与配置思路

配置思路：

配置交换机A和交换机B的HOSTNAME
配置交换机A的EVPN
配置交换机B的EVPN
Server1上创建虚机和VLAN
Server3上创建虚机和VLAN
测试Server1和Server3的连通性
查看交换机A的路由信息
查看交换机B的路由信息

MC-LAG的配置部署思路

逻辑组网与配置思路

MC-LAG的配置部署思路逻辑组网与配置思路

配置思路：

分别为Server1、Server3配置LAG
交换机A创建PortChannel，并添加接口
交换机A创建VLAN，并添加成员
交换B创建PortChannel，并添加接口
交换机B创建VLAN，并添加成员
交换机A配置MC-LAG
交换机B配置MC-LAG
测试链路故障
测试设备故障

全文请注册/登录后获取：https://asterfusion.com/d-20220617/

测试报告-HPC高性能计算测试方案（CX-N系列云交换机）

关注星融元

一位来自金融行业的客户，他们希望可以实时地模拟和响应风险，以实现企业金融风险管理能力的提升。事实上，不管是金融行业还是其他行业，要想加快步伐满足快速数字化世界中的客户需求，就必须能够比标准计算机更快地处理大量数据。高性能计算（HPC)解决方案，正在受到企业们的青睐。

HPC通用架构主要由计算、存储、网络组成，而HPC之所以能够提高计算速度，更多是采用了“并行技术”，使用多个计算机协同工作，采用十台、百台，甚至成千上万台计算机“并行工作”。各个计算机之间需要互相通信，并对任务进行协同处理，这就需要建立一套对时延、带宽等有着严格要求的高速网络。

高带宽、低时延和低资源使用率的RDMA模式（主要体系架构：InfiniBand协议和以太网协议），往往是HPC网络的最佳选择。而星融元CX-N 超低时延交换机（简称CX-N)采用了标准以太网协议和开放软硬件技术，支持无损以太网技术和网络无损防拥塞技术，充分满足用户HPC应用下对网络带宽、时延等的高要求。为验证这一事实，我们选用Mellanox的InfiniBand交换机，与其进行了相同HPC应用下的运行速度的对比测试。

我们在CX-N和Mellanox的MSB7800交换机（简称IB交换机）分别搭建的网络上，进行了E2E转发测试、MPI基准测试和HPC应用测试。结果证明：CX-N 的时延和对方达到了同一个量级，运行速率较对方仅低3%左右，产品性能与对方交换机不相上下，能够满足绝大多数的HPC应用场景。而有必要补充一点的是，星融元更加注重产品成本的把控，星融元HPC解决方案在性价比方面有显著的优势。

HPC场景测试方案全过程：

1、目标与物理网络拓扑

E2E转发测试
测试两款交换机在相同拓扑下E2E（End to End）的转发时延和带宽，本次方案测试点采用Mellanox IB发包工具进行发包，测试过程遍历2~8388608字节。
MPI基准测试
MPI基准测试常用于评估高性能计算性能。本次方案测试点采用OSU Micro-Benchmarks来评估CX-N和IB两款交换机的性能。
HPC应用测试
本次测试方案在每个HPC应用中运行相同任务，并比较CX-N和IB两款交换机的运行速度（时间更短）。

1.1 IB交换机物理拓扑

如上解决方案的IB交换机物理拓扑，如图1所示：

IB交换机物理网络拓扑

图1：IB交换机物理网络拓扑

1.2 CX-N物理拓扑

如上解决方案的CX-N物理拓扑，如图2所示：

CX-N物理网络拓扑

图2：CX-N物理网络拓扑

1.3 管理网口IP规划

部署过程中所涉及到的设备、接口及管理网口的IP地址如下表1所示：

设备管理口列表

表1：设备管理口列表

2、硬件和软件环境

部署环境中涉及到的硬件和软件如表2和表3所示：

硬件环境

表2：硬件环境

软件环境

表3：软件环境

3、测试环境部署

在两台Server服务器上，安装部署HPC三种测试场景所需的基础环境。

补充说明：以”[root@server ~]#”为开头的命令表示两台服务器都要执行。

3.1 E2E转发测试环境部署

在两台Server服务器上安装Mellanox网卡的MLNX_OFED驱动程序，网卡驱动安装完成之后检查网卡及驱动状态，确保网卡可以正常使用。

网卡MLNX_OFED驱动程序安装：

检查网卡及网卡驱动状态：

3.2 MPI基准测试环境部署

在两台Server服务器上安装HPC高性能集群基础环境，安装OSU MPI Benchmarks MPI通信效率测评工具，测试方式分为点对点通信和组网通信两种方式，通过执行各种不同模式的MPI，来测试带宽和时延。

HPC集群高性能基础环境：

OSU MPI Benchamarks工具安装

3.3 HPC应用测试环境部署

在两台Server服务器上安装HPC测试应用。本次方案部署WRF开源气象模拟软件和LAMMPS原子分子并行模拟器来进行数据测试。

WRF安装部署：

WRF全称Weather Research and Forecasting Model, 是一个天气研究与预报模型的软件。

修改Docker网络配置
本方案两台Server服务器WRF部署采用Docker容器部署，需要修改Docker配置文件，将虚拟网桥绑定到Mellanox网卡上，通过直接路由方式实现跨主机Docker容器通信。

WRF应用部署
LAMMPS安装部署：LAMMPS即Large-scale Atomic/Molecular MassivelyParallel Simulator，大规模原子分子并行模拟器，主要用于分子动力学相关的一些计算和模拟工作。

安装GCC-7.3

安装OpenMPI

安装FFTW

安装LAMMPS

随着云计算技术的成熟，HPC正在从应用于大规模科学计算场景，转变为适用各种科学和商业计算场景。《星融元HPC解决方案》将重磅发布，敬请期待！

全文请注册/登录后获取：https://asterfusion.com/d-20220527/

技术手册-BGP路由协议

关注星融元

BGP全称BorderGatewayProtocol，也叫边界网关协议，是一种路径矢量路由协议，最新版本是BGPv4。BGP是互联网上一个核心的去中心化自治路由协议。BGP是最复杂的路由协议，属于应用层协议，其传输层使用TCP，默认端口号是179。BGP是唯一使用TCP作为传输层的路由协议。

BGP的分类介绍

BGP按照运行方式分为eBGP（External/Exterior BGP）和iBGP（Internal/Interior BGP）。

eBGP：运行于不同AS之间的BGP称为eBGP。为了防止AS间产生环路，当BGP设备接收eBGP对等体发送的路由时，会将带有本地AS号的路由丢弃。
iBGP：运行于同一AS内部的BGP称为iBGP。为了防止AS内产生环路，BGP设备不将从iBGP对等体学到的路由通告给其他iBGP对等体，并与所有iBGP对等体建立全连接。为了解决iBGP对等体的连接数量太多的问题，BGP设计了路由反射器和BGP联盟。

应该注意的是，使用内部 BGP 不是使用外部 BGP 的前提条件。自治系统可以从多种内部协议中进行选择，以连接其内部网络上的路由器。

BGP的相关概念

AS(Autonomous sydstem)

自治系统，指在一个（有时是多个）组织管辖下的所有IP网络和路由器的全体，它们对互联网执行共同的路由策略。一个AS是一个独立的整体网络。每个AS有自己唯一的编号。通常一个自治系统将会分配一个全局的唯一的16位号码， ASN范围：1-65535；其中1-64511属于公有ASN，64512-65535属于私有ASN。

AS_Path

路由每通过一个AS范围都会产生一个记录。

BGP报文交互中的角色

BGP报文交互中分为Speaker和Peer两种角色。

Speaker：发送BGP报文的设备称为BGP发言者（Speaker），它接收或产生新的报文信息，并发布（Advertise）给其它BGP Speadker。
Peer：相互交换报文的Speaker之间互称对等体（Peer）。若干相关的对等体可以构成对等体组（Peer Group）。

BGP的路由器号（Router ID）

BGP的Router ID是一个用于标识BGP设备的32位值，通常是IPv4地址的形式，在BGP会话建立时发送的Open报文中携带。对等体之间建立BGP会话时，每个BGP设备都必须有唯一的Router ID，否则对等体之间不能建立BGP连接。
BGP的Router ID在BGP网络中必须是唯一的，可以采用手工配置，也可以让设备自动选取。缺省情况下，BGP选择设备上的Loopback接口的IPv4地址作为BGP的Router ID。如果设备上没有配置Loopback接口，系统会选择接口中最大的IPv4地址作为BGP的Router ID。一旦选出Router ID，除非发生接口地址删除等事件，否则即使配置了更大的地址，也保持原来的Router ID。

BGP的报文

BGP对等体间通过以下5种报文进行交互，其中Keepalive报文为周期性发送，其余报文为触发式发送：
Open报文：用于协商BGP参数，包括版本，AS号，hold time等，然后建立BGP对等体连接。
Update报文：用于在对等体之间交换路由信息。
Notification报文：用于中断BGP连接。
Keepalive报文：用于保持BGP连接。
Route-refresh报文：用于在改变路由策略后请求对等体重新发送路由信息。只有支持路由刷新（Route-refresh）能力的BGP设备会发送和响应此报文。

BGP的3张表

邻居表(adjancy table):保存所有的BGP邻居信息。
BGP表(forwarding database):保存从每一个邻居学到的路由信息。
路由表(routing table):BGP默认不做负载均衡，会从BGP表中选出一条到达各个目标网络最优的路由，放入路由表保存。路由器只需按路由表保存的路由条目转发数据即可。

全文请注册登录后获取：https://asterfusion.com/d-20230427/

资料下载

一文梳理基于优先级的流量控制（PFC）

什么是PFC（基于优先级的流量控制）

丢包对不同协议的影响有所不同，应用会以不同的方式作出响应：一些应用可以容忍这一情况，通过重新发送所丢数据包得以恢复。以太网能够支持这些情况，但有些应用不能容忍任何丢包情况，要求保证端到端传输没有丢包。为了使以太网能够满足应用的无丢包要求，需要制定一种方法来通过以太网提供无损服务。基于优先级的流量控制PFC就产生了。PFC（Priority-based Flow Control，基于优先级的流量控制）功能是一种精细的流量控制机制，在IEEE 802.1Qbb标准文档中的定义是：对传统流控暂停机制的一种增强。PFC是基于优先级为不同的业务来提供不同服务的，可以解决传统以太网流控机制和该需求之间的冲突。

PFC工作原理

PFC是暂停机制的一种增强，PFC允许在一条以太网链路上创建8个虚拟通道，为每条虚拟通道指定一个优先等级并分配专用的资源（如缓存区、队列等等），允许单独暂停和重启其中任意一条虚拟通道而不影响其他虚拟通道流量的传输，保证其它虚拟通道的流量无中断通过。这一方法使网络能够为单个虚拟链路创建无丢包类别的服务，使其能够与同一接口上的其它流量类型共存。

数据中心场景中发生网络拥塞的原因

产生拥塞的原因有很多，在数据中心场景里比较关键也是比较常见的原因有三点：

进行数据中心网络架构设计时，如果采取非对称带宽设计，即上下行链路带宽不一致。也就是说当下联服务器上行发包总速率超过上行链路总带宽时，就会在上行口出现拥塞。
当前数据中心网络多采用Fabric架构，采用ECMP来构建多条等价负载的链路，并HASH选择一条链路来转发，是简单的。但这个过程没有考虑到所选链路本身是否已经拥塞，对于已经产生拥塞的链路来说，会加剧链路的拥塞。
TCP Incast是Many-to-One（多对一）的通信模式，在数据中心云化的大趋势下这种通信模式常常发生，尤其是那些分布式存储和计算应用，包括Hadoop、MapReduce、HDFS等。如图1所示，当一个Parent Server向一组节点发起请求时，集群中的节点会同时收到请求，并且几乎同时相应。所有节点同时向Parent Server发送TCP数据流，使得交换机上连Parent Server的出端口缓存不足，造成拥塞。

TCP Incast多对一通信模式

图1：TCP Incast多对一通信模式

为了实现端到端的无损转发，避免因为交换机中的Buffer缓冲区溢出而引发的数据包丢失，交换机必须引入其他机制，如流量控制，通过对链路上流量的控制，减少对交换机Buffer的压力，来规避丢包的产生。

PFC流量控制的工作机制

一旦出现瞬时拥塞，即某个设备的队列缓存消耗较快，超过一定的阈值，设备即向数据进入的方向发送反压信息，上游设备收到反压信息，会根据反压信息指示停止发送或延迟发送数据，并将数据存储在本地端口buffer，如果本地端口buffer消耗超过阈值，则继续向上反压。直到网络终端设备，从而消除网络节点因拥塞造成的丢包。

如图2所示，交换机Switch-1和Switch-2的连接端口分别创建8个优先级队列，并为每个队列分配相应的buffer，业务报文通过数据流中携带的优先级字段进行标识，buffer大小使得各队列有不同的数据缓存能力。

PFC工作机制

图2：PFC工作机制

Switch-2的第5优先级队列出现拥塞时，本端报文处理方式：

如果Switch-2使能了PFC功能，向上游设备Switch-1发送PFC Pause帧，通知对端设备暂时停止发送第5优先级队列的报文。对端设备在接收到PFC Pause帧后，将暂时停止向本端发送该类报文，暂停时间长短信息由PFC Pause帧所携带。当拥塞仍然存在时，此过程将重复进行，直至拥塞解除；
如果Switch-2没有使能PFC功能，则直接将报文丢弃。

当Switch-1收到PFC Pause帧时，其报文处理方式是：

若Switch-1使能了PFC功能，且尚未暂停发送第5优先级的报文，则暂停发送该优先级的报文，并根据PFC Pause帧中对应的暂停时间启动定时器。当定时器到期后，将恢复相应优先级报文的发送；
若Switch-1使能了PFC功能，且已经暂停发送第5优先级的报文，则根据PFC Pause帧中对应的暂停时间更新对应定时器的到期时间；
若PFC Pause帧中对应的暂停时间为0，则相当于使对应的暂停定时器立即到期，立即恢复相应优先级报文的发送；
若PFC Pause帧中对应的暂停时间不为0，则相当于复位对应的暂停定时器。也就是说，只要本端一直拥塞，则对端会因不断收到PFC Pause帧而持续暂停发送相应优先级的报文；
若Switch-1没有开启相应优先级的PFC功能，则不会暂停发送相应优先级的报文。

PFC的帧格式

Pause帧实际上是一个以太帧，IEEE802.1Qbb中定义了PFC帧的格式，如图3所示：

PFC帧格式

图3：PFC帧格式

Destination MAC Address：目的MAC地址，为01-80-C2-00-00-01；
Source Mac Address：源MAC地址，为本设备MAC地址；
Ethernet type：以太网帧长度或类型域，为88-08，用于标明本帧的类型为MAC控制帧；
Control opcode：MAC控制操作码，PFC Pause帧仅是MAC控制帧的一种，其在MAC控制帧中的操作码为01-01；
Priority enable vector：优先级使能向量，高字节置0，低字节的每个位代表相应的Time[n]是否有效。E[n]代表优先级n，当E[n]为1时，表示Time[n]有效，处理该优先级的数据流，即停止流量发送；当E[n]为0，表示Time[n]无效，忽略该优先级的数据流，即流量不受影响继续发送；
Time：时间，包含Time[0]至time[7]的8个数组单元，每个数组单元为2字节。当E[n]为0时，Time[n]没有意义。当E[n]为1时，Time[n]代表接收站点抑制优先级为n的报文发送的时间，时间的单位为物理层芯片发送512位数据所需要的时间；
Pad（transmit as zero）：预留，传输时为0；
CRC：循环冗余校验。
PFC死锁

PFC死锁，是指当多个交换机之间因微环路等原因同时出现拥塞,各自端口缓存消耗超过阈值，而又相互等待对方释放资源，从而导致所有交换机上的数据流都永久阻塞的一种网络状态。

正常情况下，当一台交换机的端口出现拥塞时，数据进入的方向(即下游设备)将发送PAUSE帧反压，上游设备接收到Pause帧后停止发送数据，如果其本地端口缓存消耗超过阈值，则继续向上游反压。如此一级级反压，直到网络终端服务器在Pause帧中指定Pause Time内暂停发送数据，从而消除网络节点因拥塞造成的丢包。

但在特殊情况下，例如发生链路故障或设备故障时，如图4所示，当4台交换机都同时向对端发送Pause帧，这个时候该拓扑中所有交换机都处于停流状态，由于PFC的反压效应，整个网络或部分网络的吞吐量将变为零。

PFC死锁

图4：PFC死锁

技术优点

基于优先级的流量控制通常在数据中心的环境中用，与其他的数据中心技术相结合，使设备可支持对丢包极为敏感的高层协议，以满足这些协议冲突时不丢包的要求，而不会影响到使用其他优先级的传统局域网协议。
和普通的流量控制技术相比，基于优先级的流量控制更加灵活。普通的流量控制技术会阻止一条链路上的所有流量，从本质上来讲，它会暂停整条链路。而基于优先级的流量控制技术可对端口上部分优先级的报文启用流量控制，而对其他优先级的报文不启用流量控制，也就是说，可以仅阻止一条链路上的部分流量，而其他的流量正常通过。和普通的流量控制技术一样，基于优先级的流量控制技术也仅适用于点对点全双工链路。

应用场景

PFC 是构建无损以太网的必选手段之一，能够逐跳提供基于优先级的流量控制。通过使用 PFC 功能，使得某种类型的流量拥塞不会影响其他类型流量的正常转发，从而达到同一链路上不同类型的报文互不影响。
PFC 多用于大型在线数据密集服务，如用于在线购物，社交媒体和网络搜索的自动推荐系统，高性能深度学习网络，NVMe 高速存储业务等应用场景。

参考资料

返回资源中心

云化园区

网络操作系统（SONiC）

可视交换机

开放硬件平台

标签： 技术实现

关注星融元

什么是生成式人工智能和大型语言模型？

LLMs有哪些应用？

LLMs如何使用深度学习算法进行训练？

比如这段文本先被标记化，再被编码化

模型计算

一卡难求的H100长这样?

数据并行性

模型并行性

流水线并行性

张量并行性

MP：模型并行组（Model Parallism）：

TP：张量并行组（Tensor Parallism）

PP：流水线并行组（Pipeline Parallism）：

DP：数据并行组（Data Parallism）：

参考：Large Language Models – The Hardware Connection (juniper.net)数据并行(DP)、张量模型并行(TP)、流水线并行(PP)_tp pp dp-CSDN博客

相关文章

下载到本地

下载到邮箱

关注星融元

什么是PXE？

PXE工作原理和配置

工作原理

相关文章

关注星融元

OpenStack简介

Kolla-Ansible简介

目标

环境准备

Kolla-Ansible部署过程

关闭SELinux 【控制节点、计算节点】

关闭防火墙【控制节点、计算节点】

禁用宿主机的 Libvirt 服务

设置主机名，hosts文件【控制节点、计算节点】

修改网卡名称【控制节点、计算节点】

安装【控制节点、计算节点】

安装编译环境【控制节点】

安装ansible【控制节点】

l 安装docker【控制节点、计算节点】

设置Docker【控制节点、计算节点】

重启相关服务【控制节点、计算节点】

安装模块【控制节点、计算节点】

安装【控制节点】

安装kolla-ansible【控制节点】

拷贝配置文件【控制节点】

配置免密登录【控制节点】

存储节点配置【计算节点】

重启服务【计算节点】

修改【控制节点】

获取docker镜像【控制节点、计算节点】

修改全局配置文件globals.yml【控制节点】

生成密码文件passwords.yml【控制节点】

修改部署文件multinode【控制节点】

检查配置【控制节点】

配置SchedNova主机基础环境【控制节点】

部署OpenStack【控制节点】

验证OpenStack安装【控制节点】

OpenStack更新【控制节点】

重启所有应用【控制节点】

环境还原【控制节点】

生成 admin-openrc.sh【控制节点】

初始demo【控制节点】

查询登录密码【控制节点】

安装OpenStack命令行客户端【控制节点】

创建实例到指定计算节点

结论

相关文章

关注星融元

VXLAN的产生背景

虚拟机规模受网络设备表项规格的限制

传统网络的隔离能力有限

虚拟机迁移范围受限

VXLAN的发展历程

VXLAN的相关概念

VXLAN的工作原理

标签：技术实现

参考：Large Language Models – The Hardware Connection (juniper.net)
数据并行(DP)、张量模型并行(TP)、流水线并行(PP)_tp pp dp-CSDN博客

2、硬件和软件环境