Comware 7: IRF v2 utilizando LACP com MAD

O IRF (Intelligent Resilient Framework) é uma tecnologia de virtualização de switches com o sistema Comware que permite interconectar múltiplos switches físicos, transformando-os em um único switch lógico.

Uma das coisas bacanas da utilização do IRF é a possibilidade de transformarmos diversos Switches físicos em um único Switch lógico facilitando o modo de gerenciamento. Todos os equipamentos serão visualizados como uma única “caixa”. Na versão 2 do protocolo é possível efetuar o Stacking utilizando links de 10G.

O “split brain” é um problema crítico que pode ocorrer em tecnologias de clusterização ou virtualização de dispositivos, como o IRF (Intelligent Resilient Framework) em switches Comware e ocorre quando a comunicação entre os membros do cluster é interrompida, fazendo com que cada parte do cluster passe a operar como um sistema independente, acreditando ser o único ativo. No contexto do IRF, isso significa que cada conjunto de switches isolados passa a se comportar como um switch lógico separado.

Para prevenir o split brain, o IRF utiliza o mecanismo MAD (Multi-Active Detection). O MAD monitora a conectividade entre os membros do IRF e toma medidas para evitar problemas em caso de falha na comunicação.

Como o LACP se integra ao MAD?

O LACP pode ser usado como um método de detecção MAD, oferecendo uma camada extra de proteção. A ideia principal é usar os pacotes LACP trocados entre os switches do IRF e um switch intermediário (ou outro dispositivo de rede) para monitorar a integridade da conexão.

Uma das features que podem ser utilizadas nesse cenário é a utilização de Link Aggregation distribuído (Ditribuited Link Aggregation) entre os equipamentos do IRF com Switches de acesso (sem configuração adicional no Link Aggregation).

Se um Switch empilhado apresentar algum problema, como por exemplo, problemas elétricos, o(s) outro(s) Switches serão capazes de permitir a continuidade do encaminhamento em Camada 2 e 3 (incluindo processos de Roteamento Dinâmico).

Porém, um dos problemas que o IRF pode trazer é quando ocorre uma quebra do Link 10G que mantém o IRF ativo, chamado de SPLIT. Cada caixa ira agir como se fosse o MASTER do IRF, duplicando alguns serviços e trazendo diversos conflitos na Rede.

O MAD é uma das formas para os Switches do Stack detectarem que houve o SPLIT no IRF colocando o Equipamento com o maior Member ID do IRF (não Master) em modo Recovery, bloqueando assim todas as suas portas.

Após restaurado o Link do IRF as portas serão vinculadas novamente o Stack e ao seu estado normal de encaminhamento.

Uma das formas utilizadas pelo MAD para detecção de falha é utilizando uma extensão do protocolo LACP ( Link Aggregation). No TLV do protocolo é inserido o ID do Switch membro do IRF. Nesse caso os Switches da outra ponta do Link Aggregation, encaminham de forma transparente os LACP’s para os Switches Membros do IRF.

Como no exemplo acima, se não há SPLIT no IRF, todas mensagens serão geradas pelo ID do MASTER.

Em caso de quebra do SPLIT as mensagens serão geradas com o ID de cada equipamento e nesse caso o bloqueio das portas do não-Master.

Após detecção as portas bloqueadas do IRF pelo LACP com MAD.

Configuração

A configuração abaixo deverá ser aplicada somente no Switch com o IRF versão 2 “já ativo”.

[S7500]interface bridge-aggregation 1
!Criando a Interface Bridge-Aggregation 1
[S7500-Bridge-Aggregation1] link-aggregation mode dynamic
! Ativando a troca do protocol LACP no Link Aggregation
[S7500-Bridge-Aggregation1] mad enable
! Ativando a extensão MAD no protocol LACP
[S7500-Bridge-Aggregation1] quit
[S7500] interface gigabitethernet 1/3/0/2
[S7500-GigabitEthernet1/3/0/2] port link-aggregation group 1
!Adicionando a interface ao Link Aggregation 1
[S7500-GigabitEthernet1/3/0/2] quit
[S7500] interface gigabitethernet 2/3/0/2
[S7500-GigabitEthernet2/3/0/2] port link-aggregation group 1
!Adicionando a interface ao Link Aggregation 1
[S7500-GigabitEthernet2/3/0/2] quit

Obs: Os switches de acesso conectados ao IRF pelo Link Aggregation não necessitam da configuração do MAD. Mas o fabricante sugere que esse Switch seja um equipamento H3C.

“Requires an intermediate switch, which must be an H3C switch that supports the extended LACP.”

Comandos Display

S7500] display mad
MAD LACP enabled.

Comando display após SPLIT do IRF no Switch não Master

[S7500]display mad verbose
Current MAD status: Recovery
! Switch não-Master em modo recovery após perceber o SPLIT no IRF
! (bloqueando todas as portas)
…………………………

MAD enabled aggregation port:
Bridge-Aggregation1

Obs: o modo Recovery também permite excluímos algumas portas para que continuem em estado de encaminhamento. Há também um segundo modo de utilizar o MAD para detecção de SPLIT utilizando o Protocolo BFD.

Comware 7: IRF v2 MAD + BFD

O protocolo IRF v2 permite o “empilhamento” de Switches modulares e empilháveis, trazendo inúmeras vantagens como redundância, facilidade no gerenciamento, etc.

Como citado em outros posts, um dos problemas que o IRF pode trazer ocorre quando há uma quebra do Link 10G que mantém o IRF ativo, chamado de SPLIT. Cada caixa ira agir como se fosse o MASTER do IRF, duplicando alguns serviços e trazendo diversos conflitos na Rede.

O “split brain” é um problema crítico que pode ocorrer em tecnologias de clusterização ou virtualização de dispositivos, como o IRF (Intelligent Resilient Framework) em switches Comware. Ele ocorre quando a comunicação entre os membros do cluster é interrompida, fazendo com que cada parte do cluster passe a operar como um sistema independente, acreditando ser o único ativo. No contexto do IRF, isso significa que cada conjunto de switches isolados passa a se comportar como um switch lógico separado.

Imagine um IRF com quatro switches. Se o link que conecta esses switches for interrompido no meio, o IRF se divide em dois grupos de dois switches. Cada grupo agora opera independentemente, com seus próprios endereços MAC, endereços IP de gerenciamento e tabelas de roteamento. Isso leva a sérios problemas na rede:

  • Duplicação de endereços IP e MAC: Cada parte do IRF agora pode ter o mesmo endereço IP de gerenciamento e os mesmos endereços MAC virtuais, causando conflitos na rede e tornando a comunicação imprevisível.
  • Loop de Camada 2: Se houver caminhos redundantes na rede que conectam as duas partes divididas, loops de Camada 2 podem se formar, causando tempestades de broadcast e paralisando a rede.
  • Inconsistências de roteamento: Cada parte do IRF terá suas próprias tabelas de roteamento, levando a decisões de roteamento incorretas e pacotes sendo enviados para destinos errados.
  • Perda de conectividade: Dispositivos conectados a diferentes partes do IRF dividido não conseguirão se comunicar entre si.

Causas do Split Brain em IRF:

  • Falha física nos links de interconexão: Cabos danificados, problemas nas portas dos switches ou falhas em equipamentos intermediários podem interromper a comunicação entre os membros do IRF.
  • Problemas de software: Bugs no software dos switches ou configurações incorretas podem levar à perda de comunicação entre os membros do IRF.
  • Sobrecarga da rede: Em casos extremos, uma sobrecarga massiva na rede pode afetar a comunicação entre os switches do IRF.

Mecanismos de Prevenção: MAD (Multi-Active Detection)

Multi-Active Detection (MAD) + BFD (Bidirecional Forwarding Detection)

O MAD é uma das formas para os Switches do Stack detectarem o SPLIT no IRF colocando o Equipamento com o maior Member ID do IRF (não Master) em modo Recovery, bloqueando assim todas as suas portas.

Uma das técnicas para detecção do SPLIT é com é com a utilização do protocolo BFD, criando uma VLAN somente para gerenciamento do IRF com um IP primário e secundário para comunicação do protocolo e um meio físico para conexão das “caixas” (fibra ou UTP) independente da comunicação do IRF.

Configuração

A configuração abaixo deverá ser aplicada somente no Switch com o IRF versão 2 formado.

#
Vlan 900
#
interface Vlan-interface900
description Monitoracao IRFv2 (MAD + BFD)
mad bfd enable
!Ativando o MAD + BFD
mad ip address 192.168.0.1 255.255.255.252 member 1
! Configurando o IP do Switch “1”
mad ip address 192.168.0.2 255.255.255.252 member 2
! Configurando o IP do Switch “2”
#
Obs: cada Switch deverá ter uma porta na VLAN 900 para comunicação do BFD. 
As interfaces não participarão do STP.

Comandos Display

[S7500] display mad
MAD LACP enabled.

Comando display após SPLIT do IRF no Switch não Master
[S7500]display mad verbose
Current MAD status: Detect
! Em caso de SPLIT o Switch não-Master exibiria o status como Recovery
Excluded ports(configurable):
Excluded ports(cannot be configured):
Ten-GigabitEthernet1/8/0/1
Ten-GigabitEthernet1/9/0/2
Ten-GigabitEthernet2/8/0/1
Ten-GigabitEthernet2/9/0/2
MAD LACP disabled.
MAD BFD enabled interface:
Vlan-interface900
mad ip address 192.168.0.1 255.255.255.252 member 1
mad ip address 192.168.0.2 255.255.255.252 member 2

Até logo!