Cisco UCS PE 3.1(2bPE1)でMinor Faluts発生

概要

・UCS PEを起動したら、Minor Faluts(障害コード: F0184)発生していた。

・Memory Eventログが取得できない中、パソコンがスリープ。

・UCS PEはMemory Eventログが取得できない?

----------------------------------------------------------------------------------------------------------------------

参考サイト

・障害コードの解説;

Cisco UCS リリース 3.1(3) 障害およびエラー メッ セージ リファレンス ガイド - Cisco UCS の障害 [Cisco Unified Computing System] - Cisco

・UCSのRelease情報の調査方法

https://www.cisco.com/c/ja_jp/support/docs/servers-unified-computing/ucs-manager/110512-ucs-firmware-versioning.pdf

・DIMMの意味

DIMMとは - IT用語辞典

・UCS ManagerでのDIMMの特定方法

交換前後の確認項目 - B シリーズ サーバ - Cisco Support Community

・UCS B-Series メモリー(DIMM) の交換手順

UCS B-Series メモリー(DIMM) の交換手順 - Cisco Support Community

----------------------------------------------------------------------------------------------------------------------

Cisco UCS PE 3.1(2bPE1)を操作していたところ、Minor Faultsが発生。

f:id:mm2911:20180321115059p:plain

 

資料を探すために、Firmwareのバージョンを確認

f:id:mm2911:20180321121557p:plain

 

障害コード(F0184)に対する対応方法

f:id:mm2911:20180321123317p:plain

 

障害コード(F0184)のALMが多数発生。

f:id:mm2911:20180321125105p:plain

 

 

Server5のMemoryを確認するとOperabilityがDegrated。

f:id:mm2911:20180321132813p:plain

 

 

 

正常なServer3のMemoryを確認するとOperabilityはN/A。

f:id:mm2911:20180321132608p:plain

 

Server5のMemoryのEventを確認中、パソコンがスリープ。。。

f:id:mm2911:20180321141906p:plain

 

再度、UCS PEにログインしManor Faultsが継続していることを確認。

f:id:mm2911:20180321143433p:plain

 

交換手順に従って、UCSの電源状態を確認したところ電源状態はOff。

f:id:mm2911:20180321144301p:plain

 

⇒Server5をリセットしても事象変わらず。UCS PEの仕様で復旧しない可能性もあることから切り分け終了。

Cisco UCS PE 3.1(2bPE1)をさわってみた④

”Equipment>Thermal”を見てみた。

---------------------------------------------------------------------------------------------------------------------

Equipment>Thermal

Cisco UCSのChassisとFabric interconnectが表示される。

f:id:mm2911:20180320231941p:plain

f:id:mm2911:20180321002101p:plain

 

Equipment>Thermal>Chassisで右クリック

f:id:mm2911:20180320235321p:plain

 

Equipment>Thermal>IO Moduleで右クリック

f:id:mm2911:20180320235543p:plain

 

Equipment>Thermal>PSUで右クリック

f:id:mm2911:20180320235733p:plain

 

Equipment>Thermal>Serverで右クリック

f:id:mm2911:20180320235758p:plain

 

Equipment>Thermal>Adapterで右クリック

f:id:mm2911:20180321000152p:plain

 

Equipment>Thermal>Motherboardで右クリック

f:id:mm2911:20180321001057p:plain

 

Equipment>Thermal>Mem Arrayで右クリック

f:id:mm2911:20180321001418p:plain

 

Equipment>Thermal>Memoryで右クリック

f:id:mm2911:20180321001622p:plain

 

Equipment>Thermal>Fabric Interconnectで右クリック

f:id:mm2911:20180321003101p:plain

 

Cisco UCS PE 3.1(2bPE1)でMajor Faluts発生

概要

・UCS PEを起動したら、Major Faluts(障害コード: F0317)発生していた。

Ciscoの推奨措置に従って、サーバのRe Acknowledgeを実施するも復旧せず。

・UCS PEはshow tech support fileを作成できない模様。

 

----------------------------------------------------------------------------------------------------------------------

参考サイト

Cisco UCS の障害 - Cisco Systems

 

----------------------------------------------------------------------------------------------------------------------

メモ

 

UCS PEを起動したら、Major Faluts(障害コード: F0317)発生。

f:id:mm2911:20180318182104p:plain

 

UCS PEではFaultが発生している対象が視覚的にわかりやすい。

 

f:id:mm2911:20180318181555p:plain

 

f:id:mm2911:20180318182615p:plain

 

新規に立ち上げただけだが、"Status: inoperable"となっている。。。

          f:id:mm2911:20180318182926p:plain

 

Chassis 5の他のServerはOperable。

f:id:mm2911:20180318184052p:plain

 

f:id:mm2911:20180318184636p:plain

 

f:id:mm2911:20180318184809p:plain

Server 3に対して何ができるか、確認してみる。

f:id:mm2911:20180318190107p:plain

 

View Health LED Alarmsを選択してみるも、変化なし。

f:id:mm2911:20180318190307p:plain

 

Toggle Locator LEDを選択してみるも、変化なし。

f:id:mm2911:20180318190417p:plain

 

Toggle FP Buttonsを選択してみるも、変化なし。

f:id:mm2911:20180318190539p:plain

 

Reset All Memory Errorsを選択してみるも変化なし。

f:id:mm2911:20180318190946p:plain

f:id:mm2911:20180318191115p:plain

f:id:mm2911:20180318191507p:plain

 

Recover Server>Re acknowledgeを実行するも変化なし。

f:id:mm2911:20180318191954p:plain

f:id:mm2911:20180318192052p:plain

f:id:mm2911:20180318192138p:plain

f:id:mm2911:20180318192751p:plain

 

 

Reset Serverを選択してみるも、変化なし。

f:id:mm2911:20180318193119p:plain

f:id:mm2911:20180318193332p:plain

f:id:mm2911:20180318193424p:plain

f:id:mm2911:20180318194427p:plain

 

障害コード: F0317で検索すると下記推奨措置を発見。POST(Power On Self Test, 電源投入時自己診断テスト)の結果を確認するもデータなし。サーバーの再認識を試しているのに復旧しない。。。

f:id:mm2911:20180318194923p:plain

f:id:mm2911:20180318195137p:plain

 

show tech supportファイルを作成してみるも失敗。

f:id:mm2911:20180318201247p:plain

f:id:mm2911:20180318201614p:plain

*CIMC: Cisco Integrated Management Controller

 

 

f:id:mm2911:20180318201931p:plain

 

f:id:mm2911:20180318201957p:plain

 

f:id:mm2911:20180318202041p:plainI

*IOM:  I/Oモジュール 

 

f:id:mm2911:20180318202102p:plain

 

f:id:mm2911:20180318202117p:plain

これ以上対応方法がわからず、切り分けを断念。

Cisco UCS PE 3.1(2bPE1)をさわってみた③

”Equipment>Servers”を見てみた。

---------------------------------------------------------------------------------------------------------------------

Equipment>Servers>Blade Servers

・Blade Serverが表示される。Server1など同じ名前がName欄にあるのは、複数のChassisにServer1が搭載されているから。

f:id:mm2911:20180317214803p:plain

Equipment>Servers>Rack Mount-Servers

・Rack Mount-Serverが表示される。

f:id:mm2911:20180317215452p:plain

 

Equipment>Servers>Blade Servers>右クリック>Show navigator

f:id:mm2911:20180318204438p:plain

 

・Equipment>Servers>Blade Servers>右クリック>Create Service Profile for Server

 

試しにtest1というプロファイルを作成してみるも、Mac Addressが不足しているためconfiguration-failureが発生。

f:id:mm2911:20180318204719p:plain

f:id:mm2911:20180318204843p:plain

f:id:mm2911:20180318204919p:plain

f:id:mm2911:20180318205229p:plain

f:id:mm2911:20180318210759p:plain

 

・Equipment>Servers>Blade Servers>右クリック>Set Desired Power State

デフォルトはすべてのServerがdownしている。でもfalut informationなどは収集されている。upを選択してもPower Statusはoffのまま。Emulatorの仕様?

f:id:mm2911:20180318205902p:plain

f:id:mm2911:20180318210458p:plain

 

f:id:mm2911:20180318210427p:plain

 

・Equipment>Servers>Blade Servers>右クリック>Boot Server

Boot processを走らせているとポップアップが出てきたけど、FSM(Finite State Machine)のプロセスは始まっていない。これも仕様?

f:id:mm2911:20180318210915p:plain

f:id:mm2911:20180318211001p:plain

f:id:mm2911:20180318211418p:plain

 

 

Cisco UCS PE 3.1(2bPE1)をさわってみた②

”Equipment>Fabric Interconnects”を見てみた。

---------------------------------------------------------------------------------------------------------------------

Equipment>Fabric Interconnects>Fabric Interconnects

・Fabirc Interconnect(Primary)とFabric Interconnect(Subordinate)が表示される。

f:id:mm2911:20180317195334p:plain

・開いていくとPortの収容状態が表示される。

f:id:mm2911:20180317195742p:plain

・Portをダブルクリックするとポートのポロパティが表示される。

f:id:mm2911:20180317200326p:plain

・ポートを右クリックするとポートに対するアクションが表示される。

f:id:mm2911:20180317200923p:plain

・Portを右クリックして試しに"Configure as Server Port"を選択すると、Overall StatusがUpとなってすぐに登録される。接続先を登録しなくてもUpになるのは、Emulatorの仕様?

f:id:mm2911:20180317213321p:plain

 

 

Cisco UCS PE 3.1(2bPE1)をさわってみた①

Cisco UCS PE 3.1(2bPE1)をさわってみた。

画面左のEquipment, Servers, LANなど選択して画面を切り替える。

Main Topology Viewを見てみた。

 ---------------------------------------------------------------------------------------------------------------------

Equipment>Main Topology View

f:id:mm2911:20180317183632p:plain

デフォルトで下記機器が使用されている。

・Fabric Interconnect A(Primary)

・Fabric Interconnect B(Subordinate)

・FEX1

・FEX2

・Server1~7

・Chassis 3~5

機器をマウスでダブルクリックすると機器詳細画面が表示される。

・Fabric Interconnect A(Primary)

f:id:mm2911:20180317185958p:plain

 

・Fabric Interconnect B(Subordinate)

f:id:mm2911:20180317190155p:plain

 

・FEX1

f:id:mm2911:20180317190312p:plain

・FEX2

f:id:mm2911:20180317190440p:plain

・Server1

f:id:mm2911:20180317190610p:plain

・Server2

f:id:mm2911:20180317190815p:plain

・Server3

f:id:mm2911:20180317190901p:plain

・Server4

f:id:mm2911:20180317191352p:plain

・Server5

f:id:mm2911:20180317191621p:plain

・Server6

f:id:mm2911:20180317191827p:plain

・Server7

f:id:mm2911:20180317191914p:plain

・Chassis 3 

f:id:mm2911:20180317193039p:plain

 ・Chassis 4

f:id:mm2911:20180317194457p:plain

 ・Chassis 5

f:id:mm2911:20180317194803p:plain

 

  ・Chassis 6

f:id:mm2911:20180317194907p:plain

GNS3、Fabirc Pathで"sh fabricpath conflict"系コマンドをたたいてみた。

以前、設定したFabric PathのPODで"sh fabricpath conflict"系コマンドをたたいてみた。
mm2911.hatenablog.com

 

L1# sh fabricpath conflict ?
all Show all
link Show links
switch-id Show switch-ids
transitions Show transitions

L1# sh fabricpath conflict all
No Fabricpath ports in a state of resource conflict.


No Switch id Conflicts

No transitions in progress

L1# sh fabricpath conflict link
No Fabricpath ports in a state of resource conflict.

L1# sh fabricpath conflict switch-id

No Switch id Conflicts

L1# sh fabricpath conflict transitions
No transitions in progress

L1#