Ryzen 5000シリーズにおける「WHEA-Logger ID:18」の発生要因と対策の再考

2021年の記事

致命的なエラー WHEA-Logger ID:18でWindowsが落ちる

2026年の記事

致命的なエラー WHEA-Logger ID:18でWindowsが落ちる (2026年検証)

1. エラー事象

Ryzen 5000シリーズ(Zen 3)搭載システムにおいて、Windowsシステムログに「WHEA-Logger Event ID:18」が記録され、OSが突然停止(再起動またはハングアップ)する事象。

  • 発生状況: 高負荷時よりも、アイドル時、軽負荷時、または負荷の変動が激しい瞬間に発生する傾向が強い。
  • ログの内容: 「致命的なハードウェアエラーが発生しました」「コンポーネント: Processor Core」「エラーソース: Machine Check Exception」「エラーの種類: Cache Hierarchy Error(または Bus/Interconnect Error)」と報告される。

2. 技術考察(公表資料に基づく事実)

AMDおよびマザーボードメーカーの技術仕様・資料から明らかな事実は以下の通りである。

  • SoCの電力管理: Zen 3アーキテクチャは、数ナノ秒単位で個別のコアの電圧と周波数を動的に制御する「Precision Boost 2」等のアルゴリズムを搭載している。
  • 過渡応答(Transient Response)の定義: VRM(電圧レギュレータ)は、CPUの急激な電流要求に対し、物理的なインダクタンス等の影響で供給電圧が一時的に低下(Vdroop)し、その後安定するまでの応答時間を必要とする。
  • AGESAの役割: AMDはAGESA(AMD Generic Encapsulated Software Architecture)を通じて、プロセッサ内部の電力管理レジスタやブースト挙動のマイクロコードを各マザーボードメーカーへ提供している。

3. ユーザー検証による推測的な考察

AMDから詳細な内部挙動(どのレジスタがエラーをトリガーしたか)は公表されていないため、以下の点は膨大なユーザー検証に基づく推測である。

  • 電圧の過渡応答とブーストの不整合: プロセッサがブーストを開始するタイミングに対し、マザーボード側のVRMによる電圧供給の回復が数マイクロ秒単位で遅延し、一時的に駆動下限電圧を下回る瞬間が発生していると推測される。
  • Curve Optimizer(CO)の影響: COによる負のオフセット設定は、アイドル時付近の電圧マージンをさらに削るため、上述の瞬時的な電圧降下に対する耐性を著しく低下させ、エラーを誘発しやすくしていると推測される。

4. 現時点における技術的解決方法

市場の観測およびファームウェアの変遷から得られた解決策は以下の通り。

  • AGESAの更新: 2021年以降のAGESAアップデート(特に1.2.0.0以降)により、多くの環境で本事象が沈静化した。これはAMD側で電圧の遷移タイミングや、低負荷時のベース電圧の下限値を再定義したものと推測される。
  • Global C-state Controlの無効化: BIOS設定でアイドル時の深い省電力ステートへの遷移を制限することで、急激な電圧変動自体を抑制作業。
  • 特定コアの電圧補正: エラーログから特定された特定のコアに対してのみ、正のオフセット(電圧増)を加える。

5. 私が「Auto」設定を選択した理由

以上の考察に基づき、手動による詳細設定ではなく「Auto」を選択した技術的判断は以下の通りである。

  1. アルゴリズムの複雑性: 現代のSoCは、温度、電流、負荷を統合的に判断して動的に動作している。ユーザーによる静的な電圧オフセット(CO等)は、この動的なガードバンドを意図せず逸脱させるリスクが高い。
  2. 検証の限界: ユーザー側ではナノ秒単位の電力挙動を実測・デバッグすることは不可能であり、手動設定はあくまで「特定の負荷パターン」に対する対症療法に留まる。
  3. 信頼性の担保: メーカーが提供する最新のAGESAによる自律制御(Auto)に委ねることが、設計者が想定したマージンを全動作域で維持するための最も合理的かつ確実な手段であると判断したため。

6. 同じエラーで悩んでいる人に向けて

もし、あなたが今まさに「WHEA-Logger ID:18」に翻弄され、原因不明の再起動に絶望しているのなら、数年間にわたる検証を経て得られた以下の知見を、一つの指針として提示します。

  • 「不安定な設定」を「電圧」でねじ伏せない 特定コアに電圧を盛る、あるいはSoC電圧を固定するといった「足し算」の対策は、一時的な安定をもたらすかもしれませんが、それは同時にプロセッサの寿命や電力効率を損なう可能性があります。まずは「何を弄れば直るか」ではなく、**「何をデフォルト(Auto)に戻せば安定するか」**という引き算の思考を持ってください。
  • 「最新のAGESA」を信じる 2021年の混乱期とは異なり、現在はAMDとマザーボードメーカーによるマイクロコードの改善が進んでいます。古いBIOSのまま設定を弄り回すのは、古い地図で迷路を歩くようなものです。まずはBIOSを最新版へアップデートし、CMOSクリア(初期化)を行った上で、完全に「Auto」の状態で様子を見てください。
  • 「不具合」と「最適化の失敗」を切り分ける Curve Optimizer (CO) による低電圧化やメモリのOC(オーバークロック)を行っているなら、その「最適化」こそがエラーの主犯である可能性が極めて高いです。ベンチマークテストを完走できる設定が、アイドル時や負荷変動時にも安定しているとは限りません。安定性を求めるなら、「自作PCの楽しみとしてのチューニング」と「実機としての信頼性」を明確に切り分けることを検討して下さい。
  • ハードウェアの個体差を受け入れる 残念ながら、稀にどのような設定を施してもエラーが解消されない個体が存在します。その場合は、プロセッサそのものの物理的欠陥を疑う必要があります。設定の試行錯誤に数週間を費やす前に、予備のパーツ(あるいは旧世代のCPU)に載せ替えて事象が再現するかを確認する、切り分けのスピード感を大切にしてください。

最終総括

自作PCの醍醐味は、各パーツの性能を限界まで引き出すことにあります。しかし、現代の高度に複雑化したハードウェアにおいては、「何もしない(Auto設定)」を選択することが、最も高度なエンジニアリング的解決策になる場合があることを忘れないでください。

あなたのPCが、データの損失を恐れずに使い倒せる「信頼できる道具」に戻ることを願っています。