[パソコン] 原因不明のクラッシュから回復: GPU&Thunderbolt4取り外しとメモリ検査

はじめに

ゲーム開発が停滞してますが、一応継続はしていて、最近は動画生成AIを連日動かしてゲームにつかうアセットデータをせっせと作成しています。

それに伴い、パソコンが原因不明のクラッシュをするようになり、一日に数回程度なので再起動しつつ放置してたのですが、 昨日重い腰を上げて原因を探ろうと、GPUとThunderbolt4を取り外し、清掃と原因検証をした内容です。

結論から言うと、直りましたが、具体的な原因は不明です。

1. 症状の発生

Windowsがクラッシュ、停止

症状としては、突然フリーズして自動で再起動し、Windowsシステムログに情報が残るも、原因不明という感じです。

過去の経験上、この手のエラーは、電源やメモリ、ドライバに不具合があると起こりやすいです。

どんな時にクラッシュするのか?

動画生成AIを動かしてる最中にダウンするケースが多いので、GPU周りか、メモリ、電源に恐らく問題ありとみてよさそうです。

メモリは動画生成してる際に物凄く使用量は増えますので、過去、64GBまで増設しています。
16GBを4枚刺しなので、どれか1つでも壊れていたらクラッシュ。
なので今回は時間のかかるメモリテストも行いました。

電源は、予備を持っていないので、今回は検証していません。

GPUの温度

アイドル時は50度ちょっとで安定し、ファンは無回転。

動画生成時に、高負荷がかかると、一時的に85℃をオーバーし、ファンが高速回転。
その後は50-60℃で安定。

Nvidia ドライバ バージョン

GPU界隈の情報収集してる人ならもうご存じだと思いますが、Nvidiaのドライバで比較的新しいバージョンを使うと不都合が頻発しており、ニュースになる程。

安定バージョンは、566.36という情報が出回っていて、うちではこのバージョン固定で利用しています。
ただ、566.36でも環境により不具合が出るケース報告例もあり。

2. GPU・Thunderbolt4 AICの取り外し

GPUの発熱を疑い、Thunderbolt4も合わせて取り外し

1年半ぶり?にGPUを取り外しました。
GPU周りは掃除できないので埃が結構たまってました。
GPUを取り外すことは、滅多にないので念入りに掃除。

ASRock Thunderbolt4 AIC カードを取り外し

ASRock Thunderbolt4 AIC カードも取り外し。



外した理由は、RTX4070TiとASRockのThunderbolt4カードをDisplayPort経由で接続し、Thunderbolt4 → HDMI2分配アダプタでモニタに接続というややこしい事をしていて、その辺でトラブルが起きてるのかもしれないと思い、原因追及の為に外しています。

将来的に、Thunderbolt4の高性能dockを購入して、そこでモニタ接続を一括管理しようと思ってたのですが、高すぎて結局買わず安価な中華製アダプタを利用して安定してたのでそのまま使い続けていました。

なので、その辺りに原因がある可能性もある為、最小構成にもどしました。

GPUの埃が凄い…

GPUを外して驚いたのは、思った以上に埃が多かった事。

したから覗き込むと分からなかったのですが、よく見ると埃でファンの奥に壁が出来てしまっています…。

これでは、エアフローが悪くなるのは当然ですし、壁が出来ているのでヒートシンクへ風が殆ど流れてなかったのではないかと思います。
クラッシュ原因はこれではないかとこの埃の壁を見た時に思いました…。

GPU周辺を掃除

当然ですが、エアダスターや刷毛などを使って徹底的に掃除しました。

写真に写ってるのは学生時代に使っていた書道の筆で、過去ジャンク修理などを趣味でよくやっていて、基盤や埃の掃除をする際に、あれこれ試した結果、この筆が一番使いやすかったので、ずっと愛用し続けてボロボロになっています。

細かいファンの溝や、奥まで筆の先が届くので、掃除をするのがかなり楽ですが、見ての通り使いすぎて毛がもうかなり擦り減って無くなっています。

筆の届かない細かいところは、エアダスターで掃除

清掃後、新品のように綺麗になりました。

ついでにケースファンも掃除。
ファンが色・サイズ違いになっているのは、故障して手持ちの物に交換した為

ThunderboltのEDID干渉や通電の不具合も視野に

Thunderbolt4カードも掃除して、使わなくなったのでケースに戻しました。

こういうケーブル類は適当に置くと後で必要になった時に何処にあったのか分からなくなるので、ケースに全部戻しています。
不要になった際にフリマサイトで売る際にもこうしておけば直ぐ出せます。






過去記事でThunderboltのEDID干渉で画面が映らなかった問題があったので、その事も踏まえて今回は不都合検証で外しています。

配線を整理して元に戻す

ケース内も掃除して、配線がごちゃごちゃしていたのを整理し、元に戻しました。

新品とまではいかないですが、かなり綺麗になったと思います。
月に1回ぐらいこういう掃除をしたい所ですが、GPUを何度も外すのは接触不良になったり、スロットダメージも気になるので、余りやりたくないですが、 ただ、この埃の壁を見た以上は、半年か1年に一回はこういう大掛かりな掃除は必要ですね…。



3. メモリチェック

メモリスロットの接点不良を疑い、全スロットを再装着。

Memtest86やWindowsメモリ診断を実施。

昔からある、Memetestという専用アプリを使い、メモリテストをしようかと思ったのですが、検索するとWindows11には標準でメモリ診断ツールがあるようなので今回はそれを利用。

タスクバーの検索ボタン(虫眼鏡アイコン)をクリックして表示された検索窓に「メモリ」と入力します。すると検索結果に「Windows メモリ診断」と表示されてますので、これをクリック。

自動で再起動すると、診断ツールが動きます。
DDR4 64GBで、終了までにかかった時間は、大体ですが1時間ぐらいだったと思います。
もしやられる場合は、時間にゆとりをもって実行された方がいいと思います。

終了すると、勝手にWindowsが立ち上がり、結果は、システムログをみると確認できます。

メモリに異常は無かったようです。

メモリの温度検証

メモリの温度もクラッシュ原因になるようなので、赤外線温度計でチェックしましたが、高負荷時でも50℃ちょっとだったので異常はなさそうでした。

写真では47度になってますが、メモリカバーの表面温度なので、AIに聞くと+5℃ぐらいで考えた方がいいとの事でした。

4. 復旧と考察

GPU温度が著しく低下

GPUに溜まっていた埃の影響でエアフローがかなり悪くなっていた為、掃除する事で改善するとは思いましたが、想像以上にその効果は大きく 高負荷には85℃前後まで上昇していたGPU温度が、なんと70℃前後まで低下 しました。

「メモリの温度検証」の写真は、動画生成AIを動かし、最高負荷時に温度計測してるので、GPU温度はたった71度までしか上がってません。
以前は、85℃になってましたので、劇的に改善しています。

動画生成をするたびに、ファンが爆音で回っていたのが、ほぼ無くなりました。
尚且つ、アイドル状態では、回転さえしなくなっていますので、ほんと劇的に改善しています。

エアフローを遮断し、保温効果まであったようで、埃の恐ろしさを実感しました…。

GPUってそんなに埃が溜まる?

過去、自作PC歴を振り返って、GPUを何度も外したり取り付けたりしてますが、 1,2年掃除をしなかったとしても、ここまで埃が溜まったケースを見たことがないです。

なので、GPUのファンの内部の掃除は、買い替えるまでしなくていいと思い込んでました…。

ではなぜここまで埃が酷くなったのか?

生成AI系を良く動かしていたのでファンの回転数の上昇に伴い、ケース周辺の埃を全部吸い上げてヒートシンクへため込んでいたせいだと思います。

アイドル状態では、ファンは全く回転していないので、埃が溜まる事はまずありえないです。 尚且つ、ケース内の掃除を定期的にしているので、GPUも綺麗だと思い込んでました。

それが盲点でしたね…。

今後は、月に一回は、下からライトで埃の状態をチェックした方が良さそうです。

全くクラッシュしなくなる

昨日は、ゲーム用のアセットデータ作成の為に半日ほどバックで動画生成を行いつつPCで作業していましたが、以前なら数回はクラッシュしてましたが、全く落ちなくなりました。

なので、クラッシュ問題は解決したとみてよさそうです。

GPU再装着→正常動作、Thunderboltは未確認または復帰後に再検証

Thunderbolt4 AICカードも外してますので、そこに原因があった可能性は否定できないです。

この辺りは、再度カードを装着して動作検証しないと原因の切り分けが難しいです。

Thunderbolt4カードは、画面出力用としてしか使ってなかったので、環境を戻したことでもう不要になりました。

ただ、高速通信できますし、周辺機器も増えてきてるので再度利用するかもしれません。

通電や帯電、静電気による不具合の可能性も

他の原因として、電源を上げていましたが、症状の改善を見る限り電源に問題はなさそうです。

あと、埃による静電気や不都合の可能性も否定できないので、大掃除したことでその辺が不都合が解消されたのかもしれないです。

まとめ

動画生成AIをローカルで動かしていた際に、クラッシュしていた問題は、無事解決しました。

原因に関しては、GPUにたまった埃によるエアフローの悪化で温度上昇し、不都合が出ていたとみていますが、ほんとの原因は正直分からないです。

温度上昇が原因なら、85℃を超えた時に、ダウンするはずですが、実際はその後しばらくしてから落ちてるので…。 尚且つ、アイドル状態でも落ちたことがあります。

なので、Thunderbolt4カードが影響していた可能性も否定できないです。

今回の検証で一番身に染みて分かったのは、GPUには想像以上に埃が溜まる事。
ケース内の掃除は週一ぐらいでしていますが、目に見えない&手の届かない場所だったのでほんとに気づかなかったです。

ただ、新品でGPUを購入時に生成AIで高負荷をかけてもファンはそんなに回転してなかったので、何時からかファンが高速回転するようになり、 それが、生成AIの最適化の問題だと思い込んでいたので、埃が原因だとは思わなかったです。

今回の件を教訓に、最低でも一年に一回は、GPUを取り外して掃除をしようと思います。