ネットワークドライブ上の GB オーダーのファイルに対して、複数のハッシュアルゴリズムでファイルハッシュを計算する必要に駆られていた。
「そんなシチュエーションが本当にあるのか?」と思うかも知れないが、あったのだから仕方ない。
最初は、 PowerShell を使って 愚直に Get-FileHash を 2回 計算していた。
しかし当たり前だが、 2回ファイルをダウンロードすることになるこの方法は遅くて仕方ない。
ということで、 C# でコンパイルしたコード上で、 一度メモリに読み込ませてから複数のハッシュアルゴリズムで計算できるようなコードを作成した。
バッファーサイズを 80KiB 程度とすると、 .NET の仕様で 85KB を境にメモリの扱いが変わる (LOH と呼ばれる特別なヒープに移動する) ことから、 このサイズを超えると一般的に動作速度が下がると言われている。
しかし、今回のコードの場合バッファーが小さいと、 Task 周りの処理がボトルネックになってしまうので、 8MiB くらいのサイズとしている。
80KiB としているのは、 .NET mscorlib の System.IO.Stream.CopyTo
メソッドなどでもおなじみなのだが、これが必ずしも正解とは限らないわけだな。
パフォーマンス
800Mbps 位でシーケンシャルリードできるリモート上の 4GB のファイルを、 4回 ずつ計測した平均を計測した。
Get-FileHash
の 2種類目 以外はクライアントキャッシュが効かないように注意し、 計測の各回でハッシュを計算するファイルはそれぞれ別のファイルで、中身はランダムバイナリとした。
Get-FileHash
については、 計測の各回では同じファイルに対して -Algorithm
パラメータを変えて複数回連続で呼び出した。
計算したハッシュの種類 | Get-FileHash |
上記の改良スクリプト |
---|---|---|
1種類 (SHA1) | 48.8s | 43.3s |
2種類 (MD5, SHA1) | 60.4s | 44.2s |
3種類 (MD5, SHA1, SHA256) | 83.3s | 48.2s |
ん? 計算したハッシュが 1種類 の場合でも、改良スクリプトの方が早いぞ?
うわっ… HashAlgorithm.ComputeHash
の実行速度、低すぎ…?
PowerShell v5 相当
PowerShell v6 相当
上記のように、 Get-FileHash
は、内部的に HashAlgorithm.ComputeHash
でハッシュ計算を実行している。
で、その HashAlgorithm.ComputeHash
がどうなっているかというと、 4KiB 毎に ファイルの読み込みと、 ハッシュストリームへの書き込みを 同期的に 行っている。
ファイルの読み込みも、 (使うアルゴリズムにもよるけど) ハッシュの計算も、 どちらもコストがかかるので、同期的にやってたらそりゃ遅いわ。