Breaking News

2026.04.01 04:44 devops automation benchmark

Forkrun、GNU Parallelから最大400倍高速化。NUMA対応シェル並列化ツール公開

Q: NUMAとは何ですか？

Non-Uniform Memory Accessの略。複数のCPUソケットがあり、ローカルとリモートのメモリアクセス速度が異なるアーキテクチャ。最新の高性能CPUの標準的な構成です。

Q: Q5: Forkrunの動作に必要な環境は？

A5: 記事本文では具体的な環境要件が記載されていません。インストール時に埋め込まれたCエクステンションが自動コンパイルされるため、適切なLinux環境が必要とされますが、詳細な最小要件については公式リポジトリを参照してください。

⚡ ニュース

TL;DR

シェルベースのデータ処理を50～400倍高速化するNUMA対応の並列実行ツール「Forkrun」がGitHubで公開。CPU利用率95～99%を実現し、既存ツールを大幅に上回る性能。

何が起きたか

GitHubで公開されたオープンソースツール「Forkrun」は、GNU Parallelやxargsの後継となるNUMA対応の並列実行ツール。14コア28スレッドのi9-7940xで実施した100M行のベンチマークでは、ファイル処理で最大415倍、stdin passthrough時に最大256倍の高速化を実現。CPU利用率ではGNU Parallelの6%に対し95～99%を達成している。

背景と経緯

GNU Parallelやxargsといった既存の並列化ツールは、正規表現パースとIPC（プロセス間通信）のオーバーヘッドにより、マルチソケットサーバーで処理がボトルネックになっていた。特にNUMA（Non-Uniform Memory Access）アーキテクチャを持つ最新CPUでは、ソケット間のメモリトラフィックが無視できず、多くのコアが遊休状態に陥るという問題があった。Forkrunはこうした物理層の制約を設計段階から考慮し、完全に異なるアプローチで開発された。

技術的な詳細

Forkrunのアーキテクチャ

Forkrunの高性能の秘密は、メモリのローカリティを保証する「Born-Local NUMA」設計にある。スレッド間の競合を排除し、各NUMAノード上で独立した処理を実行することで、不要なクロスソケット通信を最小化する。

主な設計原則

splice()でstdinからメモリバッファにデータを直接転送
set_mempolicy(MPOL_BIND)で各チャンクを対象NUMAノード上に事前配置
各ソケットにピン止めされたワーカーが独立した処理を実行
lock-freeリングバッファを使用した競合ゼロの通信メカニズム

適応的なチューニング

Forkrunはバッチサイズを自動調整する機能を備えている。ユーザーが-nや-jパラメータを指定する必要なく、実行環境に応じた最適な設定が自動的に適用される。

具体的なベンチマーク結果

パフォーマンス比較表（i9-7940x、100M行）

ワークロード	Forkrun	GNU Parallel	高速化倍率	備考
デフォルト（配列+完全引用符、no-op）	24 M行/s	58 k行/s	415×	Forkrun標準モード
出力順序保証（-k、no-op）	24.5 M行/s	57 k行/s	430×	順序付けはForkrunでは無料
echo（行引数）	22.6 M行/s	55 k行/s	410×	典型的なシェルコマンド
printf出力（I/O処理重）	12.8 M行/s	58 k行/s	220×	フォーマット+出力オーバーヘッド
stdin passthrough（-s、no-op）	893 M行/s	6.05 M行/s	148×	ストリーミング・splice使用
524288バイトバッチ（-b）	大容量バッチ処理対応	6.02 M行/s	256×	カーネルリミット到達

CPU利用率（ベンチマーク平均）

ツール	利用率	有効コア	解説
Forkrun	95～99%	全コア稼働	全コアが実際の作業を実行
GNU Parallel	6%	一部のみ	コア遊休が発生

使用方法と実装

インストール

Forkrunは単一のBashファイルで配布され、埋め込まれた自己抽出型のCエクステンション付属。外部依存なし（Perl、Python不要）。

source <( curl -sL https://raw.githubusercontent.com/jkool702/forkrun/main/frun.bash )

スクリプトをソースすると、シェル環境にC loadable builtinが設定される。

実装例

# カスタムBash関数を並列化
frun my_bash_func < inputs.txt

# パイプベースの入力、順序付き出力
cat file_list | frun -k sed 's/old/new/'

# stdin passthrough、順序付き出力
frun -k -s sort < records.tsv

# stdin passthrough、ユニークな出力名
frun -s -I 'gzip -c >{ID}.gz' < raw_logs

セキュリティと検証可能性

Build検証

埋め込まれたCエクステンション（forkrun_ring.c）はGitHub Actionsで透過的にコンパイルされ、Base64 blobとして挿入される。git blameを追跡することで、バイナリが公開CI実行まで遡れるため、隠れた悪意のあるコードが含まれていないことを保証できる。

実装概要と主な特性

パフォーマンス指標

バッチディスパッチレート：200,000+/秒（GNU Parallel ~500/秒）
CPU利用率：95～99%全コア（GNU Parallel ~6%）
クロスソケットメモリトラフィック：ほぼゼロ（NUMA対応「born-local」設計）

用途

Forkrunは高頻度・低レイテンシーのワークロードを深いNUMAハードウェアで実行する際に最適。既存ツールがIPCオーバーヘッドとクロスソケットデータ移行によるコア遊休を避けられない領域で威力を発揮する。

参考リンク

この記事はAI業界の最新動向を速報でお届けする「AI Heartland ニュース」です。

よくある質問

Q. Forkrunとは何ですか？

GNU Parallelやxargsの後継となるNUMA対応の並列実行ツール。シェルベースのデータ処理を50～400倍高速化し、CPU利用率95%以上を実現します。

Q. GNU Parallelと比べてどのくらい高速ですか？

14コア28スレッドのi9-7940xで測定時、ファイル処理で最大415倍、stdin passthrough時で最大256倍の高速化を実現。CPU利用率ではGNU Parallelの6%に対し95%以上を達成。

Q. Forkrunをインストールするにはどうしますか？

単一のBashファイルで配布。`source <( curl -sL https://raw.githubusercontent.com/jkool702/forkrun/main/frun.bash )`を実行するだけでインストール完了。外部依存なし。

Q. NUMAとは何ですか？

Non-Uniform Memory Accessの略。複数のCPUソケットがあり、ローカルとリモートのメモリアクセス速度が異なるアーキテクチャ。最新の高性能CPUの標準的な構成です。

Q. Q5: Forkrunの動作に必要な環境は？

A5: 記事本文では具体的な環境要件が記載されていません。インストール時に埋め込まれたCエクステンションが自動コンパイルされるため、適切なLinux環境が必要とされますが、詳細な最小要件については公式リポジトリを参照してください。

X 🧵 FB LINE B!

🔔 AI速報、毎日Xで配信中

Claude Code・MCP・AIエージェントの最新ニュースをいち早くお届け

@peaks2314 をフォロー

← Cohere、音声認識モデル「Transcribe」をオープンソース公開—HuggingFace ASRレーダーボードで第1位 PostgreSQL用BM25全文検索拡張がv1.0.0でプロダクション化—Timescale開発 →