概要
GLM-Skillsは、中国のAI企業Zhipu AI(智譜AI)が開発するGLMファミリーのモデル向け公式スキル集。これまで個別のモデルリポジトリに分散していたスキル(画像認識、文書処理、コード生成など)を1つのリポジトリに統合してオープンソース化した。
対応するAIコーディングエージェントは以下の4つ:
- Claude Code(Anthropic)
- OpenCode
- OpenClaw
- AutoClaw
つまり、Claude Codeのスキルとしてそのまま読み込める設計になっている。「マルチモーダルAIにできること」を、実際に動くスキルとして具体化したリポジトリだ。
全スキル一覧
30以上のスキルが4つのカテゴリに整理されている。
GLM-V(マルチモーダル)— 10スキル
画像・動画・ドキュメントを理解して、別の形式に変換するスキル群。
| スキル | できること |
|---|---|
| glmv-caption | 画像・動画・ドキュメントのキャプション・説明文を自動生成 |
| glmv-doc-based-writing | PDF/DOCXを読み取り、論文・記事・レポートを執筆 |
| glmv-grounding | 画像・動画内のオブジェクトを検出し、バウンディングボックスで可視化 |
| glmv-pdf-to-ppt | PDFをマルチスライドHTMLプレゼンテーションに変換 |
| glmv-pdf-to-web | 研究論文をアカデミック向けプロジェクトWebサイトに変換 |
| glmv-prd-to-app | PRD(要件定義書)からフルスタックWebアプリを構築 |
| glmv-prompt-gen | 画像からMidjourney/Stable Diffusion/DALL-E用のプロンプトを生成 |
| glmv-resume-screen | 履歴書をユーザー定義の基準で審査・評価 |
| glmv-stock-analyst | 香港・A株・米国株のマルチソース株式分析レポート生成 |
| glmv-web-replication | 既存Webサイトのフロントエンドを視覚的に複製 |
GLM-OCR — 5スキル
画像やPDFからテキスト・表・数式を抽出するスキル群。
| スキル | できること |
|---|---|
| glmocr | 画像・PDFからのテキスト抽出(汎用OCR) |
| glmocr-formula | 数式をLaTeX形式で抽出 |
| glmocr-handwriting | 手書き文字の認識 |
| glmocr-sdk | GLM-OCR SDK CLIによるドキュメント解析 |
| glmocr-table | 表をMarkdown形式で抽出 |
GLM-Image — 画像生成系
テキストから画像を生成するスキル群。CogView等のモデルベース。
GLM-Video — 動画生成系
テキストや画像から動画を生成するスキル群。CogVideoX等のモデルベース。
クイックスタート
Claude Codeで使う場合
リポジトリをクローンして、使いたいスキルのディレクトリをプロジェクトに配置する。
# リポジトリのクローン
git clone https://github.com/zai-org/GLM-skills.git
# 使いたいスキルを確認
ls GLM-skills/skills/
各スキルディレクトリには、エージェントが読み取れるスキル定義ファイルが含まれている。Claude Codeの場合、プロジェクトルートにスキルを配置すれば自動認識される。
# 例: PDF→PPTスキルをプロジェクトに追加
cp -r GLM-skills/skills/glmv-pdf-to-ppt ./skills/
スキルの実行例
Claude Code上でスキルを読み込んだ後、自然言語で指示するだけで実行される。
# Claude Codeでの使用例
> このPDFをプレゼンテーションに変換して
→ glmv-pdf-to-ppt スキルが発動
> この画像に写っているオブジェクトを検出して
→ glmv-grounding スキルが発動
> このWebサイトのデザインを再現して
→ glmv-web-replication スキルが発動
アーキテクチャ
GLM-Skillsの全体像を図示する。スキルリポジトリがハブとなり、各AIエージェントからスキルを呼び出す構造。
flowchart TD
A["GLM-Skills リポジトリ<br/>(統合スキル集)"]
A --> B["GLM-V<br/>マルチモーダル<br/>10スキル"]
A --> C["GLM-OCR<br/>文字認識<br/>5スキル"]
A --> D["GLM-Image<br/>画像生成"]
A --> E["GLM-Video<br/>動画生成"]
F["Claude Code"] --> A
G["OpenCode"] --> A
H["OpenClaw"] --> A
I["AutoClaw"] --> A
style A fill:#e8f5e9
style B fill:#e1f5ff
style C fill:#fff3e0
style D fill:#f3e5f5
style E fill:#fce4ec
ポイントはスキルがエージェント非依存であること。同じスキル定義をClaude CodeでもOpenCodeでも使える。エージェントを乗り換えても、スキル資産が無駄にならない。
競合・類似ツールとの比較
| 項目 | GLM-Skills | Claude MCPサーバー | LangChain Tools | OpenAI Functions |
|---|---|---|---|---|
| 提供形態 | スキルリポジトリ | プロトコル+サーバー | Python関数 | API定義 |
| マルチモーダル | ◎(画像・動画・OCR・生成) | △(サーバー依存) | △(拡張必要) | ○(GPT-4V) |
| 対応エージェント | 4種(Claude Code等) | Claude専用 | LangChain専用 | OpenAI専用 |
| ドキュメント変換 | ◎(PDF→PPT, PDF→Web) | × | △ | × |
| オープンソース | ◎ | ○ | ◎ | × |
| セットアップ | git cloneのみ | サーバー起動必要 | pip install | APIキー必要 |
GLM-Skillsの強みはマルチモーダル処理の幅広さと複数エージェント対応。特にPDF→PPT、PRD→アプリといった実務直結のスキルは他にない。
注目スキルの詳細
glmv-prd-to-app:要件定義書からアプリを自動生成
PRD(Product Requirements Document)をインプットとして、フルスタックのWebアプリケーションを自動構築する。プロトタイプ画像やワイヤーフレームも入力として受け付ける。
想定される使い方:
- スタートアップのMVP開発:PRDを書いたらアプリが出てくる
- 社内ツールの高速プロトタイピング
- デザイナーのモックアップをそのまま実装
glmv-stock-analyst:マルチ市場の株式分析
香港市場・A株(中国本土)・米国株を対象に、複数のデータソースから情報を収集し、分析レポートを自動生成する。
glmv-web-replication:Webサイトの視覚的複製
既存のWebサイトのスクリーンショットを入力として、フロントエンドのHTMLを自動生成する。デザインの再現やリバースエンジニアリングに活用可能。
まとめ
GLM-Skillsは「AIモデルに何ができるか」を具体的なスキルとして切り出し、誰でも使える形でオープンソース化したプロジェクト。
向いている人:
- Claude Codeを日常的に使っているエンジニア
- マルチモーダルAI(画像・動画・文書)を業務に組み込みたい人
- PDFの変換・OCR・画像生成を自動化したい人
注意点:
- GLMモデルへのAPIアクセスが必要なスキルがある(ローカル実行不可の場合あり)
- 48スター(2026年4月時点)とまだ初期段階。今後のスキル追加・品質向上に期待
- 日本語ドキュメントはなし。README・スキル定義は英語
X投稿で紹介されている通り、「マルチモーダル理解を超えて、ビジョンを実際の生産性に変える」というコンセプトのツール。AIエージェントのスキル拡張に興味がある人は試してみる価値がある。