GLM-Skillsとは何ですか？

GLMファミリーのモデルが持つ能力を「スキル」として切り出し、1つのリポジトリに統合した公式コレクション。Claude Code、OpenCode、OpenClawなどのAIエージェントから呼び出して使える。

どのAIエージェントで使えますか？

Claude Code、OpenCode、OpenClaw、AutoClawに対応。各エージェントのスキル読み込み機能を通じて利用可能。

プログラミング知識がなくても使えますか？

各スキルにはプロンプトテンプレートが含まれており、対応するAIエージェント上でスキルを読み込むだけで利用可能。ただし、カスタマイズにはPython等の知識が必要。

GLM-Skills：AIエージェント向け30以上のスキルを統合公開したOSS

概要

GLM-Skillsは、中国のAI企業Zhipu AI（智譜AI）が開発するGLMファミリーのモデル向け公式スキル集。これまで個別のモデルリポジトリに分散していたスキル（画像認識、文書処理、コード生成など）を1つのリポジトリに統合してオープンソース化した。

対応するAIコーディングエージェントは以下の4つ:

Claude Code（Anthropic）
OpenCode
OpenClaw
AutoClaw

つまり、Claude Codeのスキルとしてそのまま読み込める設計になっている。「マルチモーダルAIにできること」を、実際に動くスキルとして具体化したリポジトリだ。

全スキル一覧

30以上のスキルが4つのカテゴリに整理されている。

GLM-V（マルチモーダル）— 10スキル

画像・動画・ドキュメントを理解して、別の形式に変換するスキル群。

スキル	できること
glmv-caption	画像・動画・ドキュメントのキャプション・説明文を自動生成
glmv-doc-based-writing	PDF/DOCXを読み取り、論文・記事・レポートを執筆
glmv-grounding	画像・動画内のオブジェクトを検出し、バウンディングボックスで可視化
glmv-pdf-to-ppt	PDFをマルチスライドHTMLプレゼンテーションに変換
glmv-pdf-to-web	研究論文をアカデミック向けプロジェクトWebサイトに変換
glmv-prd-to-app	PRD（要件定義書）からフルスタックWebアプリを構築
glmv-prompt-gen	画像からMidjourney/Stable Diffusion/DALL-E用のプロンプトを生成
glmv-resume-screen	履歴書をユーザー定義の基準で審査・評価
glmv-stock-analyst	香港・A株・米国株のマルチソース株式分析レポート生成
glmv-web-replication	既存Webサイトのフロントエンドを視覚的に複製

GLM-OCR — 5スキル

画像やPDFからテキスト・表・数式を抽出するスキル群。

スキル	できること
glmocr	画像・PDFからのテキスト抽出（汎用OCR）
glmocr-formula	数式をLaTeX形式で抽出
glmocr-handwriting	手書き文字の認識
glmocr-sdk	GLM-OCR SDK CLIによるドキュメント解析
glmocr-table	表をMarkdown形式で抽出

GLM-Image — 画像生成系

テキストから画像を生成するスキル群。CogView等のモデルベース。

GLM-Video — 動画生成系

テキストや画像から動画を生成するスキル群。CogVideoX等のモデルベース。

クイックスタート

Claude Codeで使う場合

リポジトリをクローンして、使いたいスキルのディレクトリをプロジェクトに配置する。

# リポジトリのクローン
git clone https://github.com/zai-org/GLM-skills.git

# 使いたいスキルを確認
ls GLM-skills/skills/

各スキルディレクトリには、エージェントが読み取れるスキル定義ファイルが含まれている。Claude Codeの場合、プロジェクトルートにスキルを配置すれば自動認識される。

# 例: PDF→PPTスキルをプロジェクトに追加
cp -r GLM-skills/skills/glmv-pdf-to-ppt ./skills/

スキルの実行例

Claude Code上でスキルを読み込んだ後、自然言語で指示するだけで実行される。

# Claude Codeでの使用例

> このPDFをプレゼンテーションに変換して
  → glmv-pdf-to-ppt スキルが発動

> この画像に写っているオブジェクトを検出して
  → glmv-grounding スキルが発動

> このWebサイトのデザインを再現して
  → glmv-web-replication スキルが発動

アーキテクチャ

GLM-Skillsの全体像を図示する。スキルリポジトリがハブとなり、各AIエージェントからスキルを呼び出す構造。

flowchart TD
    A["GLM-Skills リポジトリ<br/>（統合スキル集）"]
    
    A --> B["GLM-V<br/>マルチモーダル<br/>10スキル"]
    A --> C["GLM-OCR<br/>文字認識<br/>5スキル"]
    A --> D["GLM-Image<br/>画像生成"]
    A --> E["GLM-Video<br/>動画生成"]
    
    F["Claude Code"] --> A
    G["OpenCode"] --> A
    H["OpenClaw"] --> A
    I["AutoClaw"] --> A
    
    style A fill:#e8f5e9
    style B fill:#e1f5ff
    style C fill:#fff3e0
    style D fill:#f3e5f5
    style E fill:#fce4ec

ポイントはスキルがエージェント非依存であること。同じスキル定義をClaude CodeでもOpenCodeでも使える。エージェントを乗り換えても、スキル資産が無駄にならない。

競合・類似ツールとの比較

項目	GLM-Skills	Claude MCPサーバー	LangChain Tools	OpenAI Functions
提供形態	スキルリポジトリ	プロトコル+サーバー	Python関数	API定義
マルチモーダル	◎（画像・動画・OCR・生成）	△（サーバー依存）	△（拡張必要）	○（GPT-4V）
対応エージェント	4種（Claude Code等）	Claude専用	LangChain専用	OpenAI専用
ドキュメント変換	◎（PDF→PPT, PDF→Web）	×	△	×
オープンソース	◎	○	◎	×
セットアップ	git cloneのみ	サーバー起動必要	pip install	APIキー必要

GLM-Skillsの強みはマルチモーダル処理の幅広さと複数エージェント対応。特にPDF→PPT、PRD→アプリといった実務直結のスキルは他にない。

注目スキルの詳細

glmv-prd-to-app：要件定義書からアプリを自動生成

PRD（Product Requirements Document）をインプットとして、フルスタックのWebアプリケーションを自動構築する。プロトタイプ画像やワイヤーフレームも入力として受け付ける。

想定される使い方:

スタートアップのMVP開発：PRDを書いたらアプリが出てくる
社内ツールの高速プロトタイピング
デザイナーのモックアップをそのまま実装

glmv-stock-analyst：マルチ市場の株式分析

香港市場・A株（中国本土）・米国株を対象に、複数のデータソースから情報を収集し、分析レポートを自動生成する。

glmv-web-replication：Webサイトの視覚的複製

既存のWebサイトのスクリーンショットを入力として、フロントエンドのHTMLを自動生成する。デザインの再現やリバースエンジニアリングに活用可能。

まとめ

GLM-Skillsは「AIモデルに何ができるか」を具体的なスキルとして切り出し、誰でも使える形でオープンソース化したプロジェクト。

向いている人:

Claude Codeを日常的に使っているエンジニア
マルチモーダルAI（画像・動画・文書）を業務に組み込みたい人
PDFの変換・OCR・画像生成を自動化したい人

注意点:

GLMモデルへのAPIアクセスが必要なスキルがある（ローカル実行不可の場合あり）
48スター（2026年4月時点）とまだ初期段階。今後のスキル追加・品質向上に期待
日本語ドキュメントはなし。README・スキル定義は英語

X投稿で紹介されている通り、「マルチモーダル理解を超えて、ビジョンを実際の生産性に変える」というコンセプトのツール。AIエージェントのスキル拡張に興味がある人は試してみる価値がある。