GLM-Skills：AIエージェント向け30以上のスキルを統合公開したOSS

zai-org/GLM-skills

text-generation agents ui

2026.04.02 1分更新 2026.04.04

GLM-Skills：AIエージェント向け30以上のスキルを統合公開したOSS - AIツール日本語解説 | AI Heartland

GLMモデルの各種スキルが複数リポジトリに分散していた問題を解決。1つのリポジトリから全スキルにアクセスでき、AIコーディングエージェントへの組み込みが容易になる。

この記事ではLLMに特化して解説します。LLM全般は LLMとは？仕組みからローカル実行まで徹底解説【2026年完全ガイド】をご覧ください。

概要

GLM-Skillsは、中国のAI企業Zhipu AI（智譜AI）が開発するGLMファミリーのモデル向け公式スキル集。これまで個別のモデルリポジトリに分散していたスキル（画像認識、文書処理、コード生成など）を1つのリポジトリに統合してオープンソース化した。

対応するAIコーディングエージェントは以下の4つ:

Claude Code（Anthropic）
OpenCode
OpenClaw
AutoClaw

つまり、Claude Codeのスキルとしてそのまま読み込める設計になっている。Claude Codeのスキル活用方法はClaude Codeベストプラクティスガイドで詳しく解説している。「マルチモーダルAIにできること」を、実際に動くスキルとして具体化したリポジトリだ。

全スキル一覧

30以上のスキルが4つのカテゴリに整理されている。

GLM-V（マルチモーダル）— 10スキル

画像・動画・ドキュメントを理解して、別の形式に変換するスキル群。

スキル	できること
glmv-caption	画像・動画・ドキュメントのキャプション・説明文を自動生成
glmv-doc-based-writing	PDF/DOCXを読み取り、論文・記事・レポートを執筆
glmv-grounding	画像・動画内のオブジェクトを検出し、バウンディングボックスで可視化
glmv-pdf-to-ppt	PDFをマルチスライドHTMLプレゼンテーションに変換
glmv-pdf-to-web	研究論文をアカデミック向けプロジェクトWebサイトに変換
glmv-prd-to-app	PRD（要件定義書）からフルスタックWebアプリを構築
glmv-prompt-gen	画像からMidjourney/Stable Diffusion/DALL-E用のプロンプトを生成
glmv-resume-screen	履歴書をユーザー定義の基準で審査・評価
glmv-stock-analyst	香港・A株・米国株のマルチソース株式分析レポート生成
glmv-web-replication	既存Webサイトのフロントエンドを視覚的に複製

GLM-OCR — 5スキル

画像やPDFからテキスト・表・数式を抽出するスキル群。

スキル	できること
glmocr	画像・PDFからのテキスト抽出（汎用OCR）
glmocr-formula	数式をLaTeX形式で抽出
glmocr-handwriting	手書き文字の認識
glmocr-sdk	GLM-OCR SDK CLIによるドキュメント解析
glmocr-table	表をMarkdown形式で抽出

GLM-Image — 画像生成系

テキストから画像を生成するスキル群。CogView等のモデルベース。

GLM-Video — 動画生成系

テキストや画像から動画を生成するスキル群。CogVideoX等のモデルベース。

クイックスタート

Claude Codeで使う場合

リポジトリをクローンして、使いたいスキルのディレクトリをプロジェクトに配置する。

# リポジトリのクローン
git clone https://github.com/zai-org/GLM-skills.git

# 使いたいスキルを確認
ls GLM-skills/skills/

各スキルディレクトリには、エージェントが読み取れるスキル定義ファイルが含まれている。Claude Codeの場合、プロジェクトルートにスキルを配置すれば自動認識される。

# 例: PDF→PPTスキルをプロジェクトに追加
cp -r GLM-skills/skills/glmv-pdf-to-ppt ./skills/

スキルの実行例

Claude Code上でスキルを読み込んだ後、自然言語で指示するだけで実行される。

# Claude Codeでの使用例

> このPDFをプレゼンテーションに変換して
  → glmv-pdf-to-ppt スキルが発動

> この画像に写っているオブジェクトを検出して
  → glmv-grounding スキルが発動

> このWebサイトのデザインを再現して
  → glmv-web-replication スキルが発動

アーキテクチャ

GLM-Skillsの全体像を図示する。スキルリポジトリがハブとなり、各AIエージェントからスキルを呼び出す構造。

flowchart TD A["GLM-Skills リポジトリ
（統合スキル集）"] A --> B["GLM-V
マルチモーダル
10スキル"] A --> C["GLM-OCR
文字認識
5スキル"] A --> D["GLM-Image
画像生成"] A --> E["GLM-Video
動画生成"] F["Claude Code"] --> A G["OpenCode"] --> A H["OpenClaw"] --> A I["AutoClaw"] --> A style A fill:#e8f5e9 style B fill:#e1f5ff style C fill:#fff3e0 style D fill:#f3e5f5 style E fill:#fce4ec

ポイントはスキルがエージェント非依存であること。同じスキル定義をClaude CodeでもOpenCodeでも使える。エージェントを乗り換えても、スキル資産が無駄にならない。各エージェントの特徴や選び方はAIエージェントフレームワーク比較2026を参照されたい。

競合・類似ツールとの比較

項目	GLM-Skills	Claude MCPサーバー	LangChain Tools	OpenAI Functions
提供形態	スキルリポジトリ	プロトコル+サーバー	Python関数	API定義
マルチモーダル	◎（画像・動画・OCR・生成）	△（サーバー依存）	△（拡張必要）	○（GPT-4V）
対応エージェント	4種（Claude Code等）	Claude専用	LangChain専用	OpenAI専用
ドキュメント変換	◎（PDF→PPT, PDF→Web）	×	△	×
オープンソース	◎	○	◎	×
セットアップ	git cloneのみ	サーバー起動必要	pip install	APIキー必要