この記事ではLLMに特化して解説します。LLM全般は LLMとは?仕組みからローカル実行まで徹底解説【2026年完全ガイド】 をご覧ください。

概要

GLM-Skillsは、中国のAI企業Zhipu AI(智譜AI)が開発するGLMファミリーのモデル向け公式スキル集。これまで個別のモデルリポジトリに分散していたスキル(画像認識、文書処理、コード生成など)を1つのリポジトリに統合してオープンソース化した。

対応するAIコーディングエージェントは以下の4つ:

  • Claude Code(Anthropic)
  • OpenCode
  • OpenClaw
  • AutoClaw

つまり、Claude Codeのスキルとしてそのまま読み込める設計になっている。Claude Codeのスキル活用方法はClaude Codeベストプラクティスガイドで詳しく解説している。「マルチモーダルAIにできること」を、実際に動くスキルとして具体化したリポジトリだ。

全スキル一覧

30以上のスキルが4つのカテゴリに整理されている。

GLM-V(マルチモーダル)— 10スキル

画像・動画・ドキュメントを理解して、別の形式に変換するスキル群。

スキル できること
glmv-caption 画像・動画・ドキュメントのキャプション・説明文を自動生成
glmv-doc-based-writing PDF/DOCXを読み取り、論文・記事・レポートを執筆
glmv-grounding 画像・動画内のオブジェクトを検出し、バウンディングボックスで可視化
glmv-pdf-to-ppt PDFをマルチスライドHTMLプレゼンテーションに変換
glmv-pdf-to-web 研究論文をアカデミック向けプロジェクトWebサイトに変換
glmv-prd-to-app PRD(要件定義書)からフルスタックWebアプリを構築
glmv-prompt-gen 画像からMidjourney/Stable Diffusion/DALL-E用のプロンプトを生成
glmv-resume-screen 履歴書をユーザー定義の基準で審査・評価
glmv-stock-analyst 香港・A株・米国株のマルチソース株式分析レポート生成
glmv-web-replication 既存Webサイトのフロントエンドを視覚的に複製

GLM-OCR — 5スキル

画像やPDFからテキスト・表・数式を抽出するスキル群。

スキル できること
glmocr 画像・PDFからのテキスト抽出(汎用OCR)
glmocr-formula 数式をLaTeX形式で抽出
glmocr-handwriting 手書き文字の認識
glmocr-sdk GLM-OCR SDK CLIによるドキュメント解析
glmocr-table 表をMarkdown形式で抽出

GLM-Image — 画像生成系

テキストから画像を生成するスキル群。CogView等のモデルベース。

GLM-Video — 動画生成系

テキストや画像から動画を生成するスキル群。CogVideoX等のモデルベース。

クイックスタート

Claude Codeで使う場合

リポジトリをクローンして、使いたいスキルのディレクトリをプロジェクトに配置する。

# リポジトリのクローン
git clone https://github.com/zai-org/GLM-skills.git

# 使いたいスキルを確認
ls GLM-skills/skills/

各スキルディレクトリには、エージェントが読み取れるスキル定義ファイルが含まれている。Claude Codeの場合、プロジェクトルートにスキルを配置すれば自動認識される。

# 例: PDF→PPTスキルをプロジェクトに追加
cp -r GLM-skills/skills/glmv-pdf-to-ppt ./skills/

スキルの実行例

Claude Code上でスキルを読み込んだ後、自然言語で指示するだけで実行される。

# Claude Codeでの使用例

> このPDFをプレゼンテーションに変換して
  → glmv-pdf-to-ppt スキルが発動

> この画像に写っているオブジェクトを検出して
  → glmv-grounding スキルが発動

> このWebサイトのデザインを再現して
  → glmv-web-replication スキルが発動

アーキテクチャ

GLM-Skillsの全体像を図示する。スキルリポジトリがハブとなり、各AIエージェントからスキルを呼び出す構造。

flowchart TD A["GLM-Skills リポジトリ
(統合スキル集)"] A --> B["GLM-V
マルチモーダル
10スキル"] A --> C["GLM-OCR
文字認識
5スキル"] A --> D["GLM-Image
画像生成"] A --> E["GLM-Video
動画生成"] F["Claude Code"] --> A G["OpenCode"] --> A H["OpenClaw"] --> A I["AutoClaw"] --> A style A fill:#e8f5e9 style B fill:#e1f5ff style C fill:#fff3e0 style D fill:#f3e5f5 style E fill:#fce4ec

ポイントはスキルがエージェント非依存であること。同じスキル定義をClaude CodeでもOpenCodeでも使える。エージェントを乗り換えても、スキル資産が無駄にならない。各エージェントの特徴や選び方はAIエージェントフレームワーク比較2026を参照されたい。

競合・類似ツールとの比較

項目 GLM-Skills Claude MCPサーバー LangChain Tools OpenAI Functions
提供形態 スキルリポジトリ プロトコル+サーバー Python関数 API定義
マルチモーダル ◎(画像・動画・OCR・生成) △(サーバー依存) △(拡張必要) ○(GPT-4V)
対応エージェント 4種(Claude Code等) Claude専用 LangChain専用 OpenAI専用
ドキュメント変換 ◎(PDF→PPT, PDF→Web) × ×
オープンソース ×
セットアップ git cloneのみ サーバー起動必要 pip install APIキー必要

GLM-Skillsの強みはマルチモーダル処理の幅広さ複数エージェント対応。特にPDF→PPT、PRD→アプリといった実務直結のスキルは他にない。LLM推論の効率化についてはvLLMのような推論最適化基盤との組み合わせも検討に値する。

注目スキルの詳細

glmv-prd-to-app:要件定義書からアプリを自動生成

PRD(Product Requirements Document)をインプットとして、フルスタックのWebアプリケーションを自動構築する。プロトタイプ画像やワイヤーフレームも入力として受け付ける。

想定される使い方:

  • スタートアップのMVP開発:PRDを書いたらアプリが出てくる
  • 社内ツールの高速プロトタイピング
  • デザイナーのモックアップをそのまま実装

glmv-stock-analyst:マルチ市場の株式分析

香港市場・A株(中国本土)・米国株を対象に、複数のデータソースから情報を収集し、分析レポートを自動生成する。

glmv-web-replication:Webサイトの視覚的複製

既存のWebサイトのスクリーンショットを入力として、フロントエンドのHTMLを自動生成する。デザインの再現やリバースエンジニアリングに活用可能。

関連記事: LLMとは?仕組みからローカル実行まで徹底解説【2026年完全ガイド】

まとめ

GLM-Skillsは「AIモデルに何ができるか」を具体的なスキルとして切り出し、誰でも使える形でオープンソース化したプロジェクト。

向いている人:

  • Claude Codeを日常的に使っているエンジニア
  • マルチモーダルAI(画像・動画・文書)を業務に組み込みたい人
  • PDFの変換・OCR・画像生成を自動化したい人

注意点:

  • GLMモデルへのAPIアクセスが必要なスキルがある(ローカル実行不可の場合あり)
  • 48スター(2026年4月時点)とまだ初期段階。今後のスキル追加・品質向上に期待
  • 日本語ドキュメントはなし。README・スキル定義は英語

X投稿で紹介されている通り、「マルチモーダル理解を超えて、ビジョンを実際の生産性に変える」というコンセプトのツール。AIエージェントのスキル拡張に興味がある人は試してみる価値がある。

参照ソース