🏠 ホーム ニュース 📖 解説記事 📚 トピック解説 🏷️ タグ一覧 ℹ️ About
🔍 記事を検索
カテゴリ
📡 RSSフィード
Follow
X (Twitter) Threads
Quick Links
ニュース一覧 🏷️ タグから探す
🧠 Claude 🤖 Agent 💬 LLM 🔌 MCP 🛠️ Tool
Subscribe
📡 RSSフィード
ホーム llm 2026.04.02

GLM-Skills:AIエージェント向け30以上のスキルを統合公開したOSS

zai-org/GLM-skills
🧩
GLM-Skills:AIエージェント向け30以上のスキルを統合公開したOSS - AIツール日本語解説 | AI Heartland
// なぜ使えるか
GLMモデルの各種スキルが複数リポジトリに分散していた問題を解決。1つのリポジトリから全スキルにアクセスでき、AIコーディングエージェントへの組み込みが容易になる。

概要

GLM-Skillsは、中国のAI企業Zhipu AI(智譜AI)が開発するGLMファミリーのモデル向け公式スキル集。これまで個別のモデルリポジトリに分散していたスキル(画像認識、文書処理、コード生成など)を1つのリポジトリに統合してオープンソース化した。

対応するAIコーディングエージェントは以下の4つ:

つまり、Claude Codeのスキルとしてそのまま読み込める設計になっている。「マルチモーダルAIにできること」を、実際に動くスキルとして具体化したリポジトリだ。

全スキル一覧

30以上のスキルが4つのカテゴリに整理されている。

GLM-V(マルチモーダル)— 10スキル

画像・動画・ドキュメントを理解して、別の形式に変換するスキル群。

スキル できること
glmv-caption 画像・動画・ドキュメントのキャプション・説明文を自動生成
glmv-doc-based-writing PDF/DOCXを読み取り、論文・記事・レポートを執筆
glmv-grounding 画像・動画内のオブジェクトを検出し、バウンディングボックスで可視化
glmv-pdf-to-ppt PDFをマルチスライドHTMLプレゼンテーションに変換
glmv-pdf-to-web 研究論文をアカデミック向けプロジェクトWebサイトに変換
glmv-prd-to-app PRD(要件定義書)からフルスタックWebアプリを構築
glmv-prompt-gen 画像からMidjourney/Stable Diffusion/DALL-E用のプロンプトを生成
glmv-resume-screen 履歴書をユーザー定義の基準で審査・評価
glmv-stock-analyst 香港・A株・米国株のマルチソース株式分析レポート生成
glmv-web-replication 既存Webサイトのフロントエンドを視覚的に複製

GLM-OCR — 5スキル

画像やPDFからテキスト・表・数式を抽出するスキル群。

スキル できること
glmocr 画像・PDFからのテキスト抽出(汎用OCR)
glmocr-formula 数式をLaTeX形式で抽出
glmocr-handwriting 手書き文字の認識
glmocr-sdk GLM-OCR SDK CLIによるドキュメント解析
glmocr-table 表をMarkdown形式で抽出

GLM-Image — 画像生成系

テキストから画像を生成するスキル群。CogView等のモデルベース。

GLM-Video — 動画生成系

テキストや画像から動画を生成するスキル群。CogVideoX等のモデルベース。

クイックスタート

Claude Codeで使う場合

リポジトリをクローンして、使いたいスキルのディレクトリをプロジェクトに配置する。

# リポジトリのクローン
git clone https://github.com/zai-org/GLM-skills.git

# 使いたいスキルを確認
ls GLM-skills/skills/

各スキルディレクトリには、エージェントが読み取れるスキル定義ファイルが含まれている。Claude Codeの場合、プロジェクトルートにスキルを配置すれば自動認識される。

# 例: PDF→PPTスキルをプロジェクトに追加
cp -r GLM-skills/skills/glmv-pdf-to-ppt ./skills/

スキルの実行例

Claude Code上でスキルを読み込んだ後、自然言語で指示するだけで実行される。

# Claude Codeでの使用例

> このPDFをプレゼンテーションに変換して
  → glmv-pdf-to-ppt スキルが発動

> この画像に写っているオブジェクトを検出して
  → glmv-grounding スキルが発動

> このWebサイトのデザインを再現して
  → glmv-web-replication スキルが発動

アーキテクチャ

GLM-Skillsの全体像を図示する。スキルリポジトリがハブとなり、各AIエージェントからスキルを呼び出す構造。

flowchart TD
    A["GLM-Skills リポジトリ<br/>(統合スキル集)"]
    
    A --> B["GLM-V<br/>マルチモーダル<br/>10スキル"]
    A --> C["GLM-OCR<br/>文字認識<br/>5スキル"]
    A --> D["GLM-Image<br/>画像生成"]
    A --> E["GLM-Video<br/>動画生成"]
    
    F["Claude Code"] --> A
    G["OpenCode"] --> A
    H["OpenClaw"] --> A
    I["AutoClaw"] --> A
    
    style A fill:#e8f5e9
    style B fill:#e1f5ff
    style C fill:#fff3e0
    style D fill:#f3e5f5
    style E fill:#fce4ec

ポイントはスキルがエージェント非依存であること。同じスキル定義をClaude CodeでもOpenCodeでも使える。エージェントを乗り換えても、スキル資産が無駄にならない。

競合・類似ツールとの比較

項目 GLM-Skills Claude MCPサーバー LangChain Tools OpenAI Functions
提供形態 スキルリポジトリ プロトコル+サーバー Python関数 API定義
マルチモーダル ◎(画像・動画・OCR・生成) △(サーバー依存) △(拡張必要) ○(GPT-4V)
対応エージェント 4種(Claude Code等) Claude専用 LangChain専用 OpenAI専用
ドキュメント変換 ◎(PDF→PPT, PDF→Web) × ×
オープンソース ×
セットアップ git cloneのみ サーバー起動必要 pip install APIキー必要

GLM-Skillsの強みはマルチモーダル処理の幅広さ複数エージェント対応。特にPDF→PPT、PRD→アプリといった実務直結のスキルは他にない。

注目スキルの詳細

glmv-prd-to-app:要件定義書からアプリを自動生成

PRD(Product Requirements Document)をインプットとして、フルスタックのWebアプリケーションを自動構築する。プロトタイプ画像やワイヤーフレームも入力として受け付ける。

想定される使い方:

glmv-stock-analyst:マルチ市場の株式分析

香港市場・A株(中国本土)・米国株を対象に、複数のデータソースから情報を収集し、分析レポートを自動生成する。

glmv-web-replication:Webサイトの視覚的複製

既存のWebサイトのスクリーンショットを入力として、フロントエンドのHTMLを自動生成する。デザインの再現やリバースエンジニアリングに活用可能。

まとめ

GLM-Skillsは「AIモデルに何ができるか」を具体的なスキルとして切り出し、誰でも使える形でオープンソース化したプロジェクト。

向いている人:

注意点:

X投稿で紹介されている通り、「マルチモーダル理解を超えて、ビジョンを実際の生産性に変える」というコンセプトのツール。AIエージェントのスキル拡張に興味がある人は試してみる価値がある。

参照ソース

よくある質問
GLM-Skillsとは何ですか?
GLMファミリーのモデルが持つ能力を「スキル」として切り出し、1つのリポジトリに統合した公式コレクション。Claude Code、OpenCode、OpenClawなどのAIエージェントから呼び出して使える。
どのAIエージェントで使えますか?
Claude Code、OpenCode、OpenClaw、AutoClawに対応。各エージェントのスキル読み込み機能を通じて利用可能。
プログラミング知識がなくても使えますか?
各スキルにはプロンプトテンプレートが含まれており、対応するAIエージェント上でスキルを読み込むだけで利用可能。ただし、カスタマイズにはPython等の知識が必要。
広告
🔌
MCP対応ツール特集
Claude Codeと連携できるMCPサーバーの日本語解説まとめ
GitHub で見る X 🧵 Threads Facebook LINE B! はてブ
🔔 AI速報、毎日Xで配信中
Claude Code・MCP・AIエージェントの最新ニュースをいち早くお届け
@peaks2314 をフォロー
Next Read →
⚠️ ドラマトライアングルとは?YC会長Garry Tanが警告する組織崩壊パターンと具体的対策を徹底解説
関連記事
⚡ NVIDIA Model-Optimizer:大規模モデルの推論最適化とデプロイ効率を実現するツールキット
NVIDIAが提供するモデル最適化ツール。量子化・プルーニング・知識蒸留などの高度な最適化技術を組み合わせ、LLMやVisionモデルの推論速度向上とメモリ削減を実現。エンタープライズデプロイメント対応を検討する開発チーム向け。
2026.04.02
📊 ai-marketing-skills:マーケティング業務向けAIスキル習得リポジトリ
マーケティングプロフェッショナル向けのAI活用スキルセットを集約。431スター獲得の実践的リソース集で、AIツール導入と運用の知識を体系的に習得できる。
2026.04.02
🗺️ SpatialLM:空間情報を言語モデルに統合する研究フレームワーク
地理的座標や空間関係を大規模言語モデルに組み込むための研究基盤。空間推論能力を備えたAIシステムの構築を支援。GitHubで公開中、4424スター獲得。
2026.03.31
📊 Microsoft Lida:自然言語からデータビジュアライゼーション自動生成するAIツール
テーブルデータを自然言語で指示するだけで、視覚化とグラフ生成を自動実行。データ分析の初期段階を効率化し、技術スキル不問でインサイト抽出を加速させる。GitHubで3236スター獲得の実績。
2026.03.30
Popular
#1 POPULAR
🔓 Claude Codeのソースコード流出、npmソースマップに51万行が丸見えだった件
Anthropic Claude Codeのnpmパッケージにソースマップが含まれ、1,902ファイル・51万行超のTypeScriptソースが公開状態に。未公開プロジェクト「KAIROS」や107個のフィーチャーフラグなど、内部コードの全貌を解説する。
#2 POPULAR
🚨 【速報】JavaScript主流ライブラリAxios、NPM供給チェーン攻撃でRAT配布
JavaScriptの週間1億DL HTTPクライアント「Axios」がNPM供給チェーン攻撃の被害に。[email protected]と0.30.4に悪意あるパッケージplain-crypto-jsが注入され、クロスプラットフォーム対応RATが配布。証拠自動削除機能を備えた高度な攻撃。
#3 POPULAR
⚠️ Anthropic、Claude Codeで予想外の高速クォータ枯渇認める。キャッシュバグで料金10〜20倍
Claude Codeでプロンプトキャッシュを破壊する2つのバグが発見され、API利用料が10〜20倍に跳ね上がる問題が発生。Anthropicは「チームの最優先事項」と認める。Pro/Maxユーザーから月間の大半で使用不可との報告多数。
#4 POPULAR
🔍 Claude Codeセキュリティ事件を切り分ける:ソース漏洩とaxios攻撃の違いと対処法
3月31日にClaude Codeで起きたソース漏洩とaxiosマルウェア。感染チェックコマンド・対策コードを交えて、2つの別事件の実態と具体的な対応手順を解説。
#5 POPULAR
🚀 ソフトウェア開発者ではない人が400ドルから年7M達成。AI時代の先発者優位性
AI技術を活用して短期間で大規模な収益を生み出した事例から、開発経験がなくても可能な起業の実態と、AI知識の先発者優位性について解説する。
← Qlib:Microsoft発のAI量的投資フレームワーク(39kスター) ドラマトライアングルとは?YC会長Garry Tanが警告する組織崩壊パターンと具体的対策を徹底解説 →