AI モデレーション

Workers AI と EmDash のファーストパーティプラグインフックでコメントやユーザー生成コンテンツをモデレートします。

プラグイン

AI モデレーション

Workers AI と EmDash のファーストパーティプラグインフックでコメントやユーザー生成コンテンツをモデレートします。

  • カテゴリー: AI
  • ステータス: 利用可能
  • バージョン: ベータ版に含む
  • 価格: ベータ版に含む

製品詳細

カテゴリー
AI
ステータス
利用可能
バージョン
ベータ版に含む

AI Moderation は、コメント欄やユーザー投稿テキストを安全に保ちつつ、あらゆる判断をブラックボックスのベンダーに任せないという編集上の課題に、Cloudflare ネイティブ基盤をどう使うかを示します。上流パッケージは Workers AI と Llama Guard 系のガードレールを利用すると説明されています。正確なモデルとポリシーノブはリリースごとに packages/plugins/ai-moderation で確認してください。

インストール

  1. EmDash のデプロイが Workers AI(またはこのプラグイン向けに文書化された AI バックエンド)を利用でき、アカウントプランで許可されていることを確認します。
  2. 管理画面から AI Moderation を有効にするか、開発時にモノレポから接続します。
  3. README のとおりに必要なシークレットと環境変数を設定します。通常は API トークンやバインディングで、Git にコミットしてはいけません
  4. 本番以外でスモークテストを行い、無害な文と境界例を送ってモデレーション判断とログを確認します。

設定

通常は次を調整します。

  • 感度やポリシープリセット — ブロック・フラグ・許可の境界(詳細は同梱インテグレーションによる)。
  • フォールバック — AI サービス停止時に厳格(レビュー待ち)にするか、緩く(警告付きで公開)するか。
  • 監査の見え方 — モデレーターがスコアやカテゴリを見られるか、最終判断だけか。

例(概念): コミュニティブログはリスク閾値以下を自動公開、境界線は手動レビュー、高信頼の違反はブロック、といった閾値を管理画面や設定ファイルのコントロールでマッピングします。

利用シナリオ

  • コメント付きメディア — 曖昧なケースには人間を残しつつ負荷を下げる。
  • ユーザー投稿 — フォームや投稿案の短文を自動トリアージ。
  • 社内 Wiki や提案付きドキュメント — 公開前の軽いスクリーニング。

運用上のヒント

  • 偽陽性を定期的に見直し、合成テストだけでなく実トラフィック後に閾値を調整する。
  • コンプライアンスがモデレーション判断の追跡を求める場合は Audit Log と併用する。
  • Workers AI の利用量と遅延を監視し、予算と UX の範囲に収める。