AI モデレーション
Workers AI と EmDash のファーストパーティプラグインフックでコメントやユーザー生成コンテンツをモデレートします。
プラグイン
AI モデレーション
Workers AI と EmDash のファーストパーティプラグインフックでコメントやユーザー生成コンテンツをモデレートします。
製品詳細
- カテゴリー
- AI
- ステータス
- 利用可能
- バージョン
- ベータ版に含む
AI Moderation は、コメント欄やユーザー投稿テキストを安全に保ちつつ、あらゆる判断をブラックボックスのベンダーに任せないという編集上の課題に、Cloudflare ネイティブ基盤をどう使うかを示します。上流パッケージは Workers AI と Llama Guard 系のガードレールを利用すると説明されています。正確なモデルとポリシーノブはリリースごとに packages/plugins/ai-moderation で確認してください。
インストール
- EmDash のデプロイが Workers AI(またはこのプラグイン向けに文書化された AI バックエンド)を利用でき、アカウントプランで許可されていることを確認します。
- 管理画面から AI Moderation を有効にするか、開発時にモノレポから接続します。
- README のとおりに必要なシークレットと環境変数を設定します。通常は API トークンやバインディングで、Git にコミットしてはいけません。
- 本番以外でスモークテストを行い、無害な文と境界例を送ってモデレーション判断とログを確認します。
設定
通常は次を調整します。
- 感度やポリシープリセット — ブロック・フラグ・許可の境界(詳細は同梱インテグレーションによる)。
- フォールバック — AI サービス停止時に厳格(レビュー待ち)にするか、緩く(警告付きで公開)するか。
- 監査の見え方 — モデレーターがスコアやカテゴリを見られるか、最終判断だけか。
例(概念): コミュニティブログはリスク閾値以下を自動公開、境界線は手動レビュー、高信頼の違反はブロック、といった閾値を管理画面や設定ファイルのコントロールでマッピングします。
利用シナリオ
- コメント付きメディア — 曖昧なケースには人間を残しつつ負荷を下げる。
- ユーザー投稿 — フォームや投稿案の短文を自動トリアージ。
- 社内 Wiki や提案付きドキュメント — 公開前の軽いスクリーニング。
運用上のヒント
- 偽陽性を定期的に見直し、合成テストだけでなく実トラフィック後に閾値を調整する。
- コンプライアンスがモデレーション判断の追跡を求める場合は Audit Log と併用する。
- Workers AI の利用量と遅延を監視し、予算と UX の範囲に収める。