株式会社CAENのロゴ

ChatGPT Agentモードで音声配信・ポッドキャスト制作を自動化した実例【AI駆動開発】

この記事で分かること

  • ChatGPT Agentモード(エージェント機能)が何者で、何ができるのか
  • 「使いどころがわからない」と感じていたAgentモードで、音声配信の同時投稿を実際に自動化できた話
  • API非公開のサービスでもブラウザ操作を代行させる、AI駆動開発的な自動化の発想

ChatGPT Agentモードとは?

ChatGPTには2025年7月17日にリリースされた「Agentモード(エージェント機能)」という機能があります(2026年4月時点)。

普通のChatGPTとの違いを一言で言うと、ChatGPTが仮想のパソコン&ブラウザを自分で操作して、お願いした作業をこなしてくれるというものです。

たとえば「ANAの今日の東京→大阪の空席を調べて」と頼むと、ChatGPTがANAのサイトを実際に開き、ページを読み進め、空席情報を取得して返してくれます。人間がブラウザで操作するのとほぼ同じことを、ChatGPTが代わりにやってくれるイメージです。

Agentモードの使い方

ChatGPTに課金しているとAgentモードが使えます。チャット入力欄の左にある「+」ボタンを押すと「エージェントモード」という選択肢が表示されるので、それを有効にしてから指示を入力するだけです。

利用回数は2025年9月時点で通常課金プランで月40回、上位プランで月200回が目安でした(料金・回数は改定されることがあるため、最新は公式サイトをご確認ください)。


「使いどころがわからない」問題

正直に言うと、Agentモードが出た当初は全然使いどころがわかりませんでした。

ネットには「フライト・ホテル検索」「SNSからのデータ収集」「メール振り分け」といった活用例が出ていましたが、いずれもピンとこなかった。

  • 操作がそんなに速いわけじゃない
  • SNS系はログインできないことが多い
  • メール振り分けなら普通のチャットで指示した方が早い

Agentモードを使わないとできないタスクが、なかなか見つからないんですよね。

転機になったのが、ポッドキャスト配信の同時投稿問題でした。


音声配信の「ポチポチ作業」が地味につらい

僕はAI駆動開発ラボというポッドキャストをstand.fmで収録・配信しています。stand.fmはRSSという仕組みを使ってApple PodcastやSpotifyにも自動配信できているので、そこはすでに自動化できていました。

問題は**Voicy(ボイシー)**への投稿です。

Voicyは審査制の音声配信プラットフォームで、リスナーの熱量が高く再生数も回りやすいと言われています。stand.fmで収録した配信をVoicyにも流せたら嬉しい。でも、VoicyにはRSSで音声を外部から流す機能がありません。そしてVoicyの音声はダウンロードして外に持ち出すこともできない独立した構造になっています。

つまり「stand.fmからmp3をダウンロード→Voicyにアップロード→タイトルや説明文を入力→投稿」という手順を毎回手でやるしかないわけです。

面倒くさがりな僕には続かないのが目に見えていました。3日坊主を避けるには、自動化しかない。


ChatGPT AgentモードでVoicy同時投稿を実現した手順

そこでAgentモードに試してみたんです。

ステップ1:ログイン問題を解決する

まずAgentモードに「Voicyスタジオにログインして」と指示しました。すると仮想パソコンが起動して、Voicyのログイン画面まで来ました。

ここで最初の壁にぶつかります。Googleアカウントでログインしようとしたら、Googleのセキュリティが「仮想のブラウザからのアクセスはちょっと怪しい」と判断してブロックしました。

対策は簡単で、Voicyのアカウント設定でメールアドレス+パスワード認証に変更。その上で改めてAgentモードから「メールアドレスとパスワードでログインしてください」と指示しました。

ログインフォームにIDとパスワードを入力する部分だけは、セキュリティ上の理由で「あなたが入力してください」と制御が渡されます。ここだけ自分で入力して、渡し返すと、その先は全部Agentがやってくれます。

ステップ2:RSS URLを渡して音声を取得させる

stand.fmではRSS URLが発行されています。このURLをAgentモードに渡して「ここから音声配信データを取得できますか?」と聞いたら「できます」と返ってきました。

次に「各エピソードをダウンロードしてVoicyにアップロードしてください」と指示。

ステップ3:あとは待つだけ

Agentが動き始めると、ほぼノータッチです。

途中でVoicyスタジオの操作方法が少しわからなそうな場面があり、そこだけ補助しましたが、それ以外は完全放置。6件のエピソードを処理するのに15〜20分ほどかかりましたが、その間は別の作業をしていました。

戻ってきたら6件すべてがVoicyに下書き状態で投稿されていました。


日常的な運用への応用

この仕組みが一度できてしまえば、あとはチャット履歴が残っているので週1回「また下書きでVoicyに投稿しておいてください」と言うだけです。

さらに発展させると:

  • 予約投稿の設定:「1日ずらしで毎日18時に予約投稿してください」
  • 概要・タグの自動生成:放送タイトルや内容からキャプションを自動生成
  • まとめて処理:溜まった分を一括でキャッチアップ

いずれも原理的には同じAgentモードで対応できるはずです。


なぜ「Agentモードが必要」だったのか

ここが肝心な点です。

通常のAPIで自動化しようと思うと、「サービスがAPIを公開している」ことが前提になります。Voicyは現状、外部からのアクセス用APIを公開していません。なのでプログラムで自動化しようとしても、「自分でポチポチするしかない」状態でした。

ChatGPT Agentモードは、まさにその「ブラウザを人間の代わりにポチポチする」部分を担えます。APIがなくてもブラウザが操作できればいい、というのが大きな違いです。

この発想はAI駆動開発における自動化全般に応用できます。MCPを使ったタスク自動化AIによる開発ワークフロー全体の効率化とも考え方は共通していて、「人間がやっていたブラウザ・GUI操作をどこまでAIに委譲できるか」という問いに対する一つの答えです。

関連して、音声コンテンツのAI活用という観点ではGeminiでPodcast文字起こし→記事化したフローも参考になります。また、ChatGPTのブラウザ操作系機能の全体像はChatGPT Atlasガイドでも触れています。


実際にやってみてわかったAgentモードの「適切な使いどころ」

この経験を通じて、Agentモードが向いているタスクのパターンが見えてきました。

向いているタスク:

  • 対象サービスにAPIがない(ポチポチするしかない)
  • 手順が明確で繰り返し発生する
  • 多少時間がかかっても構わない(10〜20分の処理でOK)
  • ログイン認証さえ通れば、あとは定型作業

向いていないタスク:

  • リアルタイム性が重要(即座に完了が必要)
  • Googleなど厳格なセキュリティチェックが入るログイン(OAuth経由のログインはブロックされやすい)
  • 細かい判断が連続するクリエイティブ作業

まとめ

ChatGPT Agentモードは「使いどころが謎」という印象を持つ人が多いと思います。僕もそうでした。

でも今回のポッドキャスト同時投稿の例のように、「APIがない・でもブラウザ操作なら自動化できる」タスクにはものすごくハマります。

AI駆動開発の文脈でいうと、コードを書いてサービスを作るだけでなく、自分の日常業務の中にある「面倒なポチポチ作業」をAIに委譲していくことも立派なAI駆動開発です。大森翔吾が運営するAI駆動開発ラボでは、こういった実例を継続的に配信しています。


関連する記事


AI駆動開発のご相談・お仕事のご依頼

株式会社CAEN(代表:大森翔吾)では、ChatGPT Agentモードを含むAI自動化の導入支援、音声コンテンツ×AI活用のワークフロー設計、AI駆動開発全般のご相談を承ります。

「ChatGPT Agentで自社の繰り返し作業を自動化したい」「音声配信やコンテンツ制作にAIを組み込みたい」など、お気軽にご相談ください。