ChatGPT Agentモードで音声配信・ポッドキャスト制作を自動化した実例【AI駆動開発】
この記事で分かること
- ChatGPT Agentモード(エージェント機能)が何者で、何ができるのか
- 「使いどころがわからない」と感じていたAgentモードで、音声配信の同時投稿を実際に自動化できた話
- API非公開のサービスでもブラウザ操作を代行させる、AI駆動開発的な自動化の発想
ChatGPT Agentモードとは?
ChatGPTには2025年7月17日にリリースされた「Agentモード(エージェント機能)」という機能があります(2026年4月時点)。
普通のChatGPTとの違いを一言で言うと、ChatGPTが仮想のパソコン&ブラウザを自分で操作して、お願いした作業をこなしてくれるというものです。
たとえば「ANAの今日の東京→大阪の空席を調べて」と頼むと、ChatGPTがANAのサイトを実際に開き、ページを読み進め、空席情報を取得して返してくれます。人間がブラウザで操作するのとほぼ同じことを、ChatGPTが代わりにやってくれるイメージです。
Agentモードの使い方
ChatGPTに課金しているとAgentモードが使えます。チャット入力欄の左にある「+」ボタンを押すと「エージェントモード」という選択肢が表示されるので、それを有効にしてから指示を入力するだけです。
利用回数は2025年9月時点で通常課金プランで月40回、上位プランで月200回が目安でした(料金・回数は改定されることがあるため、最新は公式サイトをご確認ください)。
「使いどころがわからない」問題
正直に言うと、Agentモードが出た当初は全然使いどころがわかりませんでした。
ネットには「フライト・ホテル検索」「SNSからのデータ収集」「メール振り分け」といった活用例が出ていましたが、いずれもピンとこなかった。
- 操作がそんなに速いわけじゃない
- SNS系はログインできないことが多い
- メール振り分けなら普通のチャットで指示した方が早い
Agentモードを使わないとできないタスクが、なかなか見つからないんですよね。
転機になったのが、ポッドキャスト配信の同時投稿問題でした。
音声配信の「ポチポチ作業」が地味につらい
僕はAI駆動開発ラボというポッドキャストをstand.fmで収録・配信しています。stand.fmはRSSという仕組みを使ってApple PodcastやSpotifyにも自動配信できているので、そこはすでに自動化できていました。
問題は**Voicy(ボイシー)**への投稿です。
Voicyは審査制の音声配信プラットフォームで、リスナーの熱量が高く再生数も回りやすいと言われています。stand.fmで収録した配信をVoicyにも流せたら嬉しい。でも、VoicyにはRSSで音声を外部から流す機能がありません。そしてVoicyの音声はダウンロードして外に持ち出すこともできない独立した構造になっています。
つまり「stand.fmからmp3をダウンロード→Voicyにアップロード→タイトルや説明文を入力→投稿」という手順を毎回手でやるしかないわけです。
面倒くさがりな僕には続かないのが目に見えていました。3日坊主を避けるには、自動化しかない。
ChatGPT AgentモードでVoicy同時投稿を実現した手順
そこでAgentモードに試してみたんです。
ステップ1:ログイン問題を解決する
まずAgentモードに「Voicyスタジオにログインして」と指示しました。すると仮想パソコンが起動して、Voicyのログイン画面まで来ました。
ここで最初の壁にぶつかります。Googleアカウントでログインしようとしたら、Googleのセキュリティが「仮想のブラウザからのアクセスはちょっと怪しい」と判断してブロックしました。
対策は簡単で、Voicyのアカウント設定でメールアドレス+パスワード認証に変更。その上で改めてAgentモードから「メールアドレスとパスワードでログインしてください」と指示しました。
ログインフォームにIDとパスワードを入力する部分だけは、セキュリティ上の理由で「あなたが入力してください」と制御が渡されます。ここだけ自分で入力して、渡し返すと、その先は全部Agentがやってくれます。
ステップ2:RSS URLを渡して音声を取得させる
stand.fmではRSS URLが発行されています。このURLをAgentモードに渡して「ここから音声配信データを取得できますか?」と聞いたら「できます」と返ってきました。
次に「各エピソードをダウンロードしてVoicyにアップロードしてください」と指示。
ステップ3:あとは待つだけ
Agentが動き始めると、ほぼノータッチです。
途中でVoicyスタジオの操作方法が少しわからなそうな場面があり、そこだけ補助しましたが、それ以外は完全放置。6件のエピソードを処理するのに15〜20分ほどかかりましたが、その間は別の作業をしていました。
戻ってきたら6件すべてがVoicyに下書き状態で投稿されていました。
日常的な運用への応用
この仕組みが一度できてしまえば、あとはチャット履歴が残っているので週1回「また下書きでVoicyに投稿しておいてください」と言うだけです。
さらに発展させると:
- 予約投稿の設定:「1日ずらしで毎日18時に予約投稿してください」
- 概要・タグの自動生成:放送タイトルや内容からキャプションを自動生成
- まとめて処理:溜まった分を一括でキャッチアップ
いずれも原理的には同じAgentモードで対応できるはずです。
なぜ「Agentモードが必要」だったのか
ここが肝心な点です。
通常のAPIで自動化しようと思うと、「サービスがAPIを公開している」ことが前提になります。Voicyは現状、外部からのアクセス用APIを公開していません。なのでプログラムで自動化しようとしても、「自分でポチポチするしかない」状態でした。
ChatGPT Agentモードは、まさにその「ブラウザを人間の代わりにポチポチする」部分を担えます。APIがなくてもブラウザが操作できればいい、というのが大きな違いです。
この発想はAI駆動開発における自動化全般に応用できます。MCPを使ったタスク自動化やAIによる開発ワークフロー全体の効率化とも考え方は共通していて、「人間がやっていたブラウザ・GUI操作をどこまでAIに委譲できるか」という問いに対する一つの答えです。
関連して、音声コンテンツのAI活用という観点ではGeminiでPodcast文字起こし→記事化したフローも参考になります。また、ChatGPTのブラウザ操作系機能の全体像はChatGPT Atlasガイドでも触れています。
実際にやってみてわかったAgentモードの「適切な使いどころ」
この経験を通じて、Agentモードが向いているタスクのパターンが見えてきました。
向いているタスク:
- 対象サービスにAPIがない(ポチポチするしかない)
- 手順が明確で繰り返し発生する
- 多少時間がかかっても構わない(10〜20分の処理でOK)
- ログイン認証さえ通れば、あとは定型作業
向いていないタスク:
- リアルタイム性が重要(即座に完了が必要)
- Googleなど厳格なセキュリティチェックが入るログイン(OAuth経由のログインはブロックされやすい)
- 細かい判断が連続するクリエイティブ作業
まとめ
ChatGPT Agentモードは「使いどころが謎」という印象を持つ人が多いと思います。僕もそうでした。
でも今回のポッドキャスト同時投稿の例のように、「APIがない・でもブラウザ操作なら自動化できる」タスクにはものすごくハマります。
AI駆動開発の文脈でいうと、コードを書いてサービスを作るだけでなく、自分の日常業務の中にある「面倒なポチポチ作業」をAIに委譲していくことも立派なAI駆動開発です。大森翔吾が運営するAI駆動開発ラボでは、こういった実例を継続的に配信しています。
関連する記事
AI駆動開発のご相談・お仕事のご依頼
株式会社CAEN(代表:大森翔吾)では、ChatGPT Agentモードを含むAI自動化の導入支援、音声コンテンツ×AI活用のワークフロー設計、AI駆動開発全般のご相談を承ります。
- お問い合わせ:info@caen.co.jp
- ポッドキャスト:AI駆動開発ラボ(stand.fm)
- YouTube:@aidd-lab
- X:@shogo_oomori
「ChatGPT Agentで自社の繰り返し作業を自動化したい」「音声配信やコンテンツ制作にAIを組み込みたい」など、お気軽にご相談ください。