株式会社CAENのロゴ

AI駆動開発でポッドキャスト管理ツールを自作した実例|個人開発の自動化入門

この記事で分かること

  • AI駆動開発で「自分だけが使うツール」を作るとどんな恩恵があるか
  • ポッドキャストの文字起こし・メタデータ管理を自動化した具体的な実装フロー
  • 非エンジニアでも Cursor を使えばここまでできる、という実例

僕は 株式会社CAEN の代表として、AI駆動開発ラボというポッドキャストを配信しています。毎週収録して stand.fm に投稿するだけでも十分な作業量なのに、その後の「文字起こし」「タイトル最適化」「コンテンツ転用」といった作業が積み重なっていました。

この記事では、そのポッドキャスト管理業務を AI駆動開発で自動化したツールを作った実例を、できるだけ具体的にお話しします。

なぜポッドキャストをプログラムで管理するのか

「ポッドキャストはスマホアプリで収録して投稿するだけでいいんじゃないの?」と思う方もいるかもしれません。

実は、ポッドキャストを発信するだけが目的ではないんです。僕がやりたかったのは、自分が話した内容を「素材」として再利用することでした。

たとえば、

  • 話した内容を文字起こしして記事のドラフトにする
  • YouTube 動画の台本の参考にする
  • AI に渡してコンテンツを転用する

こういった活用ができれば、1回の収録から複数のアウトプットが生まれます。そのためには、音声データを文字データとして手元に整理しておく必要がありました。

ただ、毎回手動で文字起こしして保存して……というのは現実的ではない。だから、プログラムで自動化してしまおうと考えたわけです。

作ったものの全体像

ざっくり言うと、次のような処理をボタン一発でできるようにしました(2025年11月時点)。

  1. RSS から最新放送データを取得:stand.fm が RSS 形式でポッドキャストを配信しているので、そのチャンネル URL をプログラムで読み込むと、全放送のタイトルや音声 URL が一覧で取得できます
  2. 音声ファイルをダウンロードして Gemini API で文字起こし:取得した音声データを Google の Gemini API(2025年11月時点では無料枠 rate limit 内で利用)に渡して、テキストに変換します
  3. 文字起こしデータとメタデータを Git で管理:変換したテキストと、タイトルなどのメタデータを Git リポジトリに保存して管理します

音声ファイル本体は Git に保存していません。理由は2つ。容量が大きいこと、そして RSS の URL にアクセスすればいつでも取得できるので、手元に持ち続ける必要がないからです。

文字起こしデータやメタデータは容量が軽いので、全件 Git に保存しています。これで、どのデバイスからでも過去の全放送の内容にアクセスできる状態になりました。

Cursor で実装した流れ

実装には Cursor(AI 駆動開発ツールの中で現在最も広く使われているコードエディタ)を使いました。Cursor については Cursorとは?AI駆動開発で一番使われるコードエディタの完全ガイド で詳しく解説しています。

実際に Cursor に渡した指示はこんな感じです。

「stand.fm の RSS URL を読み込んで、ポッドキャストの一覧を取得するプログラムを作って。音声データをダウンロードして Gemini の API で文字起こしして、タイトルや配信日などのメタデータと一緒に Git リポジトリに保存するようにしてほしい。操作は Web 画面から1クリックでできるようにしたい。言語は TypeScript / Next.js を使って。」

これを伝えるだけで、Cursor が実装を進めてくれました。

プログラミング言語は TypeScript / Next.js を選びました。理由は、ウェブサービスもツールも同じ技術スタックで作れるオールマイティさがあるからです。「何を作るにしても Next.js に慣れておく」というのが個人的なお勧めです。

詰まったポイントと解決策

実装はスムーズに進みましたが、少しエンジニア的な勘どころが必要な部分もありました。

何を Git に保存して、何を保存しないか

最初は「全部 Git に入れればいいんじゃないか」と思っていたのですが、音声ファイルは1ファイルあたり数十 MB になることもあり、Git には向きません。

判断基準はシンプルで、「いつでも再取得できるものは保存しない、テキスト変換済みのデータは全部保存する」です。この考え方を整理するのに少し時間がかかりました。

API のレート制限

Gemini API には無料枠のレート制限があります。一度に大量の音声ファイルを文字起こしすると制限に引っかかるケースがあったので、処理を間隔を空けて実行するよう実装を調整しました。Gemini API を活用した文字起こしの仕組みについては 音声からブログ記事を生成する Gemini 活用術 でも詳しく取り上げています。

タイトル最適化にも AI を活用

文字起こしデータを手に入れたことで、もうひとつ実現できたことがあります。ポッドキャストのタイトルを AI に最適化させることです。

僕はもともとブロガーでも編集者でもないので、「聞きたくなるタイトル」を作るのが得意ではありませんでした。そこで、収録した内容の文字起こしデータを Gemini に渡して、「この内容をもとに、思わずポチッと聞きたくなるタイトルを5案出して」と依頼する運用にしています。

出てきた案から一番しっくりくるものを選んで投稿タイトルにするだけで、クリック率が体感で上がりました。

この種の「AI を使ったコンテンツ最適化」は、ChatGPT Agent でポッドキャスト配信を全自動化した話 でも詳しく紹介しています。

「自分だけのツール」を作ることの価値

このポッドキャスト管理ツールは、世の中に公開するサービスでも、誰かに売るプロダクトでもありません。完全に自分だけが使うためのツールです。

AI駆動開発の話をすると、多くの方が「ウェブサービスを作る」「アプリを作る」というイメージを持つと思います。もちろんそれも大事ですが、まず手近なところから始めるなら「自分の困りごとをツールで解決する」のが一番実感が得やすいです。

  • 手動でやっていた作業が1クリックで終わる
  • 毎週10分かかっていた作業が0分になる
  • 「あの情報どこに保存したっけ」という迷子がなくなる

こういう小さな積み重ねが、日常をじわじわと楽にしていきます。プログラミング経験がなくても、Cursor に「こういうことがしたい」と日本語で伝えれば動くものが作れる時代になっています。

AI駆動開発の自動化事例は メール処理をAIで自動化した個人開発のリアルな話 でも紹介しているので、あわせて読んでみてください。

今後やりたいこと

現時点(2025年11月)では「最新放送の取得と文字起こし」が中心ですが、今後は以下も実装したいと考えています。

  • YouTube API 連携:プログラムから YouTube チャンネルにアクセスして、多言語字幕の自動追加やタイトルの一括更新を実現する。50件の字幕を手動でポチポチ投稿する手間が1クリックになります
  • コンテンツ転用の自動化:文字起こしデータをもとに、note 記事や YouTube の台本ドラフトを自動生成するパイプライン

API とは、「プログラムがサービスを操作するための入口」のこと。YouTube に API があるということは、プログラム上で「字幕を追加して」「タイトルを変更して」という命令が送れる、つまり自動化できるということです。

自分のデータを Git で管理する流れが来るかもしれない

少し視点を広げると、2025年後半ごろから AI 系の発信者の間で「自分のデータを Git で管理する」という考え方が注目され始めています。

ブログ、ポッドキャスト、日記、メモ——こうした自分に関するデータを Git に集約して文字データ化しておくと、「この Git を読み込ませれば、AI が自分のことを何でも知っている」状態が作れます。コンテンツ転用も「以前こう言ったから、今度はこういう記事が書けるね」という形で AI に提案させられる。

僕がポッドキャストを Git 管理し始めたのもこの考え方からで、この波は今後もっと広がると思っています。

AI駆動開発のワークフロー全体については AI駆動開発の爆速フロー全公開 で詳しくまとめているので、ぜひ読んでみてください。

関連する記事

AI駆動開発のご相談・お仕事のご依頼

株式会社CAEN(代表:大森翔吾)では、Cursor や Gemini を活用した AI 駆動開発の導入支援、業務自動化ツールの設計・実装のご相談を承ります。

「自分の業務を自動化するツールを作りたい」「AI 駆動開発で個人開発を始めたい」など、お気軽にご相談ください。