音声配信を記事化するAI駆動フロー|Geminiと無限もじおこしで全自動化
この記事で分かること
Podcast や YouTube の音声を、AI だけで Markdown 記事に変換できます。
「無限もじおこし」で書き起こし → Gemini 2.5 Pro / 3 Pro で構造化 → ChatGPT Agent モードで投稿まで自動。
この記事では 大森翔吾 が、AI駆動開発ラボ Podcast を /lab 記事に変換するために実運用している AI駆動フローを初心者向けに公開します。
なぜ音声の記事化は SEO で強いのか
音声はラクに情報を出せる一方、Google は文字情報しか読みません。Podcast や YouTube は音声のままだと SEO の恩恵がほぼゼロ。
一次情報を1回しゃべるだけで 音声配信+ YouTube + /lab 記事+ X 投稿 まで派生させられたら、個人法人の発信コスパは劇的に上がります。これを AI駆動開発で自動化したのが本記事のフローです。
AI駆動フロー全体像(3ステップ)
| ステップ | ツール | やること |
|---|---|---|
| ① 文字起こし | 無限もじおこし / Whisper | 音声をテキスト化 |
| ② 構造化・リライト | Gemini 2.5 Pro / 3 Pro(Google AI Studio) | 全文を読ませて見出し・本文を生成 |
| ③ 投稿自動化 | ChatGPT Agent モード | 音声配信プラットフォーム等に投稿 |
ステップ①:文字起こしは「無限もじおこし」
「無限もじおこし」は iOS / Android で使える文字起こしアプリです(2026年4月時点、アプリ側の利用は広告モデルで無料)。裏で Gemini 系の AI を使っており、精度が高く、録音と同時にリアルタイム変換されます。
Whisper との使い分け
- スマホで話しながら書き起こしたい → 無限もじおこし
- 既に録音した mp3 を処理したい → OpenAI Whisper(ローカル実行なら無料)
文字起こしは「汚くていい」
口語のフィラー(えー、あのー)や言い直しは気にしません。次の Gemini が全部掃除してくれます。整形は AI 任せが AI駆動開発の基本スタンスです。
ステップ②:Gemini で「全文一気に」構造化
文字起こしが終わったら Google AI Studio 経由で Gemini に投げます。普通の Gemini アプリではなく、AI Studio 経由の開発者向け入口を使うのがコツです。
決め手はコンテキストウィンドウ
コンテキストウィンドウとは「AI が一度に読み込める文字数」のこと。30分の Podcast は文字起こしで1〜2万字になります。
この量を ChatGPT で処理すると、モデルが「全部読んだフリ」をして一部しか理解せず、嘘混じりの要約を返すことがあります。Gemini 2.5 Pro / 3 Pro は百万トークン級のコンテキストを持つので、長尺 Podcast を丸ごと放り込んでも端から端まで理解してくれます。
プロンプトの型(そのまま使える)
以下は僕(大森翔吾)が Podcast で話した内容の文字起こしです。
口語・フィラー・言い直しが含まれます。
これをSEOに強い日本語Markdown記事に変換してください。
条件:
- 一人称は「僕」、ですます調
- H2 は 4〜6個、H3 で細分化
- 「AI駆動開発」関連キーワードを自然に散らす
- 僕が話していないことは絶対に追加しない(勝手な提案禁止)
【文字起こし】{ここに貼る}
「勝手に情報を盛るな」と必ず釘を刺す
Gemini も ChatGPT も親切心でそれっぽい情報を勝手に追加してきます。「プレミアムプランを用意しましょう」など、本人が話していないことまで書いてしまう。信頼性が崩れるので、プロンプトで明確に禁止します。経験則として口酸っぱく伝えています。
ステップ③:ChatGPT Agent モードで投稿まで自動化
記事ができたら最後は公開作業。ChatGPT Agent モード(2025年7月リリース、ChatGPT Plus で月20ドル〜。為替・改定で変動)は、ChatGPT 内で仮想ブラウザが立ち上がり、人間の代わりに Web サービスを操作してくれる機能です。
実際に自動化したユースケース
僕は stand.fm に収録 → RSS 経由で各配信プラットフォームへ配信していますが、Voicy だけは RSS 未対応で、1本ずつ手動アップロードが必要でした。毎週やるのが面倒で放置していた作業です。
これを Agent モードに丸投げしたら動きました。
- Voicy Studio にログイン(メアド/パス認証に切替えた方が通る)
- stand.fm の RSS URL を渡す
- 各エピソードをダウンロードして Voicy に下書きアップロード
6本を15〜20分で処理してくれました。僕は途中でご飯を食べていただけです。API が公開されていない Web サービスの自動化に対して、Agent モードはほぼ唯一解。個人開発者にとっての破壊力はここにあります。
このフローを /lab 記事づくりにそのまま使っている
この /lab セクションの記事も、ほとんどが「Podcast → 無限もじおこし → Gemini → Markdown」で書かれています。1本の Podcast から音声配信+ YouTube + /lab 記事+ X 投稿まで派生させる、AI駆動開発の典型的な応用です。
初心者がまず試すならこの順番
- スマホに「無限もじおこし」を入れる
- Google AI Studio のアカウントを作る(無料枠 rate limit 内で試せる)
- 3分くらいテーマを決めて話す
- 文字起こしを Gemini に投げて、上のプロンプトを流用
- 出た Markdown を note や自社ブログに貼る
ここまでコストはほぼゼロ。AI駆動開発の入り口として、これ以上手軽なテーマはありません。
関連する記事
- Google AI Studio で AI 駆動開発を始める方法
- AI駆動開発の爆速フロー全公開|Codex × Cursor × worktree
- MCPとは?AI駆動開発で今最も熱い仕組みを初心者向けに解説
- AI駆動開発で個人が独立する時代|一人法人の働き方
AI駆動開発のご相談・お仕事のご依頼
株式会社CAEN(代表:大森翔吾)では、Podcast・YouTube・講演などの音声コンテンツを SEO 記事化する AI駆動フローの設計・構築を承ります。社内ナレッジの文字化、ウェビナー録画のブログ化、議事録自動化も同じ仕組みで対応可能です。
- お問い合わせ:info@caen.co.jp
- ポッドキャスト:AI駆動開発ラボ(stand.fm)
- YouTube:@aidd-lab
- X:@shogo_oomori
「自社 Podcast を SEO 記事化したい」「ウェビナー録画を自動 Markdown 化したい」「Agent モードで社内ツール操作を自動化したい」など、お気軽にご相談ください。