2025年9月20日

音声配信を記事化するAI駆動フロー｜Geminiと無限もじおこしで全自動化

この記事で分かること

Podcast や YouTube の音声を、AI だけで Markdown 記事に変換できます。

「無限もじおこし」で書き起こし → Gemini 2.5 Pro / 3 Pro で構造化 → ChatGPT Agent モードで投稿まで自動。

この記事では大森翔吾が、AI駆動開発ラボ Podcast を /lab 記事に変換するために実運用している AI駆動フローを初心者向けに公開します。

なぜ音声の記事化は SEO で強いのか

音声はラクに情報を出せる一方、Google は文字情報しか読みません。Podcast や YouTube は音声のままだと SEO の恩恵がほぼゼロ。

一次情報を1回しゃべるだけで 音声配信＋ YouTube ＋ /lab 記事＋ X 投稿 まで派生させられたら、個人法人の発信コスパは劇的に上がります。これを AI駆動開発で自動化したのが本記事のフローです。

AI駆動フロー全体像（3ステップ）

ステップ	ツール	やること
① 文字起こし	無限もじおこし / Whisper	音声をテキスト化
② 構造化・リライト	Gemini 2.5 Pro / 3 Pro（Google AI Studio）	全文を読ませて見出し・本文を生成
③ 投稿自動化	ChatGPT Agent モード	音声配信プラットフォーム等に投稿

ステップ①：文字起こしは「無限もじおこし」

「無限もじおこし」は iOS / Android で使える文字起こしアプリです（2026年4月時点、アプリ側の利用は広告モデルで無料）。裏で Gemini 系の AI を使っており、精度が高く、録音と同時にリアルタイム変換されます。

Whisper との使い分け

スマホで話しながら書き起こしたい → 無限もじおこし
既に録音した mp3 を処理したい → OpenAI Whisper（ローカル実行なら無料）

文字起こしは「汚くていい」

口語のフィラー（えー、あのー）や言い直しは気にしません。次の Gemini が全部掃除してくれます。整形は AI 任せが AI駆動開発の基本スタンスです。

ステップ②：Gemini で「全文一気に」構造化

文字起こしが終わったら Google AI Studio 経由で Gemini に投げます。普通の Gemini アプリではなく、AI Studio 経由の開発者向け入口を使うのがコツです。

決め手はコンテキストウィンドウ

コンテキストウィンドウとは「AI が一度に読み込める文字数」のこと。30分の Podcast は文字起こしで1〜2万字になります。

この量を ChatGPT で処理すると、モデルが「全部読んだフリ」をして一部しか理解せず、嘘混じりの要約を返すことがあります。Gemini 2.5 Pro / 3 Pro は百万トークン級のコンテキストを持つので、長尺 Podcast を丸ごと放り込んでも端から端まで理解してくれます。

プロンプトの型（そのまま使える）

以下は僕（大森翔吾）が Podcast で話した内容の文字起こしです。
口語・フィラー・言い直しが含まれます。
これをSEOに強い日本語Markdown記事に変換してください。

条件：
- 一人称は「僕」、ですます調
- H2 は 4〜6個、H3 で細分化
- 「AI駆動開発」関連キーワードを自然に散らす
- 僕が話していないことは絶対に追加しない（勝手な提案禁止）

【文字起こし】{ここに貼る}

「勝手に情報を盛るな」と必ず釘を刺す

Gemini も ChatGPT も親切心でそれっぽい情報を勝手に追加してきます。「プレミアムプランを用意しましょう」など、本人が話していないことまで書いてしまう。信頼性が崩れるので、プロンプトで明確に禁止します。経験則として口酸っぱく伝えています。

ステップ③：ChatGPT Agent モードで投稿まで自動化

記事ができたら最後は公開作業。ChatGPT Agent モード（2025年7月リリース、ChatGPT Plus で月20ドル〜。為替・改定で変動）は、ChatGPT 内で仮想ブラウザが立ち上がり、人間の代わりに Web サービスを操作してくれる機能です。

実際に自動化したユースケース

僕は stand.fm に収録 → RSS 経由で各配信プラットフォームへ配信していますが、Voicy だけは RSS 未対応で、1本ずつ手動アップロードが必要でした。毎週やるのが面倒で放置していた作業です。

これを Agent モードに丸投げしたら動きました。

Voicy Studio にログイン（メアド/パス認証に切替えた方が通る）
stand.fm の RSS URL を渡す
各エピソードをダウンロードして Voicy に下書きアップロード

6本を15〜20分で処理してくれました。僕は途中でご飯を食べていただけです。API が公開されていない Web サービスの自動化に対して、Agent モードはほぼ唯一解。個人開発者にとっての破壊力はここにあります。

このフローを /lab 記事づくりにそのまま使っている

この /lab セクションの記事も、ほとんどが「Podcast → 無限もじおこし → Gemini → Markdown」で書かれています。1本の Podcast から音声配信＋ YouTube ＋ /lab 記事＋ X 投稿まで派生させる、AI駆動開発の典型的な応用です。

初心者がまず試すならこの順番

スマホに「無限もじおこし」を入れる
Google AI Studio のアカウントを作る（無料枠 rate limit 内で試せる）
3分くらいテーマを決めて話す
文字起こしを Gemini に投げて、上のプロンプトを流用
出た Markdown を note や自社ブログに貼る

ここまでコストはほぼゼロ。AI駆動開発の入り口として、これ以上手軽なテーマはありません。

AI駆動開発のご相談・お仕事のご依頼

株式会社CAEN（代表：大森翔吾）では、Podcast・YouTube・講演などの音声コンテンツを SEO 記事化する AI駆動フローの設計・構築を承ります。社内ナレッジの文字化、ウェビナー録画のブログ化、議事録自動化も同じ仕組みで対応可能です。

お問い合わせ：info@caen.co.jp
ポッドキャスト：AI駆動開発ラボ（stand.fm）
YouTube：@aidd-lab
X：@shogo_oomori

「自社 Podcast を SEO 記事化したい」「ウェビナー録画を自動 Markdown 化したい」「Agent モードで社内ツール操作を自動化したい」など、お気軽にご相談ください。