株式会社CAENのロゴ

音声配信を記事化するAI駆動フロー|Geminiと無限もじおこしで全自動化

この記事で分かること

Podcast や YouTube の音声を、AI だけで Markdown 記事に変換できます。

「無限もじおこし」で書き起こし → Gemini 2.5 Pro / 3 Pro で構造化 → ChatGPT Agent モードで投稿まで自動。

この記事では 大森翔吾 が、AI駆動開発ラボ Podcast を /lab 記事に変換するために実運用している AI駆動フローを初心者向けに公開します。

なぜ音声の記事化は SEO で強いのか

音声はラクに情報を出せる一方、Google は文字情報しか読みません。Podcast や YouTube は音声のままだと SEO の恩恵がほぼゼロ

一次情報を1回しゃべるだけで 音声配信+ YouTube + /lab 記事+ X 投稿 まで派生させられたら、個人法人の発信コスパは劇的に上がります。これを AI駆動開発で自動化したのが本記事のフローです。

AI駆動フロー全体像(3ステップ)

ステップツールやること
① 文字起こし無限もじおこし / Whisper音声をテキスト化
② 構造化・リライトGemini 2.5 Pro / 3 Pro(Google AI Studio)全文を読ませて見出し・本文を生成
③ 投稿自動化ChatGPT Agent モード音声配信プラットフォーム等に投稿

ステップ①:文字起こしは「無限もじおこし」

無限もじおこし」は iOS / Android で使える文字起こしアプリです(2026年4月時点、アプリ側の利用は広告モデルで無料)。裏で Gemini 系の AI を使っており、精度が高く、録音と同時にリアルタイム変換されます。

Whisper との使い分け

  • スマホで話しながら書き起こしたい → 無限もじおこし
  • 既に録音した mp3 を処理したい → OpenAI Whisper(ローカル実行なら無料)

文字起こしは「汚くていい」

口語のフィラー(えー、あのー)や言い直しは気にしません。次の Gemini が全部掃除してくれます。整形は AI 任せが AI駆動開発の基本スタンスです。

ステップ②:Gemini で「全文一気に」構造化

文字起こしが終わったら Google AI Studio 経由で Gemini に投げます。普通の Gemini アプリではなく、AI Studio 経由の開発者向け入口を使うのがコツです。

決め手はコンテキストウィンドウ

コンテキストウィンドウとは「AI が一度に読み込める文字数」のこと。30分の Podcast は文字起こしで1〜2万字になります。

この量を ChatGPT で処理すると、モデルが「全部読んだフリ」をして一部しか理解せず、嘘混じりの要約を返すことがあります。Gemini 2.5 Pro / 3 Pro は百万トークン級のコンテキストを持つので、長尺 Podcast を丸ごと放り込んでも端から端まで理解してくれます。

プロンプトの型(そのまま使える)

以下は僕(大森翔吾)が Podcast で話した内容の文字起こしです。
口語・フィラー・言い直しが含まれます。
これをSEOに強い日本語Markdown記事に変換してください。

条件:
- 一人称は「僕」、ですます調
- H2 は 4〜6個、H3 で細分化
- 「AI駆動開発」関連キーワードを自然に散らす
- 僕が話していないことは絶対に追加しない(勝手な提案禁止)

【文字起こし】{ここに貼る}

「勝手に情報を盛るな」と必ず釘を刺す

Gemini も ChatGPT も親切心でそれっぽい情報を勝手に追加してきます。「プレミアムプランを用意しましょう」など、本人が話していないことまで書いてしまう。信頼性が崩れるので、プロンプトで明確に禁止します。経験則として口酸っぱく伝えています。

ステップ③:ChatGPT Agent モードで投稿まで自動化

記事ができたら最後は公開作業。ChatGPT Agent モード(2025年7月リリース、ChatGPT Plus で月20ドル〜。為替・改定で変動)は、ChatGPT 内で仮想ブラウザが立ち上がり、人間の代わりに Web サービスを操作してくれる機能です。

実際に自動化したユースケース

僕は stand.fm に収録 → RSS 経由で各配信プラットフォームへ配信していますが、Voicy だけは RSS 未対応で、1本ずつ手動アップロードが必要でした。毎週やるのが面倒で放置していた作業です。

これを Agent モードに丸投げしたら動きました。

  1. Voicy Studio にログイン(メアド/パス認証に切替えた方が通る)
  2. stand.fm の RSS URL を渡す
  3. 各エピソードをダウンロードして Voicy に下書きアップロード

6本を15〜20分で処理してくれました。僕は途中でご飯を食べていただけです。API が公開されていない Web サービスの自動化に対して、Agent モードはほぼ唯一解。個人開発者にとっての破壊力はここにあります。

このフローを /lab 記事づくりにそのまま使っている

この /lab セクションの記事も、ほとんどが「Podcast → 無限もじおこし → Gemini → Markdown」で書かれています。1本の Podcast から音声配信+ YouTube + /lab 記事+ X 投稿まで派生させる、AI駆動開発の典型的な応用です。

初心者がまず試すならこの順番

  1. スマホに「無限もじおこし」を入れる
  2. Google AI Studio のアカウントを作る(無料枠 rate limit 内で試せる)
  3. 3分くらいテーマを決めて話す
  4. 文字起こしを Gemini に投げて、上のプロンプトを流用
  5. 出た Markdown を note や自社ブログに貼る

ここまでコストはほぼゼロ。AI駆動開発の入り口として、これ以上手軽なテーマはありません。

関連する記事

AI駆動開発のご相談・お仕事のご依頼

株式会社CAEN(代表:大森翔吾)では、Podcast・YouTube・講演などの音声コンテンツを SEO 記事化する AI駆動フローの設計・構築を承ります。社内ナレッジの文字化、ウェビナー録画のブログ化、議事録自動化も同じ仕組みで対応可能です。

「自社 Podcast を SEO 記事化したい」「ウェビナー録画を自動 Markdown 化したい」「Agent モードで社内ツール操作を自動化したい」など、お気軽にご相談ください。