ポッドキャスト文字起こしツール — Fish Audioでポッドキャストを文字起こしする方法

Fish Audioのポッドキャスト文字起こしツールは、自動感情タグ、話者ラベル、タイムスタンプを使用して音声をテキストに変換し、SRT、VTT、またはJSON形式でエクスポートします。無料プランも利用可能で、コードの知識は不要です。

2026年3月 | Fish Audio STTが fish.audio/app/speech-to-text で公開されました

トランスクリプト（文字起こし）なしで公開されているポッドキャストのエピソードは、トラフィックを逃していることになります。トランスクリプトがあれば、エピソードがGoogleで検索可能になり、ワンクリックでショーノートを作成でき、YouTubeやウェブサイト、その他の配信プラットフォーム向けの字幕を自動生成できます。また、聴覚に障害のある視聴者にとっても、コンテンツへのアクセシビリティが高まります。ポッドキャスト編集者、メディアチーム、YouTubeクリエイターは、SEOコンテンツ、検索可能なアーカイブ、アクセシブルなエピソードページを作成するためにトランスクリプトを活用しています。多くの文字起こしツールは、ただのプレーンテキストを出力して終わりですが、Fish Audioのポッドキャスト文字起こしツールはそれ以上の機能を提供します。すべてのトランスクリプトに自動感情タグ、パラ言語タグ、話者ラベル、タイムスタンプが付与され、3つの形式でエクスポート可能です。このガイドでは、アップロードからエクスポートまで、約3分で完了するワークフローを説明します。

無料でポッドキャストの文字起こしを開始する →

優れたポッドキャスト文字起こしツールとは？

文字起こしツールを選ぶ前に、何を評価すべきかを知っておくことが重要です。優れたポッドキャスト文字起こしツールには、次の4つの要素が求められます。

高い文字起こし精度: さまざまなアクセント、オーディオ品質、録音環境に対応していること。
話者識別: トランスクリプト内でホストとゲストを区別できること。
複数のエクスポート形式: ビデオ字幕用のSRTは必須で、理想的にはVTTやJSONも含まれること。
透明性が高く手頃な価格設定: 実際のエピソードで活用できる、実用的な無料プランがあること。

Fish Audioのポッドキャスト文字起こしツールは100以上の言語をサポートし、24種類のオーディオ・ビデオ形式に対応しています。手動のアノテーションなしで、感情やパラ言語イベントをインラインで自動的にタグ付けします。この音声文字起こし（STT）モデルは、会話形式のオーディオや、ポッドキャスト、インタビュー、ライブ討論などの複数話者による録音に最適化されています。実際の使い方は以下の通りです。

Fish Audioでポッドキャストを文字起こしする方法 — ステップ・バイ・ステップ

所要時間: 約3分 必要なもの: オーディオファイル（MP3、MP4、WAV、M4Aなど） 出力: タグ付きトランスクリプト + エクスポート用字幕ファイル

ステップ 1 — Fish Audio STTを開く

fish.audio/app/speech-to-text にアクセスします。タスク履歴が表示され、ファイル名、日付、ステータス、使用クレジット、話者数などの過去の文字起こしがリスト化されています。Create task（タスク作成）をクリックして、新しい文字起こしを開始します。

完了した文字起こしタスクのリストを表示する Fish Audio Speech to Text タスクリスト

ステップ 2 — エピソードをアップロードして話者を設定する

文字起こしタスクの作成ウィンドウで、オーディオまたはビデオファイルをアップロードします。Fish Audioは、MP3、MP4、WAV、FLAC、M4A、OGG、MOV、AVI、WEBMなどの主要な形式すべてに対応しています。

Number of speakers（話者数）の設定では、録音に何人含まれているか不明な場合は「Auto」のままにしてください。Fish Audioが自動的に話者を検出します。標準的なホストとゲストの2人構成のように正確な人数がわかっている場合は、手動で設定することで話者ラベルの精度が向上します。

確定する前に、インターフェースには推定時間、課金対象分、およびこのタスクに必要な推定クレジットが表示されます。Create task をクリックするまで料金は発生しません。

ファイルアップロード、話者数設定、推定クレジットを表示する Fish Audio 文字起こしタスク作成ダイアログ

ステップ 3 — トランスクリプトを確認する

タスクが完了したら、Open viewer（ビューアを開く）をクリックします。トランスクリプトは、SPK/TAGS（話者ラベル）、TIME（タイムスタンプ範囲）、TEXT（インラインタグ付きのテキスト）の3列で表示されます。

各セグメントは秒単位でタイムスタンプが付与されています。感情やパラ言語イベントは、紫色のインラインタグとしてテキスト内に直接表示されます。録音の正確な位置に [pause]（一時停止）、[sigh]（ため息）、[emphasis]（強調）、[breath]（息継ぎ）などのタグが表示されます。

任意のセグメントをクリックすると、ブラウザ上でその部分のオーディオを直接再生できます。これにより、ファイル全体をシークすることなく、精度の確認や特定箇所のチェックが簡単に行えます。

右側のコントロールパネルには、総時間、検出された話者数、セグメント数、音声分離（Voice separation）と音声イベントタグ（Tag audio events）が有効であることの確認が表示されます。

話者ラベル、タイムスタンプ、一時停止やため息などのインライン感情タグを表示する Fish Audio トランスクリプトビューア

ステップ 4 — 指定の形式でエクスポートする

コントロールパネルの右下にある Export（エクスポート）をクリックします。形式を選択し、ダウンロード前にエクスポートオプションを設定します。

形式選択を表示する Fish Audio エクスポートオプションパネル

SRT、VTT、JSONの形式オプションと一般的なエクスポート設定を表示する Fish Audio 文字起こしエクスポートダイアログ

最初のエピソードを文字起こしする準備はできましたか？無料の文字起こしタスクを開始する →

自動タグ — 他のツールが見逃す要素を Fish Audio がキャッチ

ここが、Fish Audioのポッドキャスト文字起こしツールが代替ツールと最も明確に異なる点です。

質問に答える前にため息をついたり、文の途中で笑ったり、強調のために間を置いたり、息を吸い込んだりしたとき、標準的な文字起こしツールはそれらをすべて無視します。それ以外のすべての要素が削ぎ落とされた、単なる「言葉」だけが提供されます。

Fish Audioは、これらのイベントをトランスクリプト内の発生した正確な位置にインラインタグとして埋め込みます。これらのタグは自動的に生成され、手動のアノテーションや後処理は必要ありません。コントロールパネルでは、デフォルトで Tag audio events: On に設定されています。

タグ付けされる内容

パラ言語（Paralanguage） — 発話と同時に発生する非言語的な音。

感情（Emotion） — コンテキストや韻律から捉えられた、話し方の感情的なトーン。

ポッドキャスターにとっての重要性

ポッドキャストのワークフローにおいて、タグには3つの実用的な目的があります。第一に、トランスクリプトをショーノートのソースとしてより便利にします。[laugh]（笑い）や [pause]（間）が記録されたトランスクリプトは、平坦なテキストファイルよりも編集者に豊かな素材を提供します。第二に、長い録音のナビゲーションを速めます。[sigh]（ため息）や [emphasis]（強調）をスキャンすることで、再試聴することなくエピソードの感情的に重要な部分を見つけることができます。第三に、そして最も特徴的な点として、これらのタグは Fish Audio の TTS（テキスト読み上げ）モデルと互換性があります。つまり、トランスクリプトをフォーマットし直すことなく、そのまま音声制作ワークフローに戻すことができるのです。

タグの動作を実際に確認してみませんか？最初のオーディオファイルをアップロードする →

エクスポート形式の解説 — どれが必要？

Fish Audio STT は3つのエクスポート形式をサポートしています。どれを使用するかは、トランスクリプトの次の用途によります。

SRT は、ビデオコンテンツを配信するほとんどのポッドキャスターにとって最適な選択肢です。最も広くサポートされている字幕形式であり、YouTube、Premiere Pro、Final Cut Pro、およびほとんどのビデオプラットフォームと互換性があります。

VTT (WebVTT) はウェブネイティブな形式です。自分のサイトにビデオを埋め込み、単語ごとのタイミング制御が必要な場合に使用します。

JSON は、字幕への変換を行わない生のSTT出力を提供します。トランスクリプトを別のツールに読み込ませたり、カスタムアプリを構築したりする場合に使用します。

エクスポートオプション

SRTまたはVTTをエクスポートする際、4つの追加設定が可能です。

Include tags — [pause] や [sigh] などのタグを字幕ファイルに含めます。クリーンな字幕が必要な場合はオフにし、表現力豊かなメタデータを保持したい場合はオンにします。
Include speaker — 各字幕のキューの前に、検出された話者ラベル（SPK_0, SPK_1など）を付加します。複数人のエピソードで便利です。
Punctuation — エクスポートされたテキストに句読点を保持します。さらに処理を続けるためにクリーンなトークンストリームが必要な場合はオフにします。
Split mode — Segment（既存のSTTの境界を維持）または Max words（単語数、句読点、話者の交代に基づいてキューを再編成）から選択します。1キューあたり最大7単語に制限した Max words モードは、早口の会話でも読みやすい字幕を作成する傾向があります。

話者検出 — ホストとゲストを区別する

ポッドキャストのインタビューやパネルディスカッションにおいて、話者検出は最も役立つ機能の一つです。Fish Audioは、複数人の録音において自動的に話者を分離します。トランスクリプトビューアの各セグメントには SPK_0、SPK_1 などのラベルが付けられ、オーディオから検出された個別の声に対応します。

タスクを作成するとき、Number of speakers（話者数）を Auto にするか、手動で設定できます。正確な人数を設定すると、特に一方が他方より著しく静かな録音などで、よりクリーンな話者の境界が生成される傾向があります。

エクスポート時に Include speaker を有効にすると、各字幕キューにプレフィックスとして話者ラベルが追加されます。これにより、話者ごとにトランスクリプトを検索、編集、再フォーマットすることが容易になり、ショーノート用の引用を抽出したり、重要なやり取りに絞って編集したりする際に便利です。

注意：話者検出と話者ラベル付きトランスクリプトは、Fish Audio のウェブインターフェースで利用可能です。Include speaker が有効な場合、SRT、VTT、および JSON 形式のエクスポートにも話者ラベルが含まれます。

ポッドキャストの文字起こしにはいくらかかる？

Fish Audio STT は、処理されたオーディオ1分あたり 300クレジット で請求されます。

無料アカウントには毎月8,000クレジットが付与され、これは約26分間のオーディオに相当します。これにより、短いエピソードやいくつかのインタビューセグメントをカバーできます。

ウェブインターフェースでは、タスクを確定する前に正確な推定クレジットが表示されるため、予期せぬ請求の心配はありません。

チームや大量制作を行う場合は、有料プランにより多くのクレジットが含まれています。fish.audio/plan/ で詳細な価格体系をご確認ください。

次のポッドキャストエピソードを数分で文字起こししましょう。無料で文字起こしを開始する →

Fish Audio と他のポッドキャスト文字起こしツールの比較

最適なポッドキャスト文字起こしツールを探している多くのポッドキャスターは、単なるテキストが必要なのか、あるいは感情タグやマルチフォーマットエクスポートのような豊富なメタデータが必要なのかによって選択肢が変わることに気づきます。Fish Audioと他の人気オプションの比較は以下の通りです。

機能	Fish Audio	Otter.ai	Happy Scribe	Adobe Podcast
自動感情タグ	✅	❌	❌	❌
パラ言語タグ	✅	❌	❌	❌
話者検出	✅	✅	✅	✅
SRT エクスポート	✅	✅	✅	❌
VTT エクスポート	✅	❌	✅	❌
JSON エクスポート	✅	❌	❌	❌
TTS / Studio 連携	✅	❌	❌	❌
対応言語	100+	多言語	120+	限定的
無料プラン	✅ 8,000クレジット/月	✅ 300分/月	✅ 制限あり	✅

データは2026年3月時点の Otter.ai、 Happy Scribe、 Adobe Podcast の公式情報に基づいています。

ほとんどのツールはプレーンテキストの出力に重点を置いていますが、Fish Audioはトランスクリプト内に感情やパラ言語タグを直接埋め込む数少ないツールの一つであり、Studio連携を通じて文字起こしを音声制作ワークフローに接続できる数少ないツールでもあります。

ショーノートやSEOコンテンツ用にクリーンなプレーンテキストが必要なだけなら、どのツールでも機能します。しかし、タグ付きトランスクリプト、マルチフォーマットエクスポート、または文字起こしから音声制作へのパスが必要な場合、Fish Audioが最も包括的な選択肢となります。

ポッドキャスターにとって便利なもう一つの選択肢は Podsqueeze です。これは、ポッドキャストのエピソードをショーノート、タイムスタンプ、要約、ソーシャル投稿、ニュースレター、その他のコンテンツに再利用するのを支援するAIプラットフォームです。録音後の時間を節約し、1つのエピソードから視聴者向けに複数のコンテンツ資産を作成したいクリエイターに特に役立ちます。

次のステップ — トランスクリプトから Studio へ

タグ付きのトランスクリプトは、単なるドキュメントではありません。それは、どのように聞こえるべきかをすでに知っている「台本」です。

Fish Audioがポッドキャストのトランスクリプトに埋め込む [calm, reflective]（穏やか、反省的）、[breath]（息継ぎ）、[determined]（決然とした）、[pause]（間）などのタグは、Fish Audio の S2 TTS モデルと同じ形式を使用しています。つまり、トランスクリプトをフォーマットし直すことなく、音声生成パイプラインに直接入力できることを意味します。

Fish Audio Studio はこれをさらに進化させます。Studioでは、タグ付きの台本は完全に編集可能な音声プロジェクトになります。チャプターごとに編集したり、音声モデルを入れ替えたり、単語レベルで話し方を調整したり、マルチトラックオーディオを制作したりできます。これらすべてを、元の録音の表現力豊かなメタデータを保持したまま行えます。

感情ラベルとマルチトラックオーディオタイムラインを備えたタグ付きトランスクリプトを表示する Fish Audio Story Studio

STTからStudioへの直接インポート機能は近日公開予定です。 トランスクリプト形式はすでに互換性があり、STT出力のタグはStudioが読み取るものと同じです。機能がリリースされれば、インポートはワンステップで完了します。

無料でポッドキャストの文字起こしを開始する → — または、制作の準備ができている場合は Fish Audio Studio を探索する。

関連記事:

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Sabrina Shuの他の記事を読む