Whisperが無音時に幻聴する135フレーズ——文字起こしの落とし穴

OpenAIのWhisperは、無料で高精度な文字起こしができるツールとして広く使われています。しかし、ある条件下でWhisperが「存在しない言葉」を生成してしまう現象をご存じでしょうか。これは"hallucination（幻聴）"と呼ばれ、文字起こしの信頼性にかかわる重大な落とし穴です。

2024年に公開された研究では、Whisperが無音や低ノイズの音声に対して繰り返し出力する定型フレーズが約135パターン確認されました。この記事では、その実態と対処法を解説します。

Whisperの「幻聴」とは何か

無音区間で起きる誤認識

Whisperは、入力音声に無音やごく小さなノイズしか含まれていない場合でも、テキストを出力しようとする傾向があります。これは音声認識モデルが「何かしらの出力を返す」ように訓練されているために起こる現象です。

たとえば、録音開始後の数秒間や、話し手が長く沈黙した区間で、以下のような文字起こしが突然挿入されることがあります。

「ご視聴ありがとうございました」
「チャンネル登録お願いします」
「Thanks for watching」
「字幕は自動生成されています」

これらはWhisperの訓練データにYouTube動画の字幕が大量に含まれていたことが原因と考えられています。

135フレーズの内訳

研究者が報告した約135のフレーズは、大きく以下のカテゴリに分類されます。

YouTube定型文（約40%）：登録・高評価・通知関連
挨拶・締めくくり（約25%）：視聴のお礼、次回予告
宗教・祈祷文（約15%）：特定の宗教的フレーズの繰り返し
その他（約20%）：音楽記号、無関係な固有名詞など

特に問題なのは、文字起こしの結果だけ見ると「本当に話された言葉」と区別がつかない点です。音声日記やインタビューの文字起こしでは、内容の信頼性が損なわれるリスクがあります。

幻聴を防ぐ・検出する方法

録音時の対策

無音区間を減らす：録音開始後すぐに話し始める。長い沈黙の前に「少し考えます」と声を入れる
ノイズフロアを管理する：完全な無音より、軽い環境音があるほうがWhisperの幻聴は起きにくくなります

文字起こし後の対策

タイムスタンプ付きで出力する：Whisperの--word_timestampsオプションを使うと、各単語の開始・終了時刻がわかります。元音声と照合すれば、無音区間に挿入された幻聴テキストを特定できます
フィルタリングスクリプトを使う：既知の幻聴フレーズリストを使い、出力テキストから自動除去するポストプロセスを組む方法もあります

モデル選択の工夫

Whisperのlarge-v3モデルは旧バージョンに比べて幻聴が減少しています。また、faster-whisperなどの最適化実装では、無音検出のしきい値を調整するno_speech_thresholdパラメータがあり、これを適切に設定すると幻聴を大幅に抑えられます。

文字起こしの「その先」を考える

Whisperの幻聴問題は、文字起こしツール全般が抱える課題のひとつです。テキスト化はあくまで手段であり、大切なのは「声に込められた思考をどう活かすか」ではないでしょうか。

「書く日記は続かない」「何を話せばいいかわからない」——そんな悩みに応えるのが声景（Koekei）です。声を録るだけで、AIが文脈を読んで問いを返してくれるから、自然と思考が深まります。音声ジャーナリングをもっとやさしく始めたい方に。β版ウェイトリスト受付中 → https://koekei.com

まとめ

Whisperは無音時に約135パターンの「幻聴フレーズ」を出力することがある
原因はYouTube字幕を含む訓練データの偏り
タイムスタンプ照合やフィルタリングで対処可能
large-v3モデルやno_speech_thresholdの調整で発生率を下げられる

文字起こしツールを使いこなすうえで、この落とし穴を知っておくだけで結果の信頼性が大きく変わります。Whisperを日常的に使っている方は、ぜひ一度チェックしてみてくださいね。