Whisperが方言・なまりを認識する仕組みと精度を上げるコツ

「Whisperで音声日記を文字起こしたら、関西弁が変な標準語に変換されてしまった」「なまりが強い部分だけ認識率が落ちる」——こうした経験がある方は多いはずです。Whisperが方言・なまりをどう扱っているかを知ることで、精度向上のための具体的な対策が立てられます。

WhisperのTransformerアーキテクチャと方言認識

Whisperはトランスフォーマーアーキテクチャを採用した音声認識モデルで、68万時間以上の多言語音声データで学習されています。日本語データも大量に含まれますが、標準語（東京方言）のデータが圧倒的に多いため、方言・なまりに対する認識性能は標準語より低くなる傾向があります。

Whisperの認識プロセスは音声の音響特徴を抽出し、学習済みの言語モデルで「この音声列は最も確率の高いどの単語列か」を推定します。方言固有の音韻変化（例：「そやそや」→「そうだそうだ」への変換）は、学習データの分布に基づいて行われます。

つまりWhisperは方言の音を「最も近い標準語」に変換しようとする傾向があり、これが「意図せず標準語化される」という現象の原因です。

以下の場合に認識精度が特に下がりやすい傾向があります。

語末変化が大きい方言: 九州方言・東北方言など、語末の母音脱落や独自の語尾変化が多い方言は誤認識率が高まります。

語彙がユニークな方言: 標準語に対応語彙がない方言固有語（例：関西弁の「ほんまに」→「本当に」への変換は比較的良好ですが、より固有の語彙は誤認識されやすい）

話すスピードが速い・滑舌が不明瞭な場合: これは方言に限らず認識精度に影響します。

コツ1: プロンプトに方言語彙を入れる

WhisperのAPIを使う場合、initial_promptパラメータに方言の語彙を含む文章を入れることで、その語彙が優先的に認識されるよう誘導できます。例えば「関西の会話を録音しました。「ほんまに」「なんでやねん」「ちゃうちゃう」などの語彙が含まれます」というプロンプトが有効です。

コツ2: Whisperのモデルサイズを上げる

Whisperにはtiny・base・small・medium・largeのサイズがあります。方言認識にはlarge-v3モデルが最も高精度ですが、処理時間とリソースがかかります。

コツ3: マイクの距離と発音を意識する

録音環境の改善も有効です。マイクから口を5〜15cm程度に保ち、口をしっかり開いて話すことで認識精度が改善します。

声景では、ユーザーがどの地域の言葉で話しても内省のプロセスが支えられるよう、音声認識精度の継続的な改善を重要な課題と捉えています。自分の言葉で話し、自分の言葉として記録されることが、ジャーナリングの本質だからです。

「話しながら考えが整理されていく」——そんな感覚を毎日の習慣にできるのが声景（Koekei）です。AIが会話の流れを読んで思考を深める問いをリアルタイムで差し込んでくれます。β版ウェイトリスト受付中。

Whisperが方言を標準語化する現象は、学習データの分布に起因するものです。initial_promptによる語彙誘導・large-v3モデルの使用・録音環境の改善という3つの対策で、方言音声日記の認識精度は大幅に改善できます。

声景のβ版に先行登録する → https://koekei.com