HARUアプリが示すGeminiで声日記を生成AIに変換する未来
HARUアプリが示すGeminiで声日記を生成AIに変換する未来
HARUは声で話した日記を、AIがイラストやテキストに変換するというコンセプトのアプリです。Googleが開発したGeminiの多様なモダリティ対応能力と組み合わせることで、「声で話す」という入力が「視覚的な記録」「テキストの日記」「要約」に自動変換される——この技術の方向性は、音声日記の未来を示しています。
HARUのコンセプトが示す音声日記の進化
従来の音声日記は「声で録音→文字で記録」というフローが中心でした。HARUが提示したのは「声で話す→AIが複数の形式に変換する」というマルチモーダルな記録の可能性です。
話した内容がテキストに変換されるだけでなく、その感情・雰囲気・キーワードからイラストが生成される。話した場面が視覚的な記憶として保存される。このアプローチは「記録を見返す体験」を根本的に変えます。テキストの羅列より、自分が話したことと連動して生成されたビジュアルを見る方が、当時の感情へのアクセスがより直感的になります。
GeminiのマルチモーダルAIが音声日記を変える技術的背景
GoogleのGemini(特にGemini 1.5以降)は、テキスト・画像・音声・動画を統合的に処理できるマルチモーダルモデルです。音声日記への応用という観点では以下の可能性があります。
音声からの直接理解: Whisperのような別の音声認識モデルを経由せず、Geminiが音声を直接テキストの意味として理解できます。これにより「文字起こしのエラーがある→意味が変わる」というリスクが減ります。
感情・トーンの解析: テキストになる前の音声段階で、声のトーン・速度・強弱から感情状態を推定できます。「テキストは穏やかな内容だが、声は緊張している」という矛盾も検出できる可能性があります。
マルチモーダルな出力生成: 話した内容に応じたイラスト・図解・要約などを統合的に生成できます。
現在すでに実現できる「HARU風」フローの作り方
完全なHARU的体験は今後の技術進化を待つ部分もありますが、現在の技術でも近いフローを作れます。
音声日記を録音→Whisperで文字起こし→Claudeに「この日記から感情タグと一言要約を生成してください」→DALL-Eや画像生成AIに「この感情・テーマを表すイラストを生成してください」というパイプラインで、HARUのコンセプトに近い体験が実現します。
声景編集部の見解
声景はHARUとは異なる切り口で「声から思考を深める」体験を作ろうとしています。変換・可視化より「話しながら考えが整理される」プロセスの支援という方向性です。ただHARUが示すビジョンは音声日記の可能性を広げるものであり、技術的進化の方向として注目しています。
声景(Koekei)は、録音しながらAIがリアルタイムで「問いのカード」を差し込むジャーナリングツールです。声と映像から文脈を読んで、思考を深める問いを返してくれます。現在β版のウェイトリストを受け付けています。
HARUのコンセプトとGeminiのマルチモーダル能力が示す「声が複数の形式に変換される記録の未来」は、音声日記が単なるメモ記録を超えて感情・視覚・思考を統合した記録媒体になる可能性を示しています。声景もこの流れの中に位置づけられるツールです。
声景のβ版に先行登録する → https://koekei.com
β版 ウェイトリスト受付中
声に出した瞬間から、
アイデアは走り出す。
声景は、話しながら考える人のための発散特化型AIインターフェース。 β版のウェイトリストに登録すると、リリース時に最優先でご案内します。