AIが声で日記を書いてイラスト化する「HARU」的アプリの作り方

「声で話すと日記が書かれ、さらにイラストまで生成される」——HARUが示したこのコンセプトは、多くの人の想像力を刺激しました。実はこの体験を自分で作ることは、今やノーコード/ローコードツールとAI APIの組み合わせで実現できます。技術的な詳細を踏まえながら、HARU的アプリを自作する方法を解説します。

HARU的アプリが必要とするコンポーネント

機能を分解すると4つのコンポーネントが必要です。

音声入力: スマートフォンのマイクから音声をキャプチャする機能

音声テキスト変換（STT）: 録音した音声をテキストに変換する（Whisper APIまたはGoogle Speech-to-Text）

テキスト処理・日記化: 文字起こしテキストを読みやすい日記形式に整形し、感情・テーマを抽出する（Claude API または GPT-4o API）

画像生成（イラスト化）: 抽出したテーマ・感情・キーワードをもとにイラストを生成する（DALL-E 3、Stable Diffusion、Midjourney API等）

ノーコードで実装するn8nワークフローの構成例

技術的な実装の入り口として、n8n（ノーコードの自動化ツール）を使った構成を紹介します。

Node 1: Webhookトリガー（スマートフォンのショートカットまたはWebアプリからのリクエストを受ける）

Node 2: OpenAI Whisper API呼び出し（録音ファイルを文字起こし）

Node 3: Claude API呼び出し（文字起こしテキストを日記文・感情タグ・視覚化プロンプトに変換）

Node 4: DALL-E 3 API呼び出し（視覚化プロンプトからイラスト生成）

Node 5: Notion / Obsidian への保存（日記テキスト＋イラスト画像URLを保存）

この5ノードのワークフローを構築することで、音声→日記＋イラストの変換が自動化されます。

作成時の注意点とコスト感

API利用コスト: OpenAI Whisper APIは約$0.006/分、DALL-E 3は1枚約$0.04（1024×1024）、Claude APIはトークン数に応じた課金。毎日3分録音+1枚生成で月額数百円程度が目安です。

プライバシーの考慮: 音声日記は個人情報を多く含みます。APIに送信するデータのプライバシーポリシーを確認し、センシティブな情報をどう扱うかの方針を決めることが重要です。

イラストの著作権: DALL-E等で生成した画像の利用規約を確認し、商用利用と個人利用の範囲を把握しておきましょう。

声景編集部の見解

声景はHARU的なビジュアル変換より「声から思考が深まる体験」の方向に特化しています。ただ技術的に興味がある方が自分でHARU風ツールを作る試みは、音声日記という文化を広げる観点で歓迎したいと思っています。

「書く日記は続かない」——そんな悩みに応えるのが声景（Koekei）です。声を録るだけで、AIが文脈を読んで問いを返してくれます。β版ウェイトリスト受付中 → https://koekei.com

Whisper→Claude→DALL-E 3という3つのAI APIをn8nで繋ぐことで、HARU的な「声→日記＋イラスト」体験は今すぐ自作できます。まずn8nの無料プランと各APIの試用枠で試作してみることから始めてみてください。

声景のβ版に先行登録する → https://koekei.com

AIが声で日記を書いてイラスト化する「HARU」的アプリの作り方

HARU的アプリが必要とするコンポーネント

ノーコードで実装するn8nワークフローの構成例

作成時の注意点とコスト感

声景編集部の見解

声に出した瞬間から、アイデアは走り出す。

声に出した瞬間から、
アイデアは走り出す。