声景メディア
音声日記の始め方

AIが声で日記を書いてイラスト化する「HARU」的アプリの作り方

著者声景編集部·

AIが声で日記を書いてイラスト化する「HARU」的アプリの作り方

「声で話すと日記が書かれ、さらにイラストまで生成される」——HARUが示したこのコンセプトは、多くの人の想像力を刺激しました。実はこの体験を自分で作ることは、今やノーコード/ローコードツールとAI APIの組み合わせで実現できます。技術的な詳細を踏まえながら、HARU的アプリを自作する方法を解説します。

HARU的アプリが必要とするコンポーネント

機能を分解すると4つのコンポーネントが必要です。

音声入力: スマートフォンのマイクから音声をキャプチャする機能

音声テキスト変換(STT): 録音した音声をテキストに変換する(Whisper APIまたはGoogle Speech-to-Text)

テキスト処理・日記化: 文字起こしテキストを読みやすい日記形式に整形し、感情・テーマを抽出する(Claude API または GPT-4o API)

画像生成(イラスト化): 抽出したテーマ・感情・キーワードをもとにイラストを生成する(DALL-E 3、Stable Diffusion、Midjourney API等)

ノーコードで実装するn8nワークフローの構成例

技術的な実装の入り口として、n8n(ノーコードの自動化ツール)を使った構成を紹介します。

Node 1: Webhookトリガー(スマートフォンのショートカットまたはWebアプリからのリクエストを受ける)

Node 2: OpenAI Whisper API呼び出し(録音ファイルを文字起こし)

Node 3: Claude API呼び出し(文字起こしテキストを日記文・感情タグ・視覚化プロンプトに変換)

Node 4: DALL-E 3 API呼び出し(視覚化プロンプトからイラスト生成)

Node 5: Notion / Obsidian への保存(日記テキスト+イラスト画像URLを保存)

この5ノードのワークフローを構築することで、音声→日記+イラストの変換が自動化されます。

作成時の注意点とコスト感

API利用コスト: OpenAI Whisper APIは約$0.006/分、DALL-E 3は1枚約$0.04(1024×1024)、Claude APIはトークン数に応じた課金。毎日3分録音+1枚生成で月額数百円程度が目安です。

プライバシーの考慮: 音声日記は個人情報を多く含みます。APIに送信するデータのプライバシーポリシーを確認し、センシティブな情報をどう扱うかの方針を決めることが重要です。

イラストの著作権: DALL-E等で生成した画像の利用規約を確認し、商用利用と個人利用の範囲を把握しておきましょう。

声景編集部の見解

声景はHARU的なビジュアル変換より「声から思考が深まる体験」の方向に特化しています。ただ技術的に興味がある方が自分でHARU風ツールを作る試みは、音声日記という文化を広げる観点で歓迎したいと思っています。


「書く日記は続かない」——そんな悩みに応えるのが声景(Koekei)です。声を録るだけで、AIが文脈を読んで問いを返してくれます。β版ウェイトリスト受付中 → https://koekei.com


Whisper→Claude→DALL-E 3という3つのAI APIをn8nで繋ぐことで、HARU的な「声→日記+イラスト」体験は今すぐ自作できます。まずn8nの無料プランと各APIの試用枠で試作してみることから始めてみてください。

声景のβ版に先行登録する → https://koekei.com

β版 ウェイトリスト受付中

声に出した瞬間から、アイデアは走り出す。

声景は、話しながら考える人のための発散特化型AIインターフェース。 β版のウェイトリストに登録すると、リリース時に最優先でご案内します。