AIが声で日記を書いてイラスト化する「HARU」的アプリの作り方
AIが声で日記を書いてイラスト化する「HARU」的アプリの作り方
「声で話すと日記が書かれ、さらにイラストまで生成される」——HARUが示したこのコンセプトは、多くの人の想像力を刺激しました。実はこの体験を自分で作ることは、今やノーコード/ローコードツールとAI APIの組み合わせで実現できます。技術的な詳細を踏まえながら、HARU的アプリを自作する方法を解説します。
HARU的アプリが必要とするコンポーネント
機能を分解すると4つのコンポーネントが必要です。
音声入力: スマートフォンのマイクから音声をキャプチャする機能
音声テキスト変換(STT): 録音した音声をテキストに変換する(Whisper APIまたはGoogle Speech-to-Text)
テキスト処理・日記化: 文字起こしテキストを読みやすい日記形式に整形し、感情・テーマを抽出する(Claude API または GPT-4o API)
画像生成(イラスト化): 抽出したテーマ・感情・キーワードをもとにイラストを生成する(DALL-E 3、Stable Diffusion、Midjourney API等)
ノーコードで実装するn8nワークフローの構成例
技術的な実装の入り口として、n8n(ノーコードの自動化ツール)を使った構成を紹介します。
Node 1: Webhookトリガー(スマートフォンのショートカットまたはWebアプリからのリクエストを受ける)
Node 2: OpenAI Whisper API呼び出し(録音ファイルを文字起こし)
Node 3: Claude API呼び出し(文字起こしテキストを日記文・感情タグ・視覚化プロンプトに変換)
Node 4: DALL-E 3 API呼び出し(視覚化プロンプトからイラスト生成)
Node 5: Notion / Obsidian への保存(日記テキスト+イラスト画像URLを保存)
この5ノードのワークフローを構築することで、音声→日記+イラストの変換が自動化されます。
作成時の注意点とコスト感
API利用コスト: OpenAI Whisper APIは約$0.006/分、DALL-E 3は1枚約$0.04(1024×1024)、Claude APIはトークン数に応じた課金。毎日3分録音+1枚生成で月額数百円程度が目安です。
プライバシーの考慮: 音声日記は個人情報を多く含みます。APIに送信するデータのプライバシーポリシーを確認し、センシティブな情報をどう扱うかの方針を決めることが重要です。
イラストの著作権: DALL-E等で生成した画像の利用規約を確認し、商用利用と個人利用の範囲を把握しておきましょう。
声景編集部の見解
声景はHARU的なビジュアル変換より「声から思考が深まる体験」の方向に特化しています。ただ技術的に興味がある方が自分でHARU風ツールを作る試みは、音声日記という文化を広げる観点で歓迎したいと思っています。
「書く日記は続かない」——そんな悩みに応えるのが声景(Koekei)です。声を録るだけで、AIが文脈を読んで問いを返してくれます。β版ウェイトリスト受付中 → https://koekei.com
Whisper→Claude→DALL-E 3という3つのAI APIをn8nで繋ぐことで、HARU的な「声→日記+イラスト」体験は今すぐ自作できます。まずn8nの無料プランと各APIの試用枠で試作してみることから始めてみてください。
声景のβ版に先行登録する → https://koekei.com
β版 ウェイトリスト受付中
声に出した瞬間から、
アイデアは走り出す。
声景は、話しながら考える人のための発散特化型AIインターフェース。 β版のウェイトリストに登録すると、リリース時に最優先でご案内します。