声景メディア
音声日記の始め方

音声日記の自動化システムを個人で構築した開発者の実体験レポ

「ポッドキャストを聴いて音声日記の自動化システムを作った」という開発者の話が、音声日記コミュニティで注目を集めています。録音から文字起こし、整理、振り返りまでを自動化したそのシステムは、どのような設計で、何を学んだのか。この記事では、その実体験を詳しくレポートします。

なぜ自動化システムを作ったのか

きっかけは「ポッドキャストで誰かが音声日記の自動化について話していたこと」でした。音声を録るだけで後は全部AIがやってくれる——そのアイデアに刺激されて、自分でも試してみようと思ったのが始まりです。

最初は既存のアプリで音声日記を試していましたが、「録った後の活用が不便」という不満がありました。録音が溜まるだけで、振り返りに活かせていなかった。だったら自分で使いやすいシステムを作ればいい——そういう発想で開発がスタートしました。

システムの設計と使用ツール

システムは3層構造で設計されています。

入力層(録音): iPhoneのショートカット機能を使い、ホーム画面のボタン一つで録音開始・終了できる。録音ファイルはDropboxの日付フォルダに自動保存される。

処理層(変換・分析): n8nをローカルサーバーで動かし、Dropboxに新ファイルが追加されたタイミングでパイプラインが起動。WhisperAPIで文字起こし→Claude APIで感情・テーマ分析→NotionAPIでデータベースに保存、という流れで処理される。

出力層(振り返り): Notionのデータベースビューで日別・週別に閲覧できる。毎週日曜の夜に週次サマリーが自動生成され、スマホのプッシュ通知で届く。

開発で詰まった点と解決策

一番詰まったのはプロンプト設計: Claudeに文字起こしを渡して「分析して」と指示するだけでは、表面的なサマリーしか返ってこなかった。「あなたは自己観察の専門家として、話者の無意識のパターンを発見する視点で分析してください」という役割定義をプロンプトに加えると、分析の深度が大幅に上がった。

日本語の口語はWhisperでも崩れる: 「えーと」「あの」などの口語や方言はWhisperが認識しにくい場合がある。これはPostprocessingとしてClaudeに「自然な文章に整形して」と渡すことで解決した。

n8nのエラーハンドリング: 外部APIを組み合わせるため、一つが落ちると全体が止まる。各ステップにエラー時の通知設定を加えて、どこで止まったかすぐわかるようにした。

3ヶ月運用してわかったこと

「録音量」が増えた: 「録ったら自動で整理される」とわかると、短い録音のハードルが消えた。以前は5分以上話せないと録音しなかったが、今は1分でも気軽に録るようになった。

「感情のクセ」が見えた: 3ヶ月分のデータを週次サマリーで振り返ると、特定の曜日に疲れやすい・特定のテーマが繰り返し出てくるというパターンが見えてきた。これは手動の日記では気づきにくかった発見だった。

声景編集部の見解

自動化システムの最大の価値は「記録を振り返りに活かせること」です。録るだけで積み重なっていたデータが、パターン分析の素材として機能し始めると、音声日記の意味が変わります。

声景について

声景(Koekei)は、録音しながらAIがリアルタイムで「問いのカード」を差し込むジャーナリングツールです。「今日の録音で一番気になった瞬間はどこでしたか?」という問いが、分析の精度を上げる入口になります。現在β版のウェイトリストを受け付けています。

まとめ

  • Dropbox+n8n+Whisper+Claude+Notionで個人の音声日記自動化システムが構築できる
  • プロンプト設計と日本語の口語処理が開発の最大の詰まりポイント
  • 自動整理される設計により録音量が増え、感情のクセというパターンが見えてきた

声景のβ版に先行登録する → https://koekei.com

声景(Koekei)β版

録音しながらAIが思考を深める問いを届ける

波の音が入ったら「この景色を見てどう感じましたか?」、沈黙が続いたら「今、何を考えていますか?」—— 声と映像から文脈を読んで、内省を深める問いをリアルタイムで返します。

β版のウェイトリストに登録する