Voice Summary は通話を使用可能な記録に変換します。録音が始まります。構造化された概要、アクション リスト、検索可能なトランスクリプトが生成され、適切な顧客とプロジェクトに自動的に添付されます。
2時間の問題
ほとんどの文字起こしサービスは 20 分を超えると停止します。実際の営業会議、顧客との電話、社内レビューなどは長時間にわたって行われます。 Voice Summary は、ffmpeg ベースのチャンカーを使用して、Gemini パイプラインの並列スライスをフィードし、それらを一貫したナラティブに再マージします。
会議からフォローアップ メールに至るまでの最短の道は、聞き直さないことです。
何が戻ってくるか
- クリーンでフォーマットされたトランスクリプト。
- 顧客とプロジェクトに焦点を当てた概要。
- 名前付きの所有者が含まれるアクション リスト。
- アドホック クエリ ボックス: 録画に何でも質問すると、数秒で答えが得られます。
長文の転写
内部チャンカー + Gemini パイプラインは、切り捨てられることなく 2 時間の録音を処理します。 ffmpeg の前処理では、無音部分が削除され、並列バッチが分割されます。
構造化されたビジネスコンテキスト
抽出されたフィールドは、生の JSON ではなく、読み取り可能な行 (顧客名、プロジェクト、アクション アイテム、ブロッカー) としてレンダリングされます。
事後的に何でも質問してください
右側の AI パネルでは、「納品時に何を約束しましたか?」という録音に関するアドホックな質問を受け付けます。数秒で答えた。
運用失敗に対する回復力
スタック行スイープ + 手動リトライ ボタン。殺された労働者が永久に回転する録音を残すことはもうありません。
1回の録音はどのくらいの長さまで可能ですか?
2 時間の社内会議でテスト済み。オーディオは並列チャンクに分割され、透過的に再結合されます。
何語ですか?
制作対象はタイ語と英語です。他の言語も動作しますが、まだ正式にサポートされていません。
音声はどこに保存されますか?
テナントの Drive (Google Workspace) 内。プラットフォームは、テナントの境界外に生の音声を保持することはありません。