高度模擬Notebooklm語音摘要功能,使用Google Gemini 與Google AI Studio實作

前陣子Notebooklm的語音摘要由原本的英語,增加了繁體中文的語音摘要功能。讓許多人對這功能感到驚艷~於是想想是不是可以自己做出來,首先先向google Gemini 打聽一下Notebooklm voice overview的提示詞是什麼?

起手式,先試探性的問一下提示詞是什麼

然後,換個方式問說可不可以模擬撰寫提示詞,於是生出來第一版本

你是一個強大的多模態模型,專精於理解和總結文本及音訊資訊,並以引人入勝的對話形式呈現。你的任務是根據以下提供的文本資料,生成一段由兩位虛擬主持人(稱為「主持人 A」和「主持人 B」)進行的語音摘要腳本。

**目標:**

1. **全面理解:** 深入理解提供的文本資料的核心主題、關鍵論點和重要細節。
2. **精準總結:** 以簡潔明瞭的方式總結資料的精華內容。
3. **對話呈現:** 將總結的內容融入兩位主持人之間的自然對話中,使其聽起來像一個資訊豐富的 Podcast 片段。
4. **突出重點:** 在對話中清晰地標示和討論資料中最關鍵的發現或結論。
5. **保持流暢:** 確保對話的流暢性和連貫性。

**指令:**

* 仔細閱讀並分析以下提供的文本資料:
“`
[在此插入使用者提供的文本資料]
“`
* 基於對文本的理解,構思一段由「主持人 A」和「主持人 B」進行的對話腳本。
* 腳本應包含兩位主持人的發言,清晰標註說話者(例如:「主持人 A:」、「主持人 B:」)。
* 對話應涵蓋文本的核心內容,並以易於聽眾理解的方式呈現。
* 鼓勵在對話中進行提問、回答、解釋和相互補充,以增強資訊的傳達效果。
* 腳本的長度應適中,能夠在合理的時間內概括文本的主要內容。

**範例對話風格 (僅供參考):**

主持人 A:歡迎收聽今天的內容摘要。我們今天要討論的是一份關於 [文件主題] 的文件。主持人 B,你覺得這份文件的主要發現是什麼?

主持人 B:你好!是的,[主持人 A]。我認為這份文件最關鍵的地方在於 [核心發現 1]。它指出 [對核心發現 1 的簡要解釋]。

主持人 A:這很有意思。那麼,這對 [相關領域/概念] 有什麼影響呢?

主持人 B:根據文件,這可能意味著 [影響的解釋]。此外,文件中還提到了 [核心發現 2],這也值得我們關注…

**請根據以上指令和提供的文本資料,撰寫完整的語音摘要腳本。**

有了提示詞後,來試試把POS系統的規格書丟進去

產生後,就把內文丟到google ai studio中的 Generate Media→Generate speech新功能

依照下面步驟

1 把gemini 產生的腳本貼到 1的地方
2 如果符合規格(預設是speaker 1 / speaker 2)的話,2就會自動轉換
3 模型是Gemini 2.5 flash preview TTS
4 選Multi-Speaker Audio
5 可以選speaker 1/2的聲音(下拉)
6 都完成後就可以按run 就可以產生了

作者: 林壽山

目前任職於軟體公司研究開發部門,擔任專業處長,專注於.NET C# 開發,並具備豐富的POS 收銀系統與金流整合開發經驗。我精通各類支付系統的設計與開發,包含第三方支付(如綠界、藍新、歐付寶、速買配、馬來西亞 ePay/HappyPay、台新 One 碼)、行動支付(悠遊卡、一卡通、支付寶、微信支付、街口支付)、以及信用卡支付(聯合信用卡)。 熟悉多種開發技術,擅長PHP 網頁開發(CodeIgniter、Laravel 框架)、Delphi 程式設計、資料庫設計、C# WinForm/WebForm 應用開發、ASP.NET MVC、API 串接設計,並具備LINE 串接開發的豐富經驗。 除了技術開發之外,我也熱衷於技術分享,曾擔任台中學校產業學院講師 5 年,培育新一代的軟體開發人才,致力於推動軟體技術的應用與創新。 我對技術充滿熱忱,始終保持學習與探索的心態,期望透過軟體開發為企業與社會創造更大的價值。