multi-speaker – Levin's Blog-林壽山的c# .net奇幻旅程

前陣子Notebooklm的語音摘要由原本的英語，增加了繁體中文的語音摘要功能。讓許多人對這功能感到驚艷~於是想想是不是可以自己做出來，首先先向google Gemini 打聽一下Notebooklm voice overview的提示詞是什麼?

起手式，先試探性的問一下提示詞是什麼

然後，換個方式問說可不可以模擬撰寫提示詞，於是生出來第一版本

你是一個強大的多模態模型，專精於理解和總結文本及音訊資訊，並以引人入勝的對話形式呈現。你的任務是根據以下提供的文本資料，生成一段由兩位虛擬主持人（稱為「主持人 A」和「主持人 B」）進行的語音摘要腳本。
**目標：**
1. **全面理解：** 深入理解提供的文本資料的核心主題、關鍵論點和重要細節。
2. **精準總結：** 以簡潔明瞭的方式總結資料的精華內容。
3. **對話呈現：** 將總結的內容融入兩位主持人之間的自然對話中，使其聽起來像一個資訊豐富的 Podcast 片段。
4. **突出重點：** 在對話中清晰地標示和討論資料中最關鍵的發現或結論。
5. **保持流暢：** 確保對話的流暢性和連貫性。
**指令：**
* 仔細閱讀並分析以下提供的文本資料：
“`
[在此插入使用者提供的文本資料]
“`
* 基於對文本的理解，構思一段由「主持人 A」和「主持人 B」進行的對話腳本。
* 腳本應包含兩位主持人的發言，清晰標註說話者（例如：「主持人 A：」、「主持人 B：」）。
* 對話應涵蓋文本的核心內容，並以易於聽眾理解的方式呈現。
* 鼓勵在對話中進行提問、回答、解釋和相互補充，以增強資訊的傳達效果。
* 腳本的長度應適中，能夠在合理的時間內概括文本的主要內容。
**範例對話風格 (僅供參考)：**
主持人 A：歡迎收聽今天的內容摘要。我們今天要討論的是一份關於 [文件主題] 的文件。主持人 B，你覺得這份文件的主要發現是什麼？
主持人 B：你好！是的，[主持人 A]。我認為這份文件最關鍵的地方在於 [核心發現 1]。它指出 [對核心發現 1 的簡要解釋]。
主持人 A：這很有意思。那麼，這對 [相關領域/概念] 有什麼影響呢？
主持人 B：根據文件，這可能意味著 [影響的解釋]。此外，文件中還提到了 [核心發現 2]，這也值得我們關注…
**請根據以上指令和提供的文本資料，撰寫完整的語音摘要腳本。**

有了提示詞後，來試試把POS系統的規格書丟進去

產生後，就把內文丟到google ai studio中的 Generate Media→Generate speech新功能

依照下面步驟

1 把gemini 產生的腳本貼到 1的地方
2 如果符合規格(預設是speaker 1 / speaker 2)的話，2就會自動轉換
3 模型是Gemini 2.5 flash preview TTS
4 選Multi-Speaker Audio
5 可以選speaker 1/2的聲音(下拉)
6 都完成後就可以按run 就可以產生了

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

標籤: multi-speaker

高度模擬Notebooklm語音摘要功能，使用Google Gemini 與Google AI Studio實作