高度模擬Notebooklm語音摘要功能，使用Google Gemini 與Google AI Studio實作

前陣子Notebooklm的語音摘要由原本的英語，增加了繁體中文的語音摘要功能。讓許多人對這功能感到驚艷~於是想想是不是可以自己做出來，首先先向google Gemini 打聽一下Notebooklm voice overview的提示詞是什麼?

起手式，先試探性的問一下提示詞是什麼

然後，換個方式問說可不可以模擬撰寫提示詞，於是生出來第一版本

你是一個強大的多模態模型，專精於理解和總結文本及音訊資訊，並以引人入勝的對話形式呈現。你的任務是根據以下提供的文本資料，生成一段由兩位虛擬主持人（稱為「主持人 A」和「主持人 B」）進行的語音摘要腳本。

**目標：**

1. **全面理解：** 深入理解提供的文本資料的核心主題、關鍵論點和重要細節。
2. **精準總結：** 以簡潔明瞭的方式總結資料的精華內容。
3. **對話呈現：** 將總結的內容融入兩位主持人之間的自然對話中，使其聽起來像一個資訊豐富的 Podcast 片段。
4. **突出重點：** 在對話中清晰地標示和討論資料中最關鍵的發現或結論。
5. **保持流暢：** 確保對話的流暢性和連貫性。

**指令：**

* 仔細閱讀並分析以下提供的文本資料：
“`
[在此插入使用者提供的文本資料]
“`
* 基於對文本的理解，構思一段由「主持人 A」和「主持人 B」進行的對話腳本。
* 腳本應包含兩位主持人的發言，清晰標註說話者（例如：「主持人 A：」、「主持人 B：」）。
* 對話應涵蓋文本的核心內容，並以易於聽眾理解的方式呈現。
* 鼓勵在對話中進行提問、回答、解釋和相互補充，以增強資訊的傳達效果。
* 腳本的長度應適中，能夠在合理的時間內概括文本的主要內容。

**範例對話風格 (僅供參考)：**

主持人 A：歡迎收聽今天的內容摘要。我們今天要討論的是一份關於 [文件主題] 的文件。主持人 B，你覺得這份文件的主要發現是什麼？

主持人 B：你好！是的，[主持人 A]。我認為這份文件最關鍵的地方在於 [核心發現 1]。它指出 [對核心發現 1 的簡要解釋]。

主持人 A：這很有意思。那麼，這對 [相關領域/概念] 有什麼影響呢？

主持人 B：根據文件，這可能意味著 [影響的解釋]。此外，文件中還提到了 [核心發現 2]，這也值得我們關注…

**請根據以上指令和提供的文本資料，撰寫完整的語音摘要腳本。**

有了提示詞後，來試試把POS系統的規格書丟進去

產生後，就把內文丟到google ai studio中的 Generate Media→Generate speech新功能

依照下面步驟

1 把gemini 產生的腳本貼到 1的地方
2 如果符合規格(預設是speaker 1 / speaker 2)的話，2就會自動轉換
3 模型是Gemini 2.5 flash preview TTS
4 選Multi-Speaker Audio
5 可以選speaker 1/2的聲音(下拉)
6 都完成後就可以按run 就可以產生了

Post Views: 2,771

作者: 林壽山

目前任職於軟體公司研究開發部門，擔任專業處長，專注於.NET C# 開發，並具備豐富的POS 收銀系統與金流整合開發經驗。我精通各類支付系統的設計與開發，包含第三方支付（如綠界、藍新、歐付寶、速買配、馬來西亞 ePay/HappyPay、台新 One 碼）、行動支付（悠遊卡、一卡通、支付寶、微信支付、街口支付）、以及信用卡支付（聯合信用卡）。熟悉多種開發技術，擅長PHP 網頁開發（CodeIgniter、Laravel 框架）、Delphi 程式設計、資料庫設計、C# WinForm/WebForm 應用開發、ASP.NET MVC、API 串接設計，並具備LINE 串接開發的豐富經驗。除了技術開發之外，我也熱衷於技術分享，曾擔任台中學校產業學院講師 5 年，培育新一代的軟體開發人才，致力於推動軟體技術的應用與創新。我對技術充滿熱忱，始終保持學習與探索的心態，期望透過軟體開發為企業與社會創造更大的價值。檢視「林壽山」的全部文章

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31