人工智慧 – Levin's Blog-林壽山的c# .net奇幻旅程

中臺科技大學資訊管理系第21屆畢業專題成果展

能夠與中臺科技大學結緣，主是因為國泰電腦的李信宏總經理的關係，因為李總在DELPHI的造詣以及醫療系統、檢驗系統開發的成就，因為李總沒空的原因，再加上一直習慣透過部落格記錄問題解決方式，在十多年前就與李桂春老師、王國安老師持續合作，從還沒重新到公司就職，就以個人開發工作室的名義擔任產業學院的講師，因此有了五年左右的講師經驗~後來因為工作的關係，就逐漸減少上課的時間，專心在系統開發架構以及人工智慧相關技術的學習以及鑽研。

最近因為王國安老師接下系主任的原因，身為老朋友的關係，當然就是意氣相挺 🙂 也趁著特休假稍微放鬆一下，且持續與年輕人有一定的互動與瞭解，也讓自己在管理上可以有更多瞭解。於是今天又擔任了評審~ 🙂 這次有VR、NO-CODE、AI等元素，也是挺不錯的體驗。

高度模擬Notebooklm語音摘要功能，使用Google Gemini 與Google AI Studio實作

前陣子Notebooklm的語音摘要由原本的英語，增加了繁體中文的語音摘要功能。讓許多人對這功能感到驚艷~於是想想是不是可以自己做出來，首先先向google Gemini 打聽一下Notebooklm voice overview的提示詞是什麼?

起手式，先試探性的問一下提示詞是什麼

然後，換個方式問說可不可以模擬撰寫提示詞，於是生出來第一版本

你是一個強大的多模態模型，專精於理解和總結文本及音訊資訊，並以引人入勝的對話形式呈現。你的任務是根據以下提供的文本資料，生成一段由兩位虛擬主持人（稱為「主持人 A」和「主持人 B」）進行的語音摘要腳本。

**目標：**

1. **全面理解：** 深入理解提供的文本資料的核心主題、關鍵論點和重要細節。
2. **精準總結：** 以簡潔明瞭的方式總結資料的精華內容。
3. **對話呈現：** 將總結的內容融入兩位主持人之間的自然對話中，使其聽起來像一個資訊豐富的 Podcast 片段。
4. **突出重點：** 在對話中清晰地標示和討論資料中最關鍵的發現或結論。
5. **保持流暢：** 確保對話的流暢性和連貫性。

**指令：**

* 仔細閱讀並分析以下提供的文本資料：
“`
[在此插入使用者提供的文本資料]
“`
* 基於對文本的理解，構思一段由「主持人 A」和「主持人 B」進行的對話腳本。
* 腳本應包含兩位主持人的發言，清晰標註說話者（例如：「主持人 A：」、「主持人 B：」）。
* 對話應涵蓋文本的核心內容，並以易於聽眾理解的方式呈現。
* 鼓勵在對話中進行提問、回答、解釋和相互補充，以增強資訊的傳達效果。
* 腳本的長度應適中，能夠在合理的時間內概括文本的主要內容。

**範例對話風格 (僅供參考)：**

主持人 A：歡迎收聽今天的內容摘要。我們今天要討論的是一份關於 [文件主題] 的文件。主持人 B，你覺得這份文件的主要發現是什麼？

主持人 B：你好！是的，[主持人 A]。我認為這份文件最關鍵的地方在於 [核心發現 1]。它指出 [對核心發現 1 的簡要解釋]。

主持人 A：這很有意思。那麼，這對 [相關領域/概念] 有什麼影響呢？

主持人 B：根據文件，這可能意味著 [影響的解釋]。此外，文件中還提到了 [核心發現 2]，這也值得我們關注…

**請根據以上指令和提供的文本資料，撰寫完整的語音摘要腳本。**

有了提示詞後，來試試把POS系統的規格書丟進去

產生後，就把內文丟到google ai studio中的 Generate Media→Generate speech新功能

依照下面步驟

1 把gemini 產生的腳本貼到 1的地方
2 如果符合規格(預設是speaker 1 / speaker 2)的話，2就會自動轉換
3 模型是Gemini 2.5 flash preview TTS
4 選Multi-Speaker Audio
5 可以選speaker 1/2的聲音(下拉)
6 都完成後就可以按run 就可以產生了

OpenAI 發佈最新 GPT-4.5 預覽版：更深入的知識、更自然的對話體驗

OpenAI 剛剛透過電子郵件宣布，推出最新、最大的語言模型 GPT-4.5 預覽版。

GPT-4.5 有哪些提升？

更深入的世界知識和更佳的用戶意圖理解
更擅長需要創造力、同理心和廣泛知識的任務
在代理規劃和執行方面表現出色
支援函數調用、結構化輸出、視覺、串流、系統訊息、評估和提示緩存等功能

如何開始使用 GPT-4.5？

GPT-4.5 目前可透過 OpenAI 的 Chat Completions、Assistants 和 Batch APIs 使用。

GPT-4.5 的費用如何計算？

GPT-4.5 的使用費用較高，平均每 100 萬 tokens 為 68 美元，並提供批量作業和緩存輸入的折扣。

GPT-4.5 的未來如何？

OpenAI 正在評估是否長期提供 GPT-4.5 API 服務。

開發人員如何提供幫助？

符合條件的開發人員可以透過分享提示和完成來幫助 OpenAI 改進模型，並可獲得高達每天 100 萬 tokens 的免費 GPT-4.5 使用量。

總結

GPT-4.5 是 OpenAI 在自然語言處理領域的最新進展，為開發者提供了更強大的工具來構建各種應用。雖然費用較高，但其強大的功能和潛在的應用價值仍然值得關注。

GPT‑4.5	GPT‑4o	OpenAI o3‑mini (high)
GPQA (science)	71.4%	53.6%	79.7%
AIME ‘24 (math)	36.7%	9.3%	87.3%
MMMLU (multilingual)	85.1%	81.5%	81.1%
MMMU (multimodal)	74.4%	69.1%	–
SWE-Lancer Diamond (coding)*	32.6% $186,125	23.3% $138,750	10.8% $89,625
SWE-Bench Verified (coding)*	38.0%	30.7%	61.0%

網址
https://openai.com/index/introducing-gpt-4-5/

https://platform.openai.com/docs/models#gpt-4-5

Hugging Face推出SLM SmolVLM2讓影像理解模型進入到設備

隨著人工智慧技術的快速發展，視訊理解模型正變得越來越重要。Hugging Face 推出的 SmolVLM2 系列，憑藉其高效能與小型化設計，為視訊理解樹立了新標杆。本文將帶你快速了解 SmolVLM2 的核心技術、應用場景及其在視訊理解領域的突破。

SmolVLM2 的願景與目標

SmolVLM2 的使命是將視訊理解的能力帶到每一台設備，無論是手機還是伺服器。與傳統需要大量計算資源的大型模型不同，SmolVLM2 將高效模型與小型化設計結合，實現了低資源環境下的高效視訊處理。

目前，SmolVLM2 提供三種不同規模的模型：

2.2B 模型：專為高效視訊和圖像理解而設計，是整個系列的旗艦。
500M 模型：在小型化與效能之間取得良好平衡。
256M 模型：實驗性質的極小型模型，探索小型模型的極限。

這些模型均可通過 Python 和 Swift API 使用，並且支持 Hugging Face 的 Transformers 框架。

核心技術與性能

SmolVLM2 2.2B：視覺與視訊的領先模型

2.2B 模型在多項基準測試中表現卓越，特別是在 Video-MME 基準上超越了所有現有的 2B 模型。該模型能夠：

解決圖像中的數學問題。
讀取照片中的文字。
理解複雜圖表及科學視覺問題。

其記憶體效率極高，甚至可以在免費的 Google Colab 環境中運行。

更小巧的 500M 和 256M 模型

500M 模型 提供了接近 2.2B 的視訊理解能力，但參數量僅為後者的四分之一。
256M 模型 則是一個實驗性版本，旨在探索小型模型的應用潛力，適合創新應用和專門的微調項目。

應用場景：SmolVLM2 的多功能演示套件

為了展示 SmolVLM2 的多樣化應用，Hugging Face 開發了多個演示應用程式：

1. iPhone 影片理解

SmolVLM2 的 500M 模型已被整合到 iPhone 應用中，用戶可以直接在本地設備上分析視訊內容，無需依賴雲端運算。

2. VLC 媒體播放器集成

與 VLC 媒體播放器的合作，實現了智慧視訊片段描述和語義搜尋功能，用戶可以根據自然語言描述直接跳轉到影片中的相關部分。

3. 影片精彩片段產生器

這個應用程式可以從長達數小時的影片中自動提取最重要的時刻，適用於足球比賽等長時間的活動摘要。

與 Transformers 和 MLX 的結合

SmolVLM2 與 Hugging Face 的 Transformers 框架無縫集成，支持多種推理場景：

影片推理：用戶可以通過簡單的聊天模板，讓模型生成對影片的詳細描述。
多幅圖像推理：支援對多張圖片進行對比分析。
MLX 支持：在 Apple Silicon 裝置上運行 SmolVLM2 的高效推理，適合 Swift 開發者。

此外，SmolVL

SmolVLM2：將視訊理解帶入每台設備

SmolVLM2 的願景與目標

目前，SmolVLM2 提供三種不同規模的模型：

2.2B 模型：專為高效視訊和圖像理解而設計，是整個系列的旗艦。
500M 模型：在小型化與效能之間取得良好平衡。
256M 模型：實驗性質的極小型模型，探索小型模型的極限。

這些模型均可通過 Python 和 Swift API 使用，並且支持 Hugging Face 的 Transformers 框架。

核心技術與性能

SmolVLM2 2.2B：視覺與視訊的領先模型

2.2B 模型在多項基準測試中表現卓越，特別是在 Video-MME 基準上超越了所有現有的 2B 模型。該模型能夠：

解決圖像中的數學問題。
讀取照片中的文字。
理解複雜圖表及科學視覺問題。

其記憶體效率極高，甚至可以在免費的 Google Colab 環境中運行。

更小巧的 500M 和 256M 模型

500M 模型 提供了接近 2.2B 的視訊理解能力，但參數量僅為後者的四分之一。
256M 模型 則是一個實驗性版本，旨在探索小型模型的應用潛力，適合創新應用和專門的微調項目。

應用場景：SmolVLM2 的多功能演示套件

為了展示 SmolVLM2 的多樣化應用，Hugging Face 開發了多個演示應用程式：

1. iPhone 影片理解

SmolVLM2 的 500M 模型已被整合到 iPhone 應用中，用戶可以直接在本地設備上分析視訊內容，無需依賴雲端運算。

2. VLC 媒體播放器集成

與 VLC 媒體播放器的合作，實現了智慧視訊片段描述和語義搜尋功能，用戶可以根據自然語言描述直接跳轉到影片中的相關部分。

3. 影片精彩片段產生器

這個應用程式可以從長達數小時的影片中自動提取最重要的時刻，適用於足球比賽等長時間的活動摘要。

與 Transformers 和 MLX 的結合

SmolVLM2 與 Hugging Face 的 Transformers 框架無縫集成，支持多種推理場景：

影片推理：用戶可以通過簡單的聊天模板，讓模型生成對影片的詳細描述。
多幅圖像推理：支援對多張圖片進行對比分析。
MLX 支持：在 Apple Silicon 裝置上運行 SmolVLM2 的高效推理，適合 Swift 開發者。

此外，SmolVLM2 還支持在視訊數據上的微調，用戶可以根據自己的需求進一步優化模型。

為未來創造更多可能

SmolVLM2 的推出標誌著視訊理解模型進入了一個新時代。它不僅在效能上實現了突破，還通過小型化設計使模型更加普及，適用於更多場景和設備。

如果你對 SmolVLM2 感興趣，歡迎探索以下資源：

M2 還支持在視訊數據上的微調，用戶可以根據自己的需求進一步優化模型。

為未來創造更多可能

SmolVLM2 的推出標誌著視訊理解模型進入了一個新時代。它不僅在效能上實現了突破，還通過小型化設計使模型更加普及，適用於更多場景和設備。

如果你對 SmolVLM2 感興趣，歡迎探索以下資源：

Perplexity 推出深度研究api

Perplexity 發布了新的 Deep Research API，使開發人員能夠將強大的研究功能直接集成到他們的應用程序中。

Deep Research API 分析數百個來源，在幾分鐘內而非幾小時內提供專家級的見解。 API 允許您規劃和執行自主研究、跨不同領域（金融、營銷、旅遊等）訪問詳細的見解，並生成全面的報告。 Deep Research API 在 SimpleQA 基準測試中準確率達 93.9%，在 Humanity’s Last Exam 中準確率達 21.1%，顯著優於 Gemini Thinking、o3-mini、o1 和 DeepSeek-R1。

Perplexity 還響應客戶的反饋，添加了兩個具有更高速率限制的新層級。
目前Perplexity支援的模型有

Model	Context Length	Model Type
`sonar-deep-research`	60k	Chat Completion
`sonar-reasoning-pro`	128k	Chat Completion
`sonar-reasoning`	128k	Chat Completion
`sonar-pro`	200k	Chat Completion
`sonar`	128k	Chat Completion
`r1-1776`	128k	Chat Completion

範例程式

curl --location 'https://api.perplexity.ai/chat/completions' \ --header 'accept: application/json' \ --header 'content-type: application/json' \ --header 'Authorization: Bearer yourapikey' \ --data '{ "model": "sonar-deep-research", "messages": [ { "role": "system", "content": "Be precise and concise." }, { "role": "user", "content": "r question" } ] }'

https://docs.perplexity.ai/home

2025年回顧

重新回到興農集團體系下的軟體公司，已經近十年(實際是9.6年)。
2025年的職銜從專案經理成了專業處長。
從一開始的delphi 開發到.net ~
從原先接觸的POS系統到流通、零售、餐飲，一直到ERP系統的會計/預算/人事薪資/票據，到政府財會/預算以及智慧農業
整個重心除了.net 開發與架構設計外，增加了ai相關的技能樹

透過azure openai / openai api with vision功能，讓人工智慧看懂圖片

做了個小玩具網址: https://shoushan.happyweb.com.tw

上傳圖片後，可以做出

一、依照圖片內容生成商品文案給社群小編行銷

二、人工智慧ai 描述辨識圖片

三、上傳餐廳、飲料店等菜單，透過ai辨識回傳json

四、行為偵測，例如上傳照片讓ai看看有沒有犯法或違法

五、上傳一張網頁的圖片/手繪的prototyp，然後生成規格書與欄位內容，最後搞出一個前端的prototype

c# 即時錄音送至openai whisper 翻譯/逐字稿

最近試著做即時翻譯這件事，透過安裝naudio。把麥克風聲音錄下後，每10秒轉成一個檔案上傳至open AI whisper做即時翻譯或逐字稿：

private const string API_KEY = "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"; private const string API_URL = "https://api.openai.com/v1/audio/transcriptions"; var waveIn = new WaveInEvent(); waveIn.WaveFormat = new WaveFormat(16000, 1);

var buffer = new MemoryStream();
var writer = new WaveFileWriter(buffer, waveIn.WaveFormat);

//var writer = new WaveFileWriter(new DisposeStream(buffer), waveIn.WaveFormat);

waveIn.DataAvailable += async (sender, e) =>
{
writer.Write(e.Buffer, 0, e.BytesRecorded);
if (buffer.Length > 16000 * 2 * 10) // 每10秒
{
var audioData = buffer.ToArray();
buffer.SetLength(0);
buffer.Position = 0;
await SaveAudioChunkAsMp3(audioData, waveIn.WaveFormat);
await SendAudioChunk(audioData);
}
};

Console.WriteLine(“開始錄音。按任意鍵停止…”);
waveIn.StartRecording();
Console.ReadKey();

waveIn.StopRecording();
writer.Dispose();
buffer.Dispose();

static async Task SendAudioChunk(byte[] audioData)
{
using var httpClient = new HttpClient();
httpClient.DefaultRequestHeaders.Add(“Authorization”, $”Bearer {API_KEY}”);

using var content = new MultipartFormDataContent();
content.Add(new ByteArrayContent(audioData), “file”, “audio.wav”);
content.Add(new StringContent(“whisper-1”), “model”);
content.Add(new StringContent(“language”), “zh-hant”);

var response = await httpClient.PostAsync(API_URL, content);
var result = await response.Content.ReadAsStringAsync();
Console.WriteLine($”Transcription: {result}”);
}

有趣的.net core 後端人員AI面試

昨天晚上，wil 保哥發了一則貼文。就是用gpt4訓練了一個.net core 後端工程師的面試line。主要是透過問答方式，瞭解像.net core與.net framework的異同、restful api的設計原則、非同步、DI、memorycache、middleware、entity framework。

wil保哥徵才原貼

gpt 多奇 AI 面試官 ( .NET )

line官方帳號 @290quxfz