c# open ai結合sql server做rag以及fine tuning 做

C# OpenAI結合SQL Server實現RAG與Fine Tuning的完整指南

A diagram illustrating the integration of C# OpenAI with SQL Server for RAG and fine-tuning.

RAG (Retrieval Augmented Generation) 的基礎概念

An infographic explaining the concept of Retrieval Augmented Generation (RAG).

RAG的定義與重要性

檢索增強生成(Retrieval Augmented Generation, RAG) 是現代自然語言處理中的關鍵技術,其核心在於將外部知識庫的檢索能力與大型語言模型的生成能力結合。透過Microsoft Azure的技術文件可發現,RAG能有效解決語言模型僅依賴訓練資料的限制,尤其在需要即時或私有資料的場景中,例如企業內部文件查詢或專業領域問答系統。

如何實現RAG

實作RAG的關鍵步驟包含語義檢索上下文注入。首先需將文本轉換為向量嵌入(Embeddings),並透過SQL Server的向量查詢功能進行相似性比對。例如在Azure SQL DB的案例中,開發者可利用sp_invoke_external_rest_endpoint系統預存程序直接調用OpenAI API生成嵌入,並結合CLR函數進行高效檢索。

RAG在現代應用中的應用場景

RAG的應用範圍廣泛,從企業知識庫問答電子商務商品推薦皆可見其蹤影。以Blazor技術示範為例,開發者可將PDF文件分塊後存入SQL Server,透過向量比對快速定位相關段落,再交由GPT模型生成自然語言回答。此模式不僅降低模型幻覺(Hallucination)風險,更能確保答案與企業資料高度相關。


使用SQL Server進行向量相似性查詢

A visual representation of vector similarity queries in SQL Server.

SQL Server向量查詢的基本原理

SQL Server透過CLR整合實現向量運算能力。根據SQLRAG專案,開發者可建立自訂的CosineSimilarityEuclideanDistance函數,直接對資料庫中的向量欄位進行相似性比對。這種設計讓SQL Server兼具關聯式資料管理與AI運算能力,例如以下查詢可快速找出最相關的產品描述:

SELECT TOP 10 * 
FROM Products 
ORDER BY dbo.CosineSimilarity(embedding, @query_vector) DESC

實現向量查詢的CLR函數

啟用CLR功能需執行以下指令:

sp_configure 'clr enabled', 1;
RECONFIGURE;

SQLRAG的實作中,開發者使用憑證加密技術保護OpenAI API金鑰。透過EncryptByCert函數將敏感資訊存入專用資料表,並在呼叫API時動態解密,兼顧安全性與便利性。

整合OpenAI API進行查詢

透過C#整合時,可使用HttpClient直接呼叫OpenAI端點。以下程式碼示範如何生成文字嵌入:

var client = new OpenAIClient(new Uri(endpoint), new AzureKeyCredential(key));
var embeddings = await client.GetEmbeddingsAsync("text-embedding-ada-002", new EmbeddingsOptions(text));

此嵌入向量可即時存入SQL Server,並與既有資料進行相似性比對,形成完整的RAG流程。


Fine Tuning的技術細節

A flowchart detailing the fine-tuning process of models for specific tasks.

Fine Tuning的定義與流程

微調(Fine Tuning) 是針對特定任務重新訓練模型的過程。根據Microsoft技術文件,典型流程包含資料準備、模型選擇、訓練參數設定與評估。例如在金融領域,可將財報資料轉換為JSONL格式,並透過Azure AI Studio進行模型調整。

Fine Tuning與RAG的比較

技術 適用場景 優勢
RAG 動態資料、多領域問答 即時更新、資源消耗低
Fine Tuning 專業術語、固定模式輸出 回答一致性高、長期成本效益佳

實作Fine Tuning的最佳實踐

  1. 資料清洗:確保至少50組高品質的問答對
  2. 超參數調校:初始學習率建議設為3e-5
  3. 評估指標:除了準確率,需加入延遲與吞吐量測試
    教育領域案例所示,結合RAG與微調可同時提升專業性與即時性。

實作案例與步驟

A step-by-step guide image for implementing RAG and fine-tuning with SQL Server and OpenAI.

環境設置與前期準備

  1. 安裝SQL Server 2022與Visual Studio 2022(含SSDT)
  2. SQLRAG GitHub下載並執行SQLRAG_CREATE.sql
  3. 使用憑證加密API金鑰:
    INSERT INTO [EncryptedKeys] 
    VALUES ('OPENAI_API_KEY', '您的金鑰', EncryptByCert(Cert_ID('SqlRAGCertificate'), 'sk-...'))
    

整合C#應用程式與SQL Server

透過Entity Framework Core建立資料模型:

public class ProductContext : DbContext {
    public DbSet<Product> Products { get; set; }
    protected override void OnConfiguring(DbContextOptionsBuilder options)
        => options.UseSqlServer("連接字串");
}

呼叫CLR函數進行混合查詢:

var results = context.Products
    .FromSqlRaw("EXEC dbo.HybridSearch @query={0}", userQuestion)
    .ToList();

測試與調試過程

使用Seq日誌工具監控API呼叫,並透過Azure SQL DB的擴充事件分析查詢效能。建議逐步增加檢索結果數量,觀察GPT-4的回應品質變化。


結論與未來展望

An image representing the future of AI integration with databases.

RAG與Fine Tuning的發展趨勢

隨著Azure AI擴充功能的成熟,未來SQL Server將深度整合向量索引與自動微調管線。企業可期待「即時模型更新」與「多模態檢索」等進階功能。

對企業的潛在影響

  1. 客服自動化:整合內部知識庫的智慧問答系統
  2. 資料分析:自然語言直接查詢商業報表
  3. 合規審查:自動比對法規條文與合約內容

建議與資源分享


參考文獻

  1. SQLRAG GitHub專案
  2. Azure SQL DB聊天機器人實作
  3. Blazor與Azure OpenAI整合指南
  4. Microsoft技術文件:RAG與微調比較
  5. PostgreSQL向量檢索實戰

ipas ai 應用規劃師考試簡介以及準備要點

iPAS AI 應用規劃師考試簡介及準備要點

A visual representation of AI application planning and exam preparation.

iPAS AI 應用規劃師考試概述

Overview of the iPAS AI application planner exam.

考試目的與背景

iPAS(Industry Professional Assessment System)是由經濟部核發的專業認證體系,旨在因應產業數位轉型需求,培育AI應用規劃人才。此認證結合產官學界共同制定能力標準,針對企業在人工智慧領域的實際需求,設計出初級與中級兩大認證級別。根據104人力銀行數據,2025年AI應用規劃師已躍升熱門證照榜首,顯示其市場認可度。

認證的價值與意義

取得此證照可獲得企業優先面試與加薪機會,初級證書永久有效,中級證照則需每五年透過累積48小時AI相關訓練換證。從企業認同名單可見,包含科技製造、金融服務等產業皆將此認證列為人才評核標準。對於非技術背景者,初級認證能快速建立AI工具應用能力;技術人員則可透過中級認證強化系統整合與風險管理專業。

考試類型與級別

分為初級(Associate)中級(Specialist)兩級。初級側重基礎概念與工具應用,適合行政、行銷等非技術職;中級要求技術實作能力,需具備AI系統部署經驗。考試形式皆為電腦測驗,初級含兩科共100題單選題,中級則擴充至三科150題,並增加情境分析題型。


考試內容與範圍

Detailed breakdown of the exam content and scope.

初級考試內容

包含「人工智慧基礎概論」與「生成式AI應用與規劃」兩大科目。前者涵蓋AI技術演進、資料處理流程與歐盟AI法案基礎知識;後者聚焦No Code工具應用、生成式AI風險評估。根據114年度簡章,初級特別強調「AI導入評估規劃」實務,需掌握SWOT分析與效益計算技巧。

中級考試內容

擴展至「人工智慧技術應用與規劃」、「大數據處理分析與應用」、「機器學習技術與應用」三科目。重點在於系統整合能力,例如使用Python進行資料清洗、設計AI模型部署架構。從職能基準文件可見,中級要求能制定AI技術規範準則,並解決部署過程中的跨系統相容問題。

考試題型及範例

初級多為概念判斷題,如:「下列何者屬於生成式AI的倫理風險?」;中級則出現情境模擬題,例如給定企業營運數據,要求規劃AI導入階段與資源配置。官方提供的考試樣題顯示,約15%題目涉及法規應用,需熟悉台灣AI指引與國際規範的差異。


準備要點與資源

Resources and tips for effective exam preparation.

官方學習資源

經濟部產業發展署提供AI三日班公版教材,涵蓋機器學習流程圖解與案例研討。另可下載歷屆模擬試題,其中「生成式AI工具比較表」與「風險評估矩陣模板」為熱門備考素材。建議搭配產業節能減碳資訊網的實務案例進行跨領域學習。

模擬考題與練習

第三方資源如CCChen的模擬題庫提供超過200題情境演練,特別強化「No Code平台特性判斷」與「模型監控指標計算」等易錯題型。考生反應實際考試中,約30%題目與Vocus平台的題型高度相似,建議重點練習資料處理流程圖解題。

準備策略與技巧

初級考生應採取「科目二優先」策略,因生成式AI應用分數佔比達45%,且可透過工具操作影片快速提升。中級備考需建立「技術日誌」,記錄AI模型調參過程與部署障礙排除經驗。無論級別,都需熟讀EU AI Act的高風險應用分類,此部分在近兩次考試皆出現5-8題。


結論

iPAS AI應用規劃師認證已成為企業數位轉型的人才評核標準,初級適合跨領域工作者建立AI思維,中級則培養技術整合能力。備考關鍵在於掌握官方教材的實務框架,並透過模擬題強化情境判斷。隨著114年度第三次考試即將登場,建議考生及早規劃3個月以上的系統性準備期。

參考文獻

  1. iPAS AI應用規劃師官方網站
  2. AI應用規劃師考題分析
  3. 經濟部淨零碳規劃管理師介紹
  4. 初級課程規劃文件
  5. CCChen模擬試題資源

前端開發者必知的8個冷門卻超實用DOM技巧

身為前端開發者,每天都在與DOM (文件物件模型) 打交道,它就像是網頁的骨架,讓開發者能夠操控頁面上的各種元素。不過,在眾多DOM API中,藏著許多鮮為人知但非常實用的方法。

1. Element.checkVisibility()

這是什麼?

這個方法能夠檢測元素是否「真正可見」,不只是存在於DOM中而已。它考慮了多種因素:

  • CSS遮蓋(被其他元素擋住)
  • 滾動隱藏(元素在可視區域外)
  • 透明度為0(肉眼看不見)

實際應用場景

  • 表單驗證:只對用戶可見的表單欄位進行驗證
  • 廣告曝光統計:確保廣告真正被看到才計算曝光
  • 懶加載優化:精準判斷內容是否進入視野,再觸發加載
// 簡單範例
if (myElement.checkVisibility()) {
  // 元素真的被看到了,執行相應操作
}

2. TreeWalker API

這是什麼?

一種高效能遍歷DOM樹的方式,採用「迭代器模式」設計。想像它就像是一個聰明的導遊,可以按照您的要求有序地帶您參觀DOM樹的各個節點。

為什麼要用它?

相比於 querySelectorAll,TreeWalker在處理超大型DOM樹時更省記憶體,因為它不會一次性把所有匹配的節點都載入記憶體。

// 建立一個只遍歷段落元素的TreeWalker
const walker = document.createTreeWalker(
  document.body,           // 從body開始
  NodeFilter.SHOW_ELEMENT, // 只看元素節點
  {
    acceptNode(node) {
      return node.tagName === 'P' 
        ? NodeFilter.FILTER_ACCEPT 
        : NodeFilter.FILTER_SKIP;
    }
  }
);

// 逐一訪問每個段落元素
let currentNode;
while (currentNode = walker.nextNode()) {
  console.log(currentNode.textContent);
}

3. Node.compareDocumentPosition()

這是什麼?

這個方法能精確判斷兩個節點的「位置關係」,就像是網頁元素的GPS定位系統。

常用位置關係代碼

  • 2 (DOCUMENT_POSITION_PRECEDING): 節點A在B之前
  • 4 (DOCUMENT_POSITION_FOLLOWING): 節點A在B之後
  • 8 (DOCUMENT_POSITION_CONTAINS): A是B的祖先節點
// 實用範例:確定拖放元素的插入位置
function determineDropPosition(draggedElem, targetElem) {
  const position = draggedElem.compareDocumentPosition(targetElem);
  
  if (position & Node.DOCUMENT_POSITION_FOLLOWING) {
    return '目標元素在被拖動元素之後';
  } else if (position & Node.DOCUMENT_POSITION_PRECEDING) {
    return '目標元素在被拖動元素之前';
  }
}

4. scrollIntoViewIfNeeded()

這是什麼?

一個聰明的捲動功能,只有當元素不在視窗中時才會自動捲動,避免不必要的頁面跳動。

與傳統方法的比較

傳統的 scrollIntoView() 會無條件捲動到元素位置,而 scrollIntoViewIfNeeded() 則更加智能,避免了過度捲動帶來的使用體驗問題。

// 使用範例:點擊目錄項時,智能捲動到對應章節
catalogItem.addEventListener('click', () => {
  // 只有當章節不在視窗內時才捲動
  document.getElementById(chapterId).scrollIntoViewIfNeeded();
});

5. insertAdjacentElement()

這是什麼?

這是一個比 appendChild 更靈活的元素插入方法,讓您能精準控制插入的位置。

位置參數選項

  • ‘beforebegin’: 在目標元素前面插入
  • ‘afterbegin’: 在目標元素內部的最前面插入
  • ‘beforeend’: 在目標元素內部的最後面插入
  • ‘afterend’: 在目標元素後面插入
// 實用範例:在表單每個輸入框後加入提示訊息
const helpText = document.createElement('small');
helpText.textContent = '請輸入有效的電子郵件地址';
inputElement.insertAdjacentElement('afterend', helpText);

 

6. Range.surroundContents()

這是什麼?

這是一個處理文字區域的神器,能用指定的元素將選中的內容包裹起來。

實際應用場景

  • rich文件編輯器:快速套用格式如加粗、斜體
  • 文章批註系統:標註並高亮重點段落
  • 搜尋結果高亮:突顯頁面中匹配的搜尋詞
// 實現高亮功能
function highlightText(text) {
  const range = document.createRange();
  const selection = window.getSelection();
  
  if (selection.rangeCount > 0) {
    range.setStart(selection.anchorNode, selection.anchorOffset);
    range.setEnd(selection.focusNode, selection.focusOffset);
    
    const highlight = document.createElement('mark');
    highlight.style.backgroundColor = 'yellow';
    
    try {
      range.surroundContents(highlight);
    } catch(e) {
      console.log('選區跨越多個節點,無法直接包裹');
    }
  }
}

7. Node.isEqualNode()

這是什麼?

這個方法能深度比較兩個節點是否「結構相同」,就像比較兩棵樹的形狀是否一致。

重要注意點

它只比較節點的結構和屬性,不會比較動態綁定的事件處理器等內容。這與 === 比較參考是否相同完全不同。

// 實用範例:檢查模板渲染後結構是否符合預期
const expectedStructure = document.createElement('div');
expectedStructure.innerHTML = '';

預期結構

const renderResult = myTemplateEngine.render(data);

if (expectedStructure.firstChild.isEqualNode(renderResult.firstChild)) {
  console.log('渲染結果符合預期結構!');
}

8. document.createExpression()

這是什麼?

這是XPath表達式的預編譯功能,能大幅提升反覆使用同一XPath查詢的效能。

實際應用場景

  • 大數據量表格的快速篩選查詢
  • 複雜XML文檔的節點訪問
  • 需要重複執行同一查詢的場景
// 預編譯XPath表達式
const compiledXPath = document.createExpression(
  '//table[@id="data-table"]/tbody/tr[position() < 10]'
);

// 多次執行同一查詢而無需重複解析
function updateTable() {
  const result = compiledXPath.evaluate(
    document,
    XPathResult.ORDERED_NODE_SNAPSHOT_TYPE,
    null
  );
  
  for (let i = 0; i < result.snapshotLength; i++) {
    const row = result.snapshotItem(i);
    // 處理前10行資料
  }
}

小結

這些鮮為人知的DOM API能讓您的前端代碼更加優雅高效。不過在實際應用時,請注意以下幾點:

  • 部分API(如checkVisibility)需要較新的瀏覽器支援(Chrome 106+)
  • 使用前建議檢查Can I Use確認瀏覽器兼容性
  • 適當使用這些API能提升代碼質量,但請避免為了炫技而過度使用冷門API
  • 考慮添加polyfill或fallback方案來處理舊版瀏覽器

掌握這些實用技巧,您的前端開發效率將得到顯著提升!您有用過這些API嗎?歡迎在評論區分享您的經驗和其他實用技巧。

MCP初體驗 – 使用Claude 桌面程式實踐第一步

一、安裝Claude桌面版程式 ( https://claude.ai/download )
二、開啟 開發人員模式
三、確定有安裝node (透過cmd node –version ), 接著claude_desktop_config.json設定

{
"mcpServers": {
"filesystem": {
"command": "npx",
"args": [
"-y",
"@modelcontextprotocol/server-filesystem",
"C:\\Users\\你自己的使用者名稱\\Desktop",
"C:\\Users\\你自己的使用者名稱\\Downloads"
]
}
}
}

四、重啟claude 就可以調用Filesystem MCP Server

延伸資料:

https://docs.anthropic.com/zh-TW/docs/agents-and-tools/mcp 模型上下文協議 (MCP)

https://modelcontextprotocol.io/introduction

https://modelcontextprotocol.io/quickstart/user

https://github.com/modelcontextprotocol

人工智慧與工人智慧的結合-文件產生器雛型

最近公司交付了一個新的任務,起因是大家都知道工程師最討厭的是寫文件,於是就想起了可不可以用ai寫文件這件事
於是開始了研究這條路,等到prompt都差不多後,主管們又說可不可以系統化,於是就出現了這個雛型系統
老實說,跟ai協作真的很歡樂~重要的是腦袋中要有想法以及邏輯,以及如何說給電腦聽

OpenAI 發佈最新 GPT-4.5 預覽版:更深入的知識、更自然的對話體驗

OpenAI 剛剛透過電子郵件宣布,推出最新、最大的語言模型 GPT-4.5 預覽版。

GPT-4.5 有哪些提升?

  • 更深入的世界知識和更佳的用戶意圖理解
  • 更擅長需要創造力、同理心和廣泛知識的任務
  • 在代理規劃和執行方面表現出色
  • 支援函數調用、結構化輸出、視覺、串流、系統訊息、評估和提示緩存等功能

如何開始使用 GPT-4.5?

GPT-4.5 目前可透過 OpenAI 的 Chat Completions、Assistants 和 Batch APIs 使用。

GPT-4.5 的費用如何計算?

GPT-4.5 的使用費用較高,平均每 100 萬 tokens 為 68 美元,並提供批量作業和緩存輸入的折扣。

GPT-4.5 的未來如何?

OpenAI 正在評估是否長期提供 GPT-4.5 API 服務。

開發人員如何提供幫助?

符合條件的開發人員可以透過分享提示和完成來幫助 OpenAI 改進模型,並可獲得高達每天 100 萬 tokens 的免費 GPT-4.5 使用量。

總結

GPT-4.5 是 OpenAI 在自然語言處理領域的最新進展,為開發者提供了更強大的工具來構建各種應用。雖然費用較高,但其強大的功能和潛在的應用價值仍然值得關注。

GPT‑4.5 GPT‑4o OpenAI o3‑mini (high)
GPQA (science) 71.4% 53.6% 79.7%
AIME ‘24 (math) 36.7% 9.3% 87.3%
MMMLU (multilingual) 85.1% 81.5% 81.1%
MMMU (multimodal) 74.4% 69.1%
SWE-Lancer Diamond (coding)* 32.6%

$186,125

23.3%

$138,750

10.8%

$89,625

SWE-Bench Verified (coding)* 38.0% 30.7% 61.0%

網址
https://openai.com/index/introducing-gpt-4-5/

https://platform.openai.com/docs/models#gpt-4-5

 

Hugging Face推出SLM SmolVLM2讓影像理解模型進入到設備


隨著人工智慧技術的快速發展,視訊理解模型正變得越來越重要。Hugging Face 推出的 SmolVLM2 系列,憑藉其高效能與小型化設計,為視訊理解樹立了新標杆。本文將帶你快速了解 SmolVLM2 的核心技術、應用場景及其在視訊理解領域的突破。


SmolVLM2 的願景與目標

SmolVLM2 的使命是將視訊理解的能力帶到每一台設備,無論是手機還是伺服器。與傳統需要大量計算資源的大型模型不同,SmolVLM2 將高效模型與小型化設計結合,實現了低資源環境下的高效視訊處理。

目前,SmolVLM2 提供三種不同規模的模型:

  • 2.2B 模型:專為高效視訊和圖像理解而設計,是整個系列的旗艦。
  • 500M 模型:在小型化與效能之間取得良好平衡。
  • 256M 模型:實驗性質的極小型模型,探索小型模型的極限。

這些模型均可通過 Python 和 Swift API 使用,並且支持 Hugging Face 的 Transformers 框架。


核心技術與性能

SmolVLM2 2.2B:視覺與視訊的領先模型

2.2B 模型在多項基準測試中表現卓越,特別是在 Video-MME 基準上超越了所有現有的 2B 模型。該模型能夠:

  • 解決圖像中的數學問題。
  • 讀取照片中的文字。
  • 理解複雜圖表及科學視覺問題。

其記憶體效率極高,甚至可以在免費的 Google Colab 環境中運行。

更小巧的 500M 和 256M 模型

  • 500M 模型 提供了接近 2.2B 的視訊理解能力,但參數量僅為後者的四分之一。
  • 256M 模型 則是一個實驗性版本,旨在探索小型模型的應用潛力,適合創新應用和專門的微調項目。

應用場景:SmolVLM2 的多功能演示套件

為了展示 SmolVLM2 的多樣化應用,Hugging Face 開發了多個演示應用程式:

1. iPhone 影片理解

SmolVLM2 的 500M 模型已被整合到 iPhone 應用中,用戶可以直接在本地設備上分析視訊內容,無需依賴雲端運算。

2. VLC 媒體播放器集成

與 VLC 媒體播放器的合作,實現了智慧視訊片段描述和語義搜尋功能,用戶可以根據自然語言描述直接跳轉到影片中的相關部分。

3. 影片精彩片段產生器

這個應用程式可以從長達數小時的影片中自動提取最重要的時刻,適用於足球比賽等長時間的活動摘要。


與 Transformers 和 MLX 的結合

SmolVLM2 與 Hugging Face 的 Transformers 框架無縫集成,支持多種推理場景:

  • 影片推理:用戶可以通過簡單的聊天模板,讓模型生成對影片的詳細描述。
  • 多幅圖像推理:支援對多張圖片進行對比分析。
  • MLX 支持:在 Apple Silicon 裝置上運行 SmolVLM2 的高效推理,適合 Swift 開發者。

此外,SmolVL

SmolVLM2:將視訊理解帶入每台設備

隨著人工智慧技術的快速發展,視訊理解模型正變得越來越重要。Hugging Face 推出的 SmolVLM2 系列,憑藉其高效能與小型化設計,為視訊理解樹立了新標杆。本文將帶你快速了解 SmolVLM2 的核心技術、應用場景及其在視訊理解領域的突破。


SmolVLM2 的願景與目標

SmolVLM2 的使命是將視訊理解的能力帶到每一台設備,無論是手機還是伺服器。與傳統需要大量計算資源的大型模型不同,SmolVLM2 將高效模型與小型化設計結合,實現了低資源環境下的高效視訊處理。

目前,SmolVLM2 提供三種不同規模的模型:

  • 2.2B 模型:專為高效視訊和圖像理解而設計,是整個系列的旗艦。
  • 500M 模型:在小型化與效能之間取得良好平衡。
  • 256M 模型:實驗性質的極小型模型,探索小型模型的極限。

這些模型均可通過 Python 和 Swift API 使用,並且支持 Hugging Face 的 Transformers 框架。


核心技術與性能

SmolVLM2 2.2B:視覺與視訊的領先模型

2.2B 模型在多項基準測試中表現卓越,特別是在 Video-MME 基準上超越了所有現有的 2B 模型。該模型能夠:

  • 解決圖像中的數學問題。
  • 讀取照片中的文字。
  • 理解複雜圖表及科學視覺問題。

其記憶體效率極高,甚至可以在免費的 Google Colab 環境中運行。

更小巧的 500M 和 256M 模型

  • 500M 模型 提供了接近 2.2B 的視訊理解能力,但參數量僅為後者的四分之一。
  • 256M 模型 則是一個實驗性版本,旨在探索小型模型的應用潛力,適合創新應用和專門的微調項目。

應用場景:SmolVLM2 的多功能演示套件

為了展示 SmolVLM2 的多樣化應用,Hugging Face 開發了多個演示應用程式:

1. iPhone 影片理解

SmolVLM2 的 500M 模型已被整合到 iPhone 應用中,用戶可以直接在本地設備上分析視訊內容,無需依賴雲端運算。

2. VLC 媒體播放器集成

與 VLC 媒體播放器的合作,實現了智慧視訊片段描述和語義搜尋功能,用戶可以根據自然語言描述直接跳轉到影片中的相關部分。

3. 影片精彩片段產生器

這個應用程式可以從長達數小時的影片中自動提取最重要的時刻,適用於足球比賽等長時間的活動摘要。


與 Transformers 和 MLX 的結合

SmolVLM2 與 Hugging Face 的 Transformers 框架無縫集成,支持多種推理場景:

  • 影片推理:用戶可以通過簡單的聊天模板,讓模型生成對影片的詳細描述。
  • 多幅圖像推理:支援對多張圖片進行對比分析。
  • MLX 支持:在 Apple Silicon 裝置上運行 SmolVLM2 的高效推理,適合 Swift 開發者。

此外,SmolVLM2 還支持在視訊數據上的微調,用戶可以根據自己的需求進一步優化模型。


為未來創造更多可能

SmolVLM2 的推出標誌著視訊理解模型進入了一個新時代。它不僅在效能上實現了突破,還通過小型化設計使模型更加普及,適用於更多場景和設備。

如果你對 SmolVLM2 感興趣,歡迎探索以下資源:

M2 還支持在視訊數據上的微調,用戶可以根據自己的需求進一步優化模型。


為未來創造更多可能

SmolVLM2 的推出標誌著視訊理解模型進入了一個新時代。它不僅在效能上實現了突破,還通過小型化設計使模型更加普及,適用於更多場景和設備。

如果你對 SmolVLM2 感興趣,歡迎探索以下資源:

Perplexity 推出深度研究api

Perplexity 發布了新的 Deep Research API,使開發人員能夠將強大的研究功能直接集成到他們的應用程序中。

Deep Research API 分析數百個來源,在幾分鐘內而非幾小時內提供專家級的見解。 API 允許您規劃和執行自主研究、跨不同領域(金融、營銷、旅遊等)訪問詳細的見解,並生成全面的報告。 Deep Research API 在 SimpleQA 基準測試中準確率達 93.9%,在 Humanity’s Last Exam 中準確率達 21.1%,顯著優於 Gemini Thinking、o3-mini、o1 和 DeepSeek-R1。

Perplexity 還響應客戶的反饋,添加了兩個具有更高速率限制的新層級。
目前Perplexity支援的模型有

Model Context Length   Model Type  
sonar-deep-research 60k Chat Completion  
sonar-reasoning-pro 128k Chat Completion  
sonar-reasoning 128k Chat Completion  
sonar-pro 200k Chat Completion  
sonar 128k Chat Completion 
r1-1776 128k Chat Completion  

範例程式

curl --location 'https://api.perplexity.ai/chat/completions' \
--header 'accept: application/json' \
--header 'content-type: application/json' \
--header 'Authorization: Bearer yourapikey' \
--data '{
"model": "sonar-deep-research",
"messages": [
{
"role": "system",
"content": "Be precise and concise."
},
{
"role": "user",
"content": "r question"
}
]
}'

https://docs.perplexity.ai/home