實做了一個網站,先將doc/pdf上傳檔案後,截取出文字的部份
然後詢問ai時,把文字當做附件去執行
目前需要持續開發的是如果pdf內容是掃描的文件,則會讀不出來
分類: AI人工智慧
OpenAI 發佈最新 GPT-4.5 預覽版:更深入的知識、更自然的對話體驗
OpenAI 剛剛透過電子郵件宣布,推出最新、最大的語言模型 GPT-4.5 預覽版。
GPT-4.5 有哪些提升?
- 更深入的世界知識和更佳的用戶意圖理解
- 更擅長需要創造力、同理心和廣泛知識的任務
- 在代理規劃和執行方面表現出色
- 支援函數調用、結構化輸出、視覺、串流、系統訊息、評估和提示緩存等功能
如何開始使用 GPT-4.5?
GPT-4.5 目前可透過 OpenAI 的 Chat Completions、Assistants 和 Batch APIs 使用。
GPT-4.5 的費用如何計算?
GPT-4.5 的使用費用較高,平均每 100 萬 tokens 為 68 美元,並提供批量作業和緩存輸入的折扣。
GPT-4.5 的未來如何?
OpenAI 正在評估是否長期提供 GPT-4.5 API 服務。
開發人員如何提供幫助?
符合條件的開發人員可以透過分享提示和完成來幫助 OpenAI 改進模型,並可獲得高達每天 100 萬 tokens 的免費 GPT-4.5 使用量。
總結
GPT-4.5 是 OpenAI 在自然語言處理領域的最新進展,為開發者提供了更強大的工具來構建各種應用。雖然費用較高,但其強大的功能和潛在的應用價值仍然值得關注。
GPT‑4.5 | GPT‑4o | OpenAI o3‑mini (high) | |
GPQA (science) | 71.4% | 53.6% | 79.7% |
AIME ‘24 (math) | 36.7% | 9.3% | 87.3% |
MMMLU (multilingual) | 85.1% | 81.5% | 81.1% |
MMMU (multimodal) | 74.4% | 69.1% | – |
SWE-Lancer Diamond (coding)* | 32.6%
$186,125 |
23.3%
$138,750 |
10.8%
$89,625 |
SWE-Bench Verified (coding)* | 38.0% | 30.7% | 61.0% |
網址
https://openai.com/index/introducing-gpt-4-5/
https://platform.openai.com/docs/models#gpt-4-5
Perplexity 推出深度研究api
Perplexity 發布了新的 Deep Research API,使開發人員能夠將強大的研究功能直接集成到他們的應用程序中。
Deep Research API 分析數百個來源,在幾分鐘內而非幾小時內提供專家級的見解。 API 允許您規劃和執行自主研究、跨不同領域(金融、營銷、旅遊等)訪問詳細的見解,並生成全面的報告。 Deep Research API 在 SimpleQA 基準測試中準確率達 93.9%,在 Humanity’s Last Exam 中準確率達 21.1%,顯著優於 Gemini Thinking、o3-mini、o1 和 DeepSeek-R1。
Perplexity 還響應客戶的反饋,添加了兩個具有更高速率限制的新層級。
目前Perplexity支援的模型有
Model | Context Length | Model Type |
---|---|---|
sonar-deep-research |
60k | Chat Completion |
sonar-reasoning-pro |
128k | Chat Completion |
sonar-reasoning |
128k | Chat Completion |
sonar-pro |
200k | Chat Completion |
sonar |
128k | Chat Completion |
r1-1776 |
128k | Chat Completion |
範例程式
curl --location 'https://api.perplexity.ai/chat/completions' \
--header 'accept: application/json' \
--header 'content-type: application/json' \
--header 'Authorization: Bearer yourapikey' \
--data '{
"model": "sonar-deep-research",
"messages": [
{
"role": "system",
"content": "Be precise and concise."
},
{
"role": "user",
"content": "r question"
}
]
}'
NoCode自動化經營Facebook – 使用make
隨著社群媒體的快速發展,Facebook 已成為許多品牌和企業經營的重要平台。然而,經營 Facebook 社群是一項耗時且需要持續投入的工作,包含內容發布、留言回覆、數據分析等。這時候,No-Code 工具 Make (原名 Integromat) 就成為了一個強大的解決方案,幫助實現 Facebook 社群經營的自動化,節省時間並提升效率。
什麼是 Make?
Make 是一款功能強大的 No-Code 自動化工具,允許用戶透過可視化的方式設計自動化工作流程(Workflows)。它能夠整合多種應用程式(例如 Facebook、Google Sheets、Slack 等),讓不同平台之間的資料和操作自動化執行,無需撰寫程式碼。
為什麼需要 Facebook 社群經營自動化?
節省時間與人力:自動化重複性任務,如定時發布貼文、整理留言數據等。
即時回應用戶:快速回覆用戶留言或私訊,提升互動體驗。
數據分析與追蹤:自動收集並整理社群數據,幫助制定更好的經營策略。
降低出錯機率:減少手動操作導致的疏漏或錯誤。
Facebook 社群經營自動化的應用場景
以下是幾個常見的應用場景,說明如何透過 Make 實現自動化:
1. 定時發布貼文
挑戰:手動發布貼文需要記住時間點,且可能因忙碌而錯過。
解決方案:利用 Make 將貼文內容與發布時間表整合到 Google Sheets,設定自動化流程,根據時間表自動發布貼文到 Facebook 粉絲專頁。
2. 自動回覆用戶留言
挑戰:即時回覆大量留言需要投入大量人力。
解決方案:透過 Make,自動偵測 Facebook 貼文下的留言內容,並根據關鍵字設定自動回覆。例如,當用戶留言「價格多少?」時,自動回覆「請私訊我們了解更多詳情」。
3. 私訊自動回覆與分流
挑戰:用戶私訊數量龐大,難以及時處理。
解決方案:設計自動化流程,根據用戶私訊的內容,將訊息分類並自動回覆。例如,將銷售相關訊息轉發給業務人員,將客服問題分配給客服團隊。
4. 自動收集社群數據
挑戰:手動整理粉絲專頁的數據(如按讚數、分享數、留言數)耗時費力。
解決方案:透過 Make,定期將 Facebook 貼文的互動數據(按讚、分享、留言等)匯出到 Google Sheets 或 Excel,方便進行分析。
想試用make也可以嘗試用我的連結 https://www.make.com/en/register?pc=superlevin
Github Copilot支援Anthropic Claude 3.7 Sonnet
AI圈子昨天發了新消息,就是Anthropic 發佈了新 Claude 3.7 Sonnet,為首個混合推理模型提供標準和擴展思考兩種模式並支援近乎即時回應或展示逐步思考過程
anthropic.claude-3-7-sonnet-20250219-v1:0
Claude 3.7 Sonnet is Anthropic's most intelligent model to date and the first Claude model to offer extended thinking – the ability to solve complex problems with careful, step-by-step reasoning.
Anthropic is the first AI lab to… pic.twitter.com/6ggpRl646J
— Tibor Blaho (@btibor91) February 24, 2025
2025年回顧
重新回到興農集團體系下的軟體公司,已經近十年(實際是9.6年)。
2025年的職銜從專案經理成了專業處長。
從一開始的delphi 開發到.net ~
從原先接觸的POS系統到流通、零售、餐飲,一直到ERP系統的會計/預算/人事薪資/票據,到政府財會/預算以及智慧農業
整個重心除了.net 開發與架構設計外,增加了ai相關的技能樹
透過azure openai / openai api with vision功能,讓人工智慧看懂圖片
做了個小玩具 網址: https://shoushan.happyweb.com.tw
上傳圖片後,可以做出
一、依照圖片內容生成商品文案給社群小編行銷
二、人工智慧ai 描述辨識圖片
三、上傳餐廳、飲料店等菜單,透過ai辨識回傳json
四、行為偵測,例如上傳照片 讓ai看看有沒有犯法或違法
五、上傳一張網頁的圖片/手繪的prototyp,然後生成規格書與欄位內容,最後搞出一個前端的prototype
c# 即時錄音送至openai whisper 翻譯/逐字稿
最近試著做即時翻譯這件事,透過安裝naudio。把麥克風聲音錄下後,每10秒轉成一個檔案上傳至open AI whisper做即時翻譯或逐字稿:
private const string API_KEY = "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx";
private const string API_URL = "https://api.openai.com/v1/audio/transcriptions";
var waveIn = new WaveInEvent();
waveIn.WaveFormat = new WaveFormat(16000, 1);
var buffer = new MemoryStream();
var writer = new WaveFileWriter(buffer, waveIn.WaveFormat);
//var writer = new WaveFileWriter(new DisposeStream(buffer), waveIn.WaveFormat);
waveIn.DataAvailable += async (sender, e) =>
{
writer.Write(e.Buffer, 0, e.BytesRecorded);
if (buffer.Length > 16000 * 2 * 10) // 每10秒
{
var audioData = buffer.ToArray();
buffer.SetLength(0);
buffer.Position = 0;
await SaveAudioChunkAsMp3(audioData, waveIn.WaveFormat);
await SendAudioChunk(audioData);
}
};
Console.WriteLine(“開始錄音。按任意鍵停止…”);
waveIn.StartRecording();
Console.ReadKey();
waveIn.StopRecording();
writer.Dispose();
buffer.Dispose();
static async Task SendAudioChunk(byte[] audioData)
{
using var httpClient = new HttpClient();
httpClient.DefaultRequestHeaders.Add(“Authorization”, $”Bearer {API_KEY}”);
using var content = new MultipartFormDataContent();
content.Add(new ByteArrayContent(audioData), “file”, “audio.wav”);
content.Add(new StringContent(“whisper-1”), “model”);
content.Add(new StringContent(“language”), “zh-hant”);
var response = await httpClient.PostAsync(API_URL, content);
var result = await response.Content.ReadAsStringAsync();
Console.WriteLine($”Transcription: {result}”);
}
Meta 剛剛發布了 Llama 3.1 405B
微軟亞洲研究中心最近研發一款新的ai人工智慧模型 VASA-1
微軟亞洲研究中心最近研發一款新的ai人工智慧模型 VASA-1,只要上傳大頭照一張後,就可以透過AI生成逼真的Text-To-Speech(TTS)影片。
原文: https://www.microsoft.com/en-us/research/project/vasa-1/