
AI Weekly News: Microsoft launches AI transformation with Windows 11; NVIDIA reduces office software costs by 23%; Video training becomes a crucial learning path for robots | Insight Research

1.Copilot” 落户” Windows11,操作系統的 AI 變革時刻已來; 2.金山辦公引入英偉達推理服務器和 GPU,圖像任務能降本 23%; 3.Midjourney 5.2 又更新,這次 AI 生圖開始卷向表情包; 4.十秒剪視頻,Whisper 模型讓每個人都能成為 “剪輯師”; 5.機器人看 YouTube 學會做家務,大規模視頻訓練機器人成為重要路徑; 6.Unity 推出 AI Hub 平台,股價飆漲 15%,AI 革命遊戲的進程在加速;
見智視角
本週 AI 的重要風向在 win 操作系統、辦公軟件應用和大模型私有化部署所展現出巨大的市場潛力。微軟的操作系統變革將為用户帶來更智能、高效的體驗,辦公軟件應用的 AI 技術將提高圖像處理能力,而大模型私有化部署的發展將使 AI 在 to B 應用上更加安全可控,這些趨勢將對相關行業和公司的發展產生重要影響,為 AI 的廣泛應用提供更多機遇。
本週要點
AI 應用:
- Copilot"落户"Windows11,操作系統的 AI 變革時刻已來
- 金山辦公引入英偉達推理服務器和 GPU,圖像任務能降本 23%
- Midjourney 5.2 又更新,這次 AI 生圖開始卷向表情包
- 十秒剪視頻,Whisper 模型讓每個人都能成為 “剪輯師”
- 機器人看 YouTube 學會做家務,大規模視頻訓練機器人成為重要路徑
- Unity 推出 AI Hub 平台,股價飆漲 15%,AI 革命遊戲的進程在加速
大模型:
- 谷歌 DeepMind 花數千萬美元打造 ChatGPT 的競品,多模態視頻訓練將成為特色
- PrivateGPT 開源模型可實現不連網提問;本地部署未來空間大
- 恒生電子發佈金融行業大模型 LightGPT,金融大模型場景多樣化,需求確定性強
- 智譜 AI 為大模型應用更近一步!成為法律專用大模型底座
融資風向:AI 安全成為資本的下一個風口,CalypsoAI 融資 2300 萬美元
AI 應用
1、Copilot"落户"Windows11,操作系統的 AI 變革時刻已來
微軟官宣向開發者頻道中的 Windows Insiders 提供 Windows Copilot 的早期預覽。
第一個預覽版重點關注集成 UI 體驗,Windows Copilot 將顯示為停靠在右側的側欄,不會與桌面內容重疊,並且將在打開的應用程序窗口旁邊無障礙運行,可以隨時與 Windows Copilot 進行交互。

在 window11 Copilot 的預覽版本中,用户可以提出以下種類問題:
內容涉及:個性化系統設置、截圖、文生文和文生圖的功能;
此外,Win11 更新還包括本機支持讀取其他存檔文件格式 ;如常見.rar\ .7z 等壓縮文件;
見智點評:
微軟兑現了在 5 月份的 Build 大會上的承諾,本次 Copilot 的預覽版本落地 win11,成為操作系統邁入 AI 時代的重要一步,之後 win11 會成為第一代 AI 系統的大規模商用版本;此外,微軟也表示在 25 年會停止 win10 的服務,包括專業版和家庭版,意味着那時起操作系統將會全面進入 AI 時代。這將為用户提供更智能、高效的操作體驗,併為微軟帶來新的商業機會。
2、 金山辦公引入英偉達推理服務器和 GPU,圖像任務能降本 23%
金山辦公官宣與 NVIDIA 團隊合作,為解決圖像識別和理解任務耗時過長和成本的問題,
引入 NVIDIA T4 Tensor Core GPU 進行推理、NVIDIA TensorRT 8.2.4 進行模型加速、NVIDIA Triton 推理服務器 22.04 在 K8S 上進行模型部署與編排。
通過 GPU 推理和 TensorRT 加速,成功將耗時從 15 秒降低到了 2.4 秒左右;部署成本節省了 23% 。
見智點評:
英偉達推理服務器的部署,成功優化了 GPU 的利用率,提高了辦公軟件對圖像文檔識別和推理的效率,能夠實現辦公軟件業務降本增效的預期。這一合作為 WPS AI 的落地應用提供了更高效的解決方案,這部分 AI 新能力集中在閲讀理解、問答、人機交互等方面。
WPS AI 已經開始內測階段,啓動大規模商用後,對國內辦公軟件使用體驗將帶來全面升級。這一合作將提升金山辦公的圖像處理能力,併為其在辦公軟件市場中的競爭力帶來優勢。
3、Midjourney 5.2 又更新,這次 AI 生圖開始卷向表情包
Midjourney 5.2 更新「weird」新功能,可自定義詭異等級。根據官網顯示通過調節 weird 參數的大小即能夠控制生成照片的詭異風格,參數越大照片越奇怪;但是該功能還只限於付費用户使用;

此外,還更新了「turbo」模式:該功能是能夠以四倍速加速圖片生成;不過相較於傳統快速作業模式仍舊是需要消耗 2 倍的 GPU;

見智點評:
圖片生成在 AI 的影響下正在從傳統模式進入一種新範式,weird 模式增加了圖片超越常規認知的可能性創作,這種模式具備更多娛樂屬性,如果免費開放應用,那麼大概率會在社交圈引爆。這一更新將進一步推動表情包製作的自動化和智能化,為用户提供更多創意和娛樂選擇。
4、十秒剪視頻,Whisper 模型讓每個人都能成為 “剪輯師”
荷蘭開發者 Matthijs Hollemans 在 HuggingFace 上基於 Whisper 開發了視頻剪輯新功能,現在剪視頻能夠精準到每個字。
在平台上可以對上傳的視頻內容進行同步文字轉化,只需要選擇留下的文字,然後就可以直接生成所需的片段。使用過程非常簡單,可累比相機界的 “傻瓜相機”。
見智點評:
AI 應用層出不窮,此前主要是 AI 生成圖片內卷非常嚴重,幾乎是每週都有重要更新,現在這個迭代速度已經開始向視頻領域蔓延,這個小白剪視頻的功能讓剪視頻門檻大大降低,同時節省了很多製作時間,效率優化超過 90%,對於視頻創作行業來説具有重大影響。這將進一步推動用户在社交媒體上的創作和分享活動,對於 Whisper 模型的開發商來説,商業機會也將隨之增加。
5、機器人看 YouTube 學會做家務,大規模視頻訓練機器人成為重要路徑
CMU 機器人研究所助理教授 Deepak Pathak 展示了一種視覺機器人橋方法(VRB);通過讓機器觀看人類行為方式的視頻完成行為模擬,並驗證了該方法的有效性。機器人觀看了幾個人類開抽屜的視頻後,可以效仿人類行為做出打開抽屜的動作。
見智點評:
這種方法的關鍵在於利用大規模的視頻數據來訓練機器人,並從中學習人類行為和操作。這為機器人的應用提供了更廣泛的可能性,可以通過觀察互聯網和 YouTube 等視頻來獲取更多的訓練數據。這種方法可以改進機器人的操作能力,併為機器人在日常生活中的應用提供更多的機會。
視頻訓練將成為機器人學習的重要路徑,進一步推動機器人技術在家庭和服務領域的應用和發展。
6、Unity 推出 AI Hub 平台,股價飆漲 15%,AI 革命遊戲的進程在加速
全球領先的 3D 內容平台 Unity 宣佈推出 AI Hub 平台,允許 AI 軟件開發者通過 AI Hub 向遊戲研發商直接供應開發軟件,並通過 Unity 的 Asset Store 收費;
同時推出了 10 個經驗證的解決方案,還在 Unity Asset Store 中推出兩款新的 AI 產品 “Unity Sentis“及 “Unity Muse” 並正式啓動內測,預計將賦能 AI 驅動的遊戲開發效率提升以及玩法升級。
見智點評:
AI 將以非常迅速的節奏改變遊戲製作方式以及降低成本,這已經成為遊戲行業不可逆轉的路徑。遊戲行業的格局或許也會因為生成式 AI 帶來鉅變,AI 革命遊戲行業的進程在加速。
新 AI 平台的推出印證了目前開發人員對於 AI 工具的巨大需求存在,而 Unity 似乎已經找到了新的盈利模式,AI Hub 平台很快將成為開發者和遊戲公司最受歡迎的資源聚合平台,看起來 Unity 將會在這場全新變革中賺的盆滿缽滿
大模型
1、谷歌 DeepMind 花數千萬美元打造 ChatGPT 的競品,多模態視頻訓練將成為特色
谷歌 DeepMind CEO Hassabis 近日對外媒 Wired 表示,Gemini 還在開發中,還需要幾個月,而谷歌 DeepMind 已經準備砸進數千萬美元,甚至數億。
The Information 最近的一篇報道表述:谷歌的研究人員一直在使用 YouTube 來開發 Gemini。
人工智能從業者表示:這可能是谷歌 DeepMind 的一個優勢,因為它可以 “比抓取視頻的競爭對手更完整地訪問視頻數據”。
見智點評:
Google 或是受到上一代聊天機器人 Bard 發佈會重大失誤的刺激,目前對 Gemini 給予了厚望,希望不僅僅是對標 ChatGPT,更想要超越,所以在訓練下一代聊天機器人時候,更側重多模態訓練,特別是視頻數據投餵,這點目前是 ChatGPT 所做不到的,也是 Google 想要的差異化市場競爭,大廠對大模型的爭奪仍在繼續。
2、PrivateGPT 開源模型可實現不連網提問;本地部署未來空間大
開發者 Iván Martínez Toro 發佈了 PrivateGPT 開源模型,該模型允許用户在無需互聯網連接的情況下,通過提供自己的文檔來向模型提問。
PrivateGPT 可以在家用設備上進行本地運行,使用前需要下載名為"gpt4all"的開源大語言模型(LLM)。用户需要將所有相關文件放入一個目錄中,以供模型引入所有數據。完成 LLM 的訓練後,用户可以向模型提出任何問題,它將使用提供的文檔作為上下文來回答。PrivateGPT 能夠處理超過 58000 個單詞,目前需要大量本地計算資源(推薦使用高端 CPU)進行設置。
Toro 表示,當前 PrivateGPT 處於概念驗證(PoC)階段,它至少證明了可以在本地創建類似於 ChatGPT 的大模型。可以預見,一旦這種 PoC 轉變為實際產品,PrivateGPT 將具備讓公司獲得個性化、安全和私密的 ChatGPT 來提高生產力的潛力。
見智點評:
PrivateGPT 開啓行業對本地化部署的重視程度,這對於那些關注數據隱私和安全的行業和個人非常重要。通過本地化部署,用户可以更好地控制和保護他們的數據,減少了數據泄露和侵犯隱私的風險;開源模型和本地化部署將在未來產生積極的影響。
3、恒生電子發佈金融行業大模型 LightGPT,金融大模型場景多樣化,需求確定性強
LightGPT 可以為投顧、客服、投研、運營、風控、合規、研發等金融業務場景提供底層 AI 能服務,支持超過 80+ 金融專屬任務指令微調。具備金融專業問答、邏輯推理、超長文本處理能力、多模態交互能力、代碼處理等能力;
模型使用了超 4000 億 tokens 的金融領域數據(包括資訊、公告、研報、結構化數據等)和超過 400 億 tokens 的語種強化數據(包括金融教材、金融百科、政府報告、法規條例等),並以之作為大模型的二次預訓練語料。
LightGPT 擁有更為豐富、輕量化的部署方式,支持私有化/雲部署以及靈活 API 調用,推理端僅需一機 2 卡部署。
見智點評:
一方面基於數據安全,一方面基於應用場景多樣化,金融大模型的需求確定性很強。
此前彭博已推出金融行業大語言模型 BloombergGPT;騰訊雲也正在攜手神州信息開展金融大模型合作;此前我們也作過多次金融大模型發展的動態點評,很多券商、銀行和基金公司都在進行 AI 研發投入,以及 AI 產品的推出;恒生電子基於此前金融行業多年的 IT 服務經驗,本次推出 LightGPT 大模型具有重要意義,之後我們也會繼續跟進 LightGPT 開放測試之後的體驗反饋。
4、智譜 AI 為大模型應用更近一步!成為法律專用大模型底座
冪律聯合智譜 AI 發佈基於中文千億大模型的法律垂直大模型——PowerLawGLM,聚焦於法律細分領域,針對中文法律場景的應用效果具有獨特優勢,具備豐富的法律知識和法律語言理解能力。
基於 PowerLawGLM 大模型的能力,冪律還打造了法律對話產品 ChatMe,現已正式上線,首批開放 50 個內測名額
PowerLawGLM 是基於智譜的 ChatGLM 130B 通用千億對話大模型進行聯合研發,經過多輪多次高質量法律文本數據(裁判文書、法律法規、法律知識問答等)清洗及模型增量訓練,得到法律版基座大模型 LawGLM 130B。在 100 個問題的評測結果上來看:PowerLawGLM 可實現 70% 左右的最優答案。
見智點評:
大模型如果直接應用在法律領域,會存在輸出結果與需求很嚴重不匹配程度很高的問題。因為大模型的數據結果是基於數據訓練來生成的,但是不同國家的法律規則是完全不同的,具有很強的專業性和區域限制,所以採用全球通用大模型很難得到滿意的內容。
中文千億大模型的法律垂直大模型 PowerLawGLM 就能夠很好的適配我國的案例情況。中文法律大模型僅僅是一個開始,未來很多行業都會陸續推出專業領域的大模型,同時會基於垂直大模型打造人工智能對話產品。智譜 AI 做為最底層模型,對於開發專業領域大模型具有重要意義;之前還開源過一個更小容量的 ChatGLM-6B 模型,特別適合學習和輕量開發;另外最值得關注的是大模型訓練中如何平衡訓練穩定性和效率。
AI 融資
AI 安全成為資本的下一個風口,CalypsoAI 融資 2300 萬美元
CalypsoAI 的產品可對標 360 安全管家,主要發佈一些 ChatGPT 等大語言模型提供安全護欄的產品,包括惡意代碼檢測、越獄預防等特色防護功能。要解決數據隱私、安全防護、輸出非法信息等難點,以加快金融、醫療、法律等行業對 ChatGPT 等生成式 AI 產品的場景化落地。
CalypsoAI 在官網宣佈,獲得 2300 萬美元(約 1.6 億元)A-1 輪融資。本次由 Paladin Capital Group 領投,洛克希德·馬丁風險投資、Hakluyt Capital 等跟投。
見智點評:
資本的關注焦點已經不侷限於大模型、AI 應用、現在已經開始下注 AI 安全產品。畢竟大模型做為底層工具,一旦被污染或遭受攻擊,輸出的內容則會完全偏離預期,無疑是對算力資源的浪費,同時還會產生公司數據泄露等安全問題。所以 AI 安全產品也必然會成為未來市場需求的一個重要領域。
下週關注:人工智能大會

