作者error405 (流河=L)
看板AI_Art
標題[閒聊] 更多機器老婆 遞迴AI Agent..本週AI新聞
時間Sun May 3 13:32:49 2026
https://www.youtube.com/watch?v=7r_WJ9xpne0
1. OmniShotCut (0:50)
核心功能:自動化全景影片剪輯
OmniShotCut 是一個針對 360 度全景影片設計的智能剪輯框架。傳統全景影片需要人工
挑選視角,過程極其繁瑣。
技術特點:它能自動識別全景畫面中的感興趣區域(Region of Interest),並根據
電影攝影原則自動產出流暢的透視影片(Perspective Video)。
應用場景:極限運動記錄、虛擬旅遊導覽的快速後製。
2. HappyHorse (2:05)
核心功能:阿里巴巴旗下的頂級影片生成模型
這款由阿里巴巴推出的影片生成模型在發布之初便引起轟動,主要原因在於其數據指標與
實際感官的巨大落差。
數據神話:在 Artificial Analysis 的獨立評測榜單中,HappyHorse 在「文字轉影
片」與「圖像轉影片」兩項指標均位列世界第一,分數甚至超越了傳奇的 SeedDance
2.0 近 100 分。
實測翻車:儘管跑分極高,但在實際測試中,HappyHorse 的表現令人失望。它在處
理複雜的物理規律、長指令的順序邏輯(如動作先後順序)方面明顯力不從心,畫面流暢
度與一致性在側評中皆遜於 SeedDance 2.0。
3. MoCapAnything V2 (5:27)
核心功能:萬物皆可動捕(單目攝影機版)
MoCapAnything 的第二代版本大幅提升了從普通 2D 影片中提取 3D 人體動作的精度。
技術優勢:不需要專業的紅外線感應器或穿戴設備,僅憑單一鏡頭拍攝的影片(如
YouTube 或抖音影片),即可將人物動作轉換為 3D 骨架。
改進點:V2 優化了對複雜動作(如翻滾、遮擋)的處理能力,生成的動作數據更加
平滑。
4. Ling-2.6-Flash (7:23)
核心功能:高效能百億級參數大型語言模型 (LLM)
由 Inclusion AI(阿里巴巴另一獨立實驗室)發布,這是一款兼具規模與推理速度的模
型,特別針對長文本處理進行了優化。
模型規模:該模型總參數高達 1,040 億 (104B),但採用了混合專家架構(MoE),
在運算時僅有約 7.4B 參數處於活動狀態,這使其具備大型模型的推理深度,同時保有極
快的反應速度。
技術優勢:在 Agentic(智能代理)基準測試中表現優異,且在長上下文(Long
Context)情況下的推理效率遠超同類模型,非常適合處理繁瑣的長篇文獻或複雜的對話
任務。
5. Z-Anime (8:33)
核心功能:動漫風格專用生成模型
這是一個在 Hugging Face 上備受關注的特定領域微調模型。
技術特點:對動漫線條、上色風格與二次元構圖有著極深的理解。
用途:能精準還原高品質的日系動畫風格,是創作者進行角色設計或同人創作的強大
工具。
6. Recursive Multi-Agents (9:37)
核心功能:遞迴式多代理人系統
這是一種新型的 AI 協作架構,讓 AI 代理(Agent)能夠像「俄羅斯娃娃」一樣遞迴地
解決問題。
運作機制:當一個主 Agent 遇到複雜任務時,它會自動生成子 Agent 來處理特定環
節,而子 Agent 還可以繼續派生。
價值:這種架構極大地提升了 AI 處理長期、多步驟任務(如撰寫完整軟體專案)的
邏輯能力。
7. Vista4D (12:50)
核心功能:動態 4D 場景重建
Vista4D 專注於將稀疏視角的影片轉換為可從任何角度觀看的動態 4D 場景(3D + 時間
)。
技術手段:利用 Gaussian Splatting 或類似技術,即便攝像頭捕捉到的資訊有限,
也能補全動態物體背後的細節。
應用:讓觀看者可以在一段動態影片中自由切換視角,彷彿身歷其境。
8. Tuna-2 (15:47)
核心功能:Meta 推出的多模態圖片生成與編輯模型
Tuna-2 是 Meta 最新的圖像生成力作,其定位與 GPT Image 2 或 Nano Banana 類似,
是一款功能強大的多模態創作工具。
多模態生成:除了根據文字生成圖像,它更擅長處理圖片編輯任務。用戶可以透過文
字指令對現有圖片進行風格轉換(例如:將人物轉為樂高風格或梵谷油畫風)。
強大的排版能力:該模型在文字渲染(Text Rendering)上表現出色,能精準地在海
報或示意圖中生成正確的字母與單詞。
發布爭議:儘管技術領先,但 Meta 因內部政策限制,僅釋出了性能受限(Layers
較少)的基礎檢查點(Foundation Checkpoint),而非完整的模型權重。
9. AnyRecon (17:02)
核心功能:通用型 3D 重建
正如其名,AnyRecon 旨在實現「從任何來源進行重建」。
技術突破:它不挑剔輸入源(無論是網路圖片還是手機隨手拍),都能在極短時間內
生成具有高幾何精度的 3D 模型。
優勢:對弱光環境與紋理缺失區域具有較強的補償能力。
10. Merlin AI (19:19)
核心功能:全方位瀏覽器 AI 助手
Merlin 是一款整合了多種底層模型(如 GPT-4、Claude)的生產力工具。
功能涵蓋:網頁內容摘要、YouTube 影片重點提取、電子郵件代寫以及即時搜尋。
定位:它將複雜的 AI 技術包裝成易用的 UI,是目前最受歡迎的個人 AI 效率工具
之一。
(業配)
11. ARA (Agent-native Research Artifacts) [00:21:29]
核心概念:為 AI 時代打造的「原生科研工藝品」
傳統論文(PDF)是給人讀的,往往隱藏了失敗的實驗與細碎的參數。ARA 試圖改變這一
點。
技術特點:它不僅包含論文結論,還結構化地封裝了完整的代碼、配置、實驗路徑(
包含失敗的嘗試)以及推理鏈條。
價值:透過「Live Research Manager」系統自動捕捉研究過程,解決了科研中的「
工程稅(無法復現)」與「敘事稅(只講好聽的故事)」,讓 AI 代理能更高效地閱讀與
續寫科研工作。
12. KAI (Kinetics AI) [00:24:52]
核心功能:超擬人化具身機器人
KAI 是一款具備極高靈活性與感知能力的通用機器人。
硬體規格:全身上下擁有 115 個自由度(DoF),僅雙手就有 36 個自由度,能執行
拉拉鍊、玩乒乓球等精細動作。
技術亮點:配備「全體觸覺皮膚(Tactile Skin)」,機器人不僅能看到世界,還能
「感覺」到接觸壓力,這使其在處理易碎品(如橘子)或與人互動時更安全。
腦部架構:採用 KAI 世界模型(World Model),具備長序列任務規劃與自我糾錯能
力。
13. Robot Era Factory (L7 機器人) [00:26:33]
應用場景:全自動化物流分揀
展示了數十台 L7 人形機器人在物流中心協同作業的畫面。
技術特點:利用嵌入式視覺與深度感知,機器人能精確識別傳送帶上的包裹並進行分
類。這預示著未來工廠將從「固定機械臂」轉向「流動的人形機器人群」。
14. Neotix Head & TFBOT Ella [00:27:35]
核心功能:生化擬真機器人頭部
這兩款技術致力於解決「恐怖谷效應」,提供極致的人機互動體驗。
Neotix:專注於微表情,能實現極其自然的眨眼、視線轉動與說話口型
TFBOT Ella:明確定位為「伴侶型機器人(Girlfriend Robot)」,外型雖然極其自
然,但在眼神的靈動度上略遜於 Neotix。
15. SenseNova U1 (商湯日日新) [00:28:50]
核心功能:端到端統一多模態模型
這不是單純的圖像生成器,而是一個「全才」模型。
架構創新:採用 Neo Unifi 架構,捨棄了傳統的分離式視覺編碼器,直接將像素與
文字進行端到端連結。
技術優勢:在處理海量文字的海報、長圖、視覺邏輯謎題方面表現極其優異,能理解
複雜的視覺層次感
16. Nemotron 3 Nano Omni (NVIDIA) [00:32:14]
核心功能:高效多模態推理代理
NVIDIA 推出的 30B 混合專家模型(MoE),僅需 3B 活躍參數即可運行。
技術亮點:能同時輸入影音、圖片與文字,並在單一模型內完成推理。
效率:在影片推理能力上提升了 9 倍系統容量,非常適合部署在終端設備上作為即
時 AI 助理。
17. Claude Connectors [00:34:17]
核心功能:AI 接管專業軟體介面
Anthropic 讓 Claude 具備了直接操控第三方軟體的能力。
運作機制:透過「Connector」,Claude 可以直接調用 Adobe Creative Cloud、
Blender 或 Canva 的 API [00:34:38]。
應用場景:你可以直接對 Claude 說「幫我在 Blender 裡調整這個 3D 模型的燈光
」,它會自動生成代碼並執行指令,將 AI 從「聊天視窗」釋放到「生產力工具」中。
18. Moonlake [00:35:34]
核心功能:3D 世界構建代理 (3D World Building Agent)
與傳統生成 3D 模型不同,Moonlake 是像「人類專家」一樣在 Blender 裡操作。
技術特點:它採用「閉環操作(Loop)」,會觀察渲染結果、發現錯誤、進行修正,
直到完成複雜的 3D 場景。這解決了 AI 難以生成結構正確(如合頁可動、物理對齊)模
型的問題
19. Talkie (1930s AI) [00:37:59]
核心實驗:無污染的「復古」語言模型
這是一個極其有趣的學術項目,訓練數據僅限於 1930 年以前的資料。
研究價值:因為該模型「從未見過」現代網路、電腦或 Python 代碼,它是測試 AI
泛化能力的最佳對象。
驚人發現:即便從未見過代碼,在給予少量範例後,該模型竟能理解 Python 函數的
基本概念 [00:39:47],證明了語言邏輯具備跨領域遷移的可能性。
20. Grok 4.3 & Mistral 3.5 [00:42:07]
主流模型迭代
Grok 4.3:xAI 的最新力作,強化了沙盒電腦操作與文件處理能力,雖然進步顯著,
但在綜合排名上仍略遜於 GPT-5.5 [00:42:50]。
Mistral Medium 3.5:歐洲 AI 巨頭的 128B 大模型,主打 256K 超長上下文,但在
第三方獨立評測中表現一般,性價比略低於 DeepSeek 等模型
--
Gemini整理
GPTimage2還沒研究完 又多了幾個生圖AI了(Tuna-2,Z-Anime,SenseNova U1)
另外補充個聽起來很強的語音生成/克隆 叫VoxCPM2
雖然不確定不用Tokenizer是啥意思但大概很猛
https://x.com/Honcia13/status/2050262221226463573
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.115 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1777786371.A.97E.html
1F:推 Bustycat: Mistral AI在歐洲獨一檔,嚴格守法的歐企只能選他們的 05/03 14:45
2F:→ peterturtle: 不是沒人作套娃 Agent 是套娃 Agent token 經費容易 05/03 16:32
3F:→ peterturtle: 爆掉 www 05/03 16:32
4F:推 rex7788: 這動畫風格的危險,一下就會被版權盯上的 05/04 00:36
6F:→ error405: 動畫+一張圖生Anima Lora 05/04 09:16