[閒聊] 更多機器老婆遞迴AI Agent..本週AI新聞

時間Sun May 3 13:32:49 2026

https://www.youtube.com/watch?v=7r_WJ9xpne0

1. OmniShotCut (0:50) 核心功能：自動化全景影片剪輯 OmniShotCut 是一個針對 360 度全景影片設計的智能剪輯框架。傳統全景影片需要人工挑選視角，過程極其繁瑣。技術特點：它能自動識別全景畫面中的感興趣區域（Region of Interest），並根據電影攝影原則自動產出流暢的透視影片（Perspective Video）。應用場景：極限運動記錄、虛擬旅遊導覽的快速後製。 2. HappyHorse (2:05) 核心功能：阿里巴巴旗下的頂級影片生成模型這款由阿里巴巴推出的影片生成模型在發布之初便引起轟動，主要原因在於其數據指標與實際感官的巨大落差。數據神話：在 Artificial Analysis 的獨立評測榜單中，HappyHorse 在「文字轉影片」與「圖像轉影片」兩項指標均位列世界第一，分數甚至超越了傳奇的 SeedDance 2.0 近 100 分。實測翻車：儘管跑分極高，但在實際測試中，HappyHorse 的表現令人失望。它在處理複雜的物理規律、長指令的順序邏輯（如動作先後順序）方面明顯力不從心，畫面流暢度與一致性在側評中皆遜於 SeedDance 2.0。 3. MoCapAnything V2 (5:27) 核心功能：萬物皆可動捕（單目攝影機版） MoCapAnything 的第二代版本大幅提升了從普通 2D 影片中提取 3D 人體動作的精度。技術優勢：不需要專業的紅外線感應器或穿戴設備，僅憑單一鏡頭拍攝的影片（如 YouTube 或抖音影片），即可將人物動作轉換為 3D 骨架。改進點：V2 優化了對複雜動作（如翻滾、遮擋）的處理能力，生成的動作數據更加平滑。 4. Ling-2.6-Flash (7:23) 核心功能：高效能百億級參數大型語言模型 (LLM) 由 Inclusion AI（阿里巴巴另一獨立實驗室）發布，這是一款兼具規模與推理速度的模型，特別針對長文本處理進行了優化。模型規模：該模型總參數高達 1,040 億 (104B)，但採用了混合專家架構（MoE），在運算時僅有約 7.4B 參數處於活動狀態，這使其具備大型模型的推理深度，同時保有極快的反應速度。技術優勢：在 Agentic（智能代理）基準測試中表現優異，且在長上下文（Long Context）情況下的推理效率遠超同類模型，非常適合處理繁瑣的長篇文獻或複雜的對話任務。 5. Z-Anime (8:33) 核心功能：動漫風格專用生成模型這是一個在 Hugging Face 上備受關注的特定領域微調模型。技術特點：對動漫線條、上色風格與二次元構圖有著極深的理解。用途：能精準還原高品質的日系動畫風格，是創作者進行角色設計或同人創作的強大工具。 6. Recursive Multi-Agents (9:37) 核心功能：遞迴式多代理人系統這是一種新型的 AI 協作架構，讓 AI 代理（Agent）能夠像「俄羅斯娃娃」一樣遞迴地解決問題。運作機制：當一個主 Agent 遇到複雜任務時，它會自動生成子 Agent 來處理特定環節，而子 Agent 還可以繼續派生。價值：這種架構極大地提升了 AI 處理長期、多步驟任務（如撰寫完整軟體專案）的邏輯能力。 7. Vista4D (12:50) 核心功能：動態 4D 場景重建 Vista4D 專注於將稀疏視角的影片轉換為可從任何角度觀看的動態 4D 場景（3D + 時間）。技術手段：利用 Gaussian Splatting 或類似技術，即便攝像頭捕捉到的資訊有限，也能補全動態物體背後的細節。應用：讓觀看者可以在一段動態影片中自由切換視角，彷彿身歷其境。 8. Tuna-2 (15:47) 核心功能：Meta 推出的多模態圖片生成與編輯模型 Tuna-2 是 Meta 最新的圖像生成力作，其定位與 GPT Image 2 或 Nano Banana 類似，是一款功能強大的多模態創作工具。多模態生成：除了根據文字生成圖像，它更擅長處理圖片編輯任務。用戶可以透過文字指令對現有圖片進行風格轉換（例如：將人物轉為樂高風格或梵谷油畫風）。強大的排版能力：該模型在文字渲染（Text Rendering）上表現出色，能精準地在海報或示意圖中生成正確的字母與單詞。發布爭議：儘管技術領先，但 Meta 因內部政策限制，僅釋出了性能受限（Layers 較少）的基礎檢查點（Foundation Checkpoint），而非完整的模型權重。 9. AnyRecon (17:02) 核心功能：通用型 3D 重建正如其名，AnyRecon 旨在實現「從任何來源進行重建」。技術突破：它不挑剔輸入源（無論是網路圖片還是手機隨手拍），都能在極短時間內生成具有高幾何精度的 3D 模型。優勢：對弱光環境與紋理缺失區域具有較強的補償能力。 10. Merlin AI (19:19) 核心功能：全方位瀏覽器 AI 助手 Merlin 是一款整合了多種底層模型（如 GPT-4、Claude）的生產力工具。功能涵蓋：網頁內容摘要、YouTube 影片重點提取、電子郵件代寫以及即時搜尋。定位：它將複雜的 AI 技術包裝成易用的 UI，是目前最受歡迎的個人 AI 效率工具之一。 (業配) 11. ARA (Agent-native Research Artifacts) [00:21:29] 核心概念：為 AI 時代打造的「原生科研工藝品」傳統論文（PDF）是給人讀的，往往隱藏了失敗的實驗與細碎的參數。ARA 試圖改變這一點。技術特點：它不僅包含論文結論，還結構化地封裝了完整的代碼、配置、實驗路徑（包含失敗的嘗試）以及推理鏈條。價值：透過「Live Research Manager」系統自動捕捉研究過程，解決了科研中的「工程稅（無法復現）」與「敘事稅（只講好聽的故事）」，讓 AI 代理能更高效地閱讀與續寫科研工作。 12. KAI (Kinetics AI) [00:24:52] 核心功能：超擬人化具身機器人 KAI 是一款具備極高靈活性與感知能力的通用機器人。硬體規格：全身上下擁有 115 個自由度（DoF），僅雙手就有 36 個自由度，能執行拉拉鍊、玩乒乓球等精細動作。技術亮點：配備「全體觸覺皮膚（Tactile Skin）」，機器人不僅能看到世界，還能「感覺」到接觸壓力，這使其在處理易碎品（如橘子）或與人互動時更安全。腦部架構：採用 KAI 世界模型（World Model），具備長序列任務規劃與自我糾錯能力。 13. Robot Era Factory (L7 機器人) [00:26:33] 應用場景：全自動化物流分揀展示了數十台 L7 人形機器人在物流中心協同作業的畫面。技術特點：利用嵌入式視覺與深度感知，機器人能精確識別傳送帶上的包裹並進行分類。這預示著未來工廠將從「固定機械臂」轉向「流動的人形機器人群」。 14. Neotix Head & TFBOT Ella [00:27:35] 核心功能：生化擬真機器人頭部這兩款技術致力於解決「恐怖谷效應」，提供極致的人機互動體驗。 Neotix：專注於微表情，能實現極其自然的眨眼、視線轉動與說話口型 TFBOT Ella：明確定位為「伴侶型機器人（Girlfriend Robot）」，外型雖然極其自然，但在眼神的靈動度上略遜於 Neotix。 15. SenseNova U1 (商湯日日新) [00:28:50] 核心功能：端到端統一多模態模型這不是單純的圖像生成器，而是一個「全才」模型。架構創新：採用 Neo Unifi 架構，捨棄了傳統的分離式視覺編碼器，直接將像素與文字進行端到端連結。技術優勢：在處理海量文字的海報、長圖、視覺邏輯謎題方面表現極其優異，能理解複雜的視覺層次感 16. Nemotron 3 Nano Omni (NVIDIA) [00:32:14] 核心功能：高效多模態推理代理 NVIDIA 推出的 30B 混合專家模型（MoE），僅需 3B 活躍參數即可運行。技術亮點：能同時輸入影音、圖片與文字，並在單一模型內完成推理。效率：在影片推理能力上提升了 9 倍系統容量，非常適合部署在終端設備上作為即時 AI 助理。 17. Claude Connectors [00:34:17] 核心功能：AI 接管專業軟體介面 Anthropic 讓 Claude 具備了直接操控第三方軟體的能力。運作機制：透過「Connector」，Claude 可以直接調用 Adobe Creative Cloud、 Blender 或 Canva 的 API [00:34:38]。應用場景：你可以直接對 Claude 說「幫我在 Blender 裡調整這個 3D 模型的燈光」，它會自動生成代碼並執行指令，將 AI 從「聊天視窗」釋放到「生產力工具」中。 18. Moonlake [00:35:34] 核心功能：3D 世界構建代理 (3D World Building Agent) 與傳統生成 3D 模型不同，Moonlake 是像「人類專家」一樣在 Blender 裡操作。技術特點：它採用「閉環操作（Loop）」，會觀察渲染結果、發現錯誤、進行修正，直到完成複雜的 3D 場景。這解決了 AI 難以生成結構正確（如合頁可動、物理對齊）模型的問題 19. Talkie (1930s AI) [00:37:59] 核心實驗：無污染的「復古」語言模型這是一個極其有趣的學術項目，訓練數據僅限於 1930 年以前的資料。研究價值：因為該模型「從未見過」現代網路、電腦或 Python 代碼，它是測試 AI 泛化能力的最佳對象。驚人發現：即便從未見過代碼，在給予少量範例後，該模型竟能理解 Python 函數的基本概念 [00:39:47]，證明了語言邏輯具備跨領域遷移的可能性。 20. Grok 4.3 & Mistral 3.5 [00:42:07] 主流模型迭代 Grok 4.3：xAI 的最新力作，強化了沙盒電腦操作與文件處理能力，雖然進步顯著，但在綜合排名上仍略遜於 GPT-5.5 [00:42:50]。 Mistral Medium 3.5：歐洲 AI 巨頭的 128B 大模型，主打 256K 超長上下文，但在第三方獨立評測中表現一般，性價比略低於 DeepSeek 等模型 -- Gemini整理 GPTimage2還沒研究完又多了幾個生圖AI了(Tuna-2,Z-Anime,SenseNova U1) 另外補充個聽起來很強的語音生成/克隆叫VoxCPM2 雖然不確定不用Tokenizer是啥意思但大概很猛 https://x.com/Honcia13/status/2050262221226463573 --

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.115 (臺灣) ※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1777786371.A.97E.html

1^F：推 Bustycat: Mistral AI在歐洲獨一檔，嚴格守法的歐企只能選他們的 05/03 14:45

2^F：→ peterturtle: 不是沒人作套娃 Agent 是套娃 Agent token 經費容易 05/03 16:32

3^F：→ peterturtle: 爆掉 www 05/03 16:32

4^F：推 rex7788: 這動畫風格的危險，一下就會被版權盯上的 05/04 00:36

5^F：→ error405: https://x.com/ai_hakase_/status/2051059986067833258 05/04 09:16

6^F：→ error405: 動畫+一張圖生Anima Lora 05/04 09:16

	[問題/行為] 貓晚上進房間會不會有憋尿問題
	Re: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
	[正妹] 瑞典一張
	[心得] EMS高領長版毛衣.墨小樓MC1002
	[分享] 丹龍隔熱紙GE55+33+22
	[問題] 清洗洗衣機
	[尋物] 窗台下的空間
	[閒聊] 双極の女神1 木魔爵
	[售車] 新竹 1997 march 1297cc 白色四門
	[討論] 能從照片感受到攝影者心情嗎
	[狂賀] 賀賀賀賀賀！島村卯月！總選舉NO.1
	[難過] 羨慕白皮膚的女生
	閱讀文章
	[黑特]
	[問題] SBK S1安裝於安全帽位置
	[分享] 舊woo100絕版開箱!!
	Re: [無言] 關於小包衛生紙
	[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
	[心得] 蒼の海賊龍地獄執行者16PT
	[售車] 1999年Virage iO 1.8EXi
	[心得] 挑戰33 LV10 獅子座pt solo
	[閒聊] 手把手教你不被桶之新手主購教學
	[分享] Civic Type R 量產版官方照無預警流出
	[售車] Golf 4 2.0 銀色自排
	[出售] Graco提籃汽座（有底座）2000元誠可議
	[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
	[問題] 44th 單曲生寫竟然都給重複的啊啊！
	[心得] 華南紅卡/icash 核卡
	[問題] 拔牙矯正這樣正常嗎
	[贈送] 老莫高業初業 102年版
	[情報] 三大行動支付本季掀戰火
	[寶寶] 博客來Amos水蠟筆5/1特價五折
	Re: [心得] 新鮮人一些面試分享
	[心得] 蒼の海賊龍地獄麒麟25PT
	Re: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
	Re: [閒聊] OGN中場影片：失蹤人口局 (英文字幕)
	[問題] 台灣大哥大4G訊號差
	[出售] [全國]全新千尋侘草LED燈, 水草

WEB批踢踢(PTT)

AI_Art 板

[閒聊] 更多機器老婆遞迴AI Agent..本週AI新聞

熱門看板

贊助商連結