AI_Art 板


LINE

https://www.youtube.com/watch?v=7r_WJ9xpne0
1. OmniShotCut (0:50) 核心功能:自動化全景影片剪輯 OmniShotCut 是一個針對 360 度全景影片設計的智能剪輯框架。傳統全景影片需要人工 挑選視角,過程極其繁瑣。 技術特點:它能自動識別全景畫面中的感興趣區域(Region of Interest),並根據 電影攝影原則自動產出流暢的透視影片(Perspective Video)。 應用場景:極限運動記錄、虛擬旅遊導覽的快速後製。 2. HappyHorse (2:05) 核心功能:阿里巴巴旗下的頂級影片生成模型 這款由阿里巴巴推出的影片生成模型在發布之初便引起轟動,主要原因在於其數據指標與 實際感官的巨大落差。 數據神話:在 Artificial Analysis 的獨立評測榜單中,HappyHorse 在「文字轉影 片」與「圖像轉影片」兩項指標均位列世界第一,分數甚至超越了傳奇的 SeedDance 2.0 近 100 分。 實測翻車:儘管跑分極高,但在實際測試中,HappyHorse 的表現令人失望。它在處 理複雜的物理規律、長指令的順序邏輯(如動作先後順序)方面明顯力不從心,畫面流暢 度與一致性在側評中皆遜於 SeedDance 2.0。 3. MoCapAnything V2 (5:27) 核心功能:萬物皆可動捕(單目攝影機版) MoCapAnything 的第二代版本大幅提升了從普通 2D 影片中提取 3D 人體動作的精度。 技術優勢:不需要專業的紅外線感應器或穿戴設備,僅憑單一鏡頭拍攝的影片(如 YouTube 或抖音影片),即可將人物動作轉換為 3D 骨架。 改進點:V2 優化了對複雜動作(如翻滾、遮擋)的處理能力,生成的動作數據更加 平滑。 4. Ling-2.6-Flash (7:23) 核心功能:高效能百億級參數大型語言模型 (LLM) 由 Inclusion AI(阿里巴巴另一獨立實驗室)發布,這是一款兼具規模與推理速度的模 型,特別針對長文本處理進行了優化。 模型規模:該模型總參數高達 1,040 億 (104B),但採用了混合專家架構(MoE), 在運算時僅有約 7.4B 參數處於活動狀態,這使其具備大型模型的推理深度,同時保有極 快的反應速度。 技術優勢:在 Agentic(智能代理)基準測試中表現優異,且在長上下文(Long Context)情況下的推理效率遠超同類模型,非常適合處理繁瑣的長篇文獻或複雜的對話 任務。 5. Z-Anime (8:33) 核心功能:動漫風格專用生成模型 這是一個在 Hugging Face 上備受關注的特定領域微調模型。 技術特點:對動漫線條、上色風格與二次元構圖有著極深的理解。 用途:能精準還原高品質的日系動畫風格,是創作者進行角色設計或同人創作的強大 工具。 6. Recursive Multi-Agents (9:37) 核心功能:遞迴式多代理人系統 這是一種新型的 AI 協作架構,讓 AI 代理(Agent)能夠像「俄羅斯娃娃」一樣遞迴地 解決問題。 運作機制:當一個主 Agent 遇到複雜任務時,它會自動生成子 Agent 來處理特定環 節,而子 Agent 還可以繼續派生。 價值:這種架構極大地提升了 AI 處理長期、多步驟任務(如撰寫完整軟體專案)的 邏輯能力。 7. Vista4D (12:50) 核心功能:動態 4D 場景重建 Vista4D 專注於將稀疏視角的影片轉換為可從任何角度觀看的動態 4D 場景(3D + 時間 )。 技術手段:利用 Gaussian Splatting 或類似技術,即便攝像頭捕捉到的資訊有限, 也能補全動態物體背後的細節。 應用:讓觀看者可以在一段動態影片中自由切換視角,彷彿身歷其境。 8. Tuna-2 (15:47) 核心功能:Meta 推出的多模態圖片生成與編輯模型 Tuna-2 是 Meta 最新的圖像生成力作,其定位與 GPT Image 2 或 Nano Banana 類似, 是一款功能強大的多模態創作工具。 多模態生成:除了根據文字生成圖像,它更擅長處理圖片編輯任務。用戶可以透過文 字指令對現有圖片進行風格轉換(例如:將人物轉為樂高風格或梵谷油畫風)。 強大的排版能力:該模型在文字渲染(Text Rendering)上表現出色,能精準地在海 報或示意圖中生成正確的字母與單詞。 發布爭議:儘管技術領先,但 Meta 因內部政策限制,僅釋出了性能受限(Layers 較少)的基礎檢查點(Foundation Checkpoint),而非完整的模型權重。 9. AnyRecon (17:02) 核心功能:通用型 3D 重建 正如其名,AnyRecon 旨在實現「從任何來源進行重建」。 技術突破:它不挑剔輸入源(無論是網路圖片還是手機隨手拍),都能在極短時間內 生成具有高幾何精度的 3D 模型。 優勢:對弱光環境與紋理缺失區域具有較強的補償能力。 10. Merlin AI (19:19) 核心功能:全方位瀏覽器 AI 助手 Merlin 是一款整合了多種底層模型(如 GPT-4、Claude)的生產力工具。 功能涵蓋:網頁內容摘要、YouTube 影片重點提取、電子郵件代寫以及即時搜尋。 定位:它將複雜的 AI 技術包裝成易用的 UI,是目前最受歡迎的個人 AI 效率工具 之一。 (業配) 11. ARA (Agent-native Research Artifacts) [00:21:29] 核心概念:為 AI 時代打造的「原生科研工藝品」 傳統論文(PDF)是給人讀的,往往隱藏了失敗的實驗與細碎的參數。ARA 試圖改變這一 點。 技術特點:它不僅包含論文結論,還結構化地封裝了完整的代碼、配置、實驗路徑( 包含失敗的嘗試)以及推理鏈條。 價值:透過「Live Research Manager」系統自動捕捉研究過程,解決了科研中的「 工程稅(無法復現)」與「敘事稅(只講好聽的故事)」,讓 AI 代理能更高效地閱讀與 續寫科研工作。 12. KAI (Kinetics AI) [00:24:52] 核心功能:超擬人化具身機器人 KAI 是一款具備極高靈活性與感知能力的通用機器人。 硬體規格:全身上下擁有 115 個自由度(DoF),僅雙手就有 36 個自由度,能執行 拉拉鍊、玩乒乓球等精細動作。 技術亮點:配備「全體觸覺皮膚(Tactile Skin)」,機器人不僅能看到世界,還能 「感覺」到接觸壓力,這使其在處理易碎品(如橘子)或與人互動時更安全。 腦部架構:採用 KAI 世界模型(World Model),具備長序列任務規劃與自我糾錯能 力。 13. Robot Era Factory (L7 機器人) [00:26:33] 應用場景:全自動化物流分揀 展示了數十台 L7 人形機器人在物流中心協同作業的畫面。 技術特點:利用嵌入式視覺與深度感知,機器人能精確識別傳送帶上的包裹並進行分 類。這預示著未來工廠將從「固定機械臂」轉向「流動的人形機器人群」。 14. Neotix Head & TFBOT Ella [00:27:35] 核心功能:生化擬真機器人頭部 這兩款技術致力於解決「恐怖谷效應」,提供極致的人機互動體驗。 Neotix:專注於微表情,能實現極其自然的眨眼、視線轉動與說話口型 TFBOT Ella:明確定位為「伴侶型機器人(Girlfriend Robot)」,外型雖然極其自 然,但在眼神的靈動度上略遜於 Neotix。 15. SenseNova U1 (商湯日日新) [00:28:50] 核心功能:端到端統一多模態模型 這不是單純的圖像生成器,而是一個「全才」模型。 架構創新:採用 Neo Unifi 架構,捨棄了傳統的分離式視覺編碼器,直接將像素與 文字進行端到端連結。 技術優勢:在處理海量文字的海報、長圖、視覺邏輯謎題方面表現極其優異,能理解 複雜的視覺層次感 16. Nemotron 3 Nano Omni (NVIDIA) [00:32:14] 核心功能:高效多模態推理代理 NVIDIA 推出的 30B 混合專家模型(MoE),僅需 3B 活躍參數即可運行。 技術亮點:能同時輸入影音、圖片與文字,並在單一模型內完成推理。 效率:在影片推理能力上提升了 9 倍系統容量,非常適合部署在終端設備上作為即 時 AI 助理。 17. Claude Connectors [00:34:17] 核心功能:AI 接管專業軟體介面 Anthropic 讓 Claude 具備了直接操控第三方軟體的能力。 運作機制:透過「Connector」,Claude 可以直接調用 Adobe Creative Cloud、 Blender 或 Canva 的 API [00:34:38]。 應用場景:你可以直接對 Claude 說「幫我在 Blender 裡調整這個 3D 模型的燈光 」,它會自動生成代碼並執行指令,將 AI 從「聊天視窗」釋放到「生產力工具」中。 18. Moonlake [00:35:34] 核心功能:3D 世界構建代理 (3D World Building Agent) 與傳統生成 3D 模型不同,Moonlake 是像「人類專家」一樣在 Blender 裡操作。 技術特點:它採用「閉環操作(Loop)」,會觀察渲染結果、發現錯誤、進行修正, 直到完成複雜的 3D 場景。這解決了 AI 難以生成結構正確(如合頁可動、物理對齊)模 型的問題 19. Talkie (1930s AI) [00:37:59] 核心實驗:無污染的「復古」語言模型 這是一個極其有趣的學術項目,訓練數據僅限於 1930 年以前的資料。 研究價值:因為該模型「從未見過」現代網路、電腦或 Python 代碼,它是測試 AI 泛化能力的最佳對象。 驚人發現:即便從未見過代碼,在給予少量範例後,該模型竟能理解 Python 函數的 基本概念 [00:39:47],證明了語言邏輯具備跨領域遷移的可能性。 20. Grok 4.3 & Mistral 3.5 [00:42:07] 主流模型迭代 Grok 4.3:xAI 的最新力作,強化了沙盒電腦操作與文件處理能力,雖然進步顯著, 但在綜合排名上仍略遜於 GPT-5.5 [00:42:50]。 Mistral Medium 3.5:歐洲 AI 巨頭的 128B 大模型,主打 256K 超長上下文,但在 第三方獨立評測中表現一般,性價比略低於 DeepSeek 等模型 -- Gemini整理 GPTimage2還沒研究完 又多了幾個生圖AI了(Tuna-2,Z-Anime,SenseNova U1) 另外補充個聽起來很強的語音生成/克隆 叫VoxCPM2 雖然不確定不用Tokenizer是啥意思但大概很猛 https://x.com/Honcia13/status/2050262221226463573 --



※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.240.115 (臺灣)
※ 文章網址: https://webptt.com/m.aspx?n=bbs/AI_Art/M.1777786371.A.97E.html
1F:推 Bustycat: Mistral AI在歐洲獨一檔,嚴格守法的歐企只能選他們的 05/03 14:45
2F:→ peterturtle: 不是沒人作套娃 Agent 是套娃 Agent token 經費容易 05/03 16:32
3F:→ peterturtle: 爆掉 www 05/03 16:32
4F:推 rex7788: 這動畫風格的危險,一下就會被版權盯上的 05/04 00:36
6F:→ error405: 動畫+一張圖生Anima Lora 05/04 09:16







like.gif 您可能會有興趣的文章
icon.png[問題/行為] 貓晚上進房間會不會有憋尿問題
icon.pngRe: [閒聊] 選了錯誤的女孩成為魔法少女 XDDDDDDDDDD
icon.png[正妹] 瑞典 一張
icon.png[心得] EMS高領長版毛衣.墨小樓MC1002
icon.png[分享] 丹龍隔熱紙GE55+33+22
icon.png[問題] 清洗洗衣機
icon.png[尋物] 窗台下的空間
icon.png[閒聊] 双極の女神1 木魔爵
icon.png[售車] 新竹 1997 march 1297cc 白色 四門
icon.png[討論] 能從照片感受到攝影者心情嗎
icon.png[狂賀] 賀賀賀賀 賀!島村卯月!總選舉NO.1
icon.png[難過] 羨慕白皮膚的女生
icon.png閱讀文章
icon.png[黑特]
icon.png[問題] SBK S1安裝於安全帽位置
icon.png[分享] 舊woo100絕版開箱!!
icon.pngRe: [無言] 關於小包衛生紙
icon.png[開箱] E5-2683V3 RX480Strix 快睿C1 簡單測試
icon.png[心得] 蒼の海賊龍 地獄 執行者16PT
icon.png[售車] 1999年Virage iO 1.8EXi
icon.png[心得] 挑戰33 LV10 獅子座pt solo
icon.png[閒聊] 手把手教你不被桶之新手主購教學
icon.png[分享] Civic Type R 量產版官方照無預警流出
icon.png[售車] Golf 4 2.0 銀色 自排
icon.png[出售] Graco提籃汽座(有底座)2000元誠可議
icon.png[問題] 請問補牙材質掉了還能再補嗎?(台中半年內
icon.png[問題] 44th 單曲 生寫竟然都給重複的啊啊!
icon.png[心得] 華南紅卡/icash 核卡
icon.png[問題] 拔牙矯正這樣正常嗎
icon.png[贈送] 老莫高業 初業 102年版
icon.png[情報] 三大行動支付 本季掀戰火
icon.png[寶寶] 博客來Amos水蠟筆5/1特價五折
icon.pngRe: [心得] 新鮮人一些面試分享
icon.png[心得] 蒼の海賊龍 地獄 麒麟25PT
icon.pngRe: [閒聊] (君の名は。雷慎入) 君名二創漫畫翻譯
icon.pngRe: [閒聊] OGN中場影片:失蹤人口局 (英文字幕)
icon.png[問題] 台灣大哥大4G訊號差
icon.png[出售] [全國]全新千尋侘草LED燈, 水草

請輸入看板名稱,例如:Tech_Job站內搜尋

TOP