所有文章
大型語言模型
- GPT 越來越保守?史丹佛 Manning 團隊提出 Verbalized Sampling,讓模型重新「多想一點」...
- 首個多輪LLM路由器問世:Router-R1讓大型模型學會「思考–路由–聚合」...
- 先驗與後驗機制加持,大型模型能否應對推理預測中的現實「溢出」?...
- 「零和學習」理論橫空出世,揭示大型語言模型縮放定律的真相!...
- 普林斯頓陳丹琦組新作:RLHF難支撐,RLVR有邊界?RLMT開闢第三條路...
- 破除大型語言模型強化學習訓練中的「熵」詛咒,讓模型學會穩定成長!...
- 想越多,錯越多:CoT「深度思考」反成大型語言模型幻覺催化劑!...
- 不微調,讓LLM推理準確率暴增到99%!試下DeepConf,一個輕量級推理框架|Meta最新...
- 大型語言模型為何會產生幻覺?OpenAI 最新研究揭示了原因...
- Meta 提出 Deep Think with Confidence:幾乎無需更動,即可提升推論的準確性與效率...
- 硬核解析大型語言模型:從 DeepSeek-V3 到 KimiK2,一篇文看懂主流 LLM 架構...
- 注意力總是發散?人大與清華大學聯合提出LeaF:移除干擾型Token,引導模型學會自主聚焦...
- 模型真的能「反思程式碼」嗎?北航發布倉庫級理解生成基準,刷新大型語言模型理解評估範式...
- 復刻 AlphaGo 時刻?Google 推出 LLM 評估新範式 Game Arena:八大模型參賽,棋王擔任裁判...
- 盤點一下!大型模型訓練的時間都花在哪了?...
- 凌晨時分,Qwen再次更新,RTX 3090 即可運行,30億參數激活可媲美 GPT-4o...
- 碾壓DeepSeek V3!阿里巴巴開源新版Qwen-3,榜首級別的斷層領先...
- 大模型再爆弱點!舊記憶忘不掉,新記憶分不清,準確度暴跌 | ICML'25...
- AI進化時間表已現!LLM每7個月能力翻倍,2030年職場不復存在?...
- 吳恩達推出大型語言模型(LLM)後訓練免費課程,涵蓋三大調優方法:SFT、DPO、RL...
- ACL 2025 | 大型語言模型「以訛傳訛」?DRAG 雙階段「多代理辯論」破解幻覺疊加問題...
- NVIDIA(ProRL)|強化學習究竟能否提升大型語言模型的推理上限?...
- o3-pro成功挑戰《推箱子》,人類懷舊小遊戲成為大型模型新基準...
- 首次解釋LLM如何推論反思!西北大學、Google新框架:引入貝葉斯自適應強化學習,全面提升數學推論能力...
- Qwen團隊發布長上下文推理模型QwenLong-L1,超越o3-mini...
- 她如何將「系統二」帶入大型語言模型?—專訪微軟亞洲研究院張麗...
- AI越聰明越不聽話!新研究:最強推理模型指令遵循率僅50%...
- 「從零開始,僅需8元+9小時!完整Tiny LLM訓練教程,包含推理、MoE等」...
- ICML 2025 | 無需訓練,即時對齊大模型偏好...
- 大語言模型的推理能力究竟有多強?一項研究揭示了LLM的局限性與潛力...
- Reasoning 新突破:SoftCoT++ 如何讓 LLM「多想幾條路」?...
- Qwen突破:用「平行計算」代替「堆參數」,新方法記憶體降22倍、延遲降6倍...
- ZeroSearch:<阿里技術> 無需瀏覽器,大型語言模型自己獎勵學習...
- 強迫模型自我爭論,遞歸思考版CoT熱度飆升!網友:這不就是大多數推理模型的套路嗎?...
- 僅需 1 個數據,就能讓大型模型的數學推理效能大大增強?...
- NVIDIA Llama Nemotron 系列模型:關鍵技術解析...
- 中興通訊無線研究院「大模型深潛團隊」發布 LLM 自適應題目難度蒸餾方法,大幅提升小模型推理能力...
- 新書《Reasoning From Scratch》第一章釋出,Sebastian Raschka 談 LLM 推理、模式匹配和基礎訓練...
人工智慧
- Meta 發現:RAG 系統過慢是因為做了太多無用功...
- 癌症真的快被 AI 突破了嗎?Google 兩天內發布兩項重大進展...
- 錯越多學越快!「軌跡重寫」技術讓 AI 智能體從失敗中創造完美經驗!...
- OpenAI共同創辦人罕見曝光公司「痛苦與困境」:我們正走向運算稀缺世界!內部GPU分配如玩俄羅斯方塊,Sora 2實為被弱化的原始模型...
- 遞迴推理HRM模型再進化!TRM兩層網路(7M參數)擊敗大型語言模型!...
- 剛才,GPT-5首次通過「哥德爾測試」!破解三大數學猜想...
- 中國團隊訓練出「脈衝大模型」,推理速度提升100倍...
- 首個程式碼世界模型引爆 AI 圈,賦能智慧體「真推理」,Meta 開源...
- Anthropic 承認模型「降智」卻仍放任其偷懶?Claude Code 使用者信任正崩塌...
- DeepSeek、GPT-5都在嘗試的快慢思考切換,有了更智慧版本,還是多模態...
- 史丹佛最新研究:最強LLM也搞不定前瞻程式碼!Gemini 2.5 Pro成功率不足40%...
- 微軟提出rStar2-Agent:「更聰明地思考」遠比單純地「更長時間地思考」更有效率、更高效...
- MCP堆疊工具是個大坑!開發者大佬:命令列的「脆弱」讓AI慘敗!不如砍掉變成一個程式碼執行器:7輪呼叫秒變1輪!網友:早該放棄黑箱工具了!...
- 獎勵模型新革命!SWIFT不讀文本讀「心聲」,打造又快又強又省錢的AI裁判...
- GPT-5 等於擴展法則失靈?畢樹超:永遠有效,因為它反映的是資料結構,是客觀規律...
- 奧特曼驚人預言:GPT-8將於2035年治癒癌症!人類或為算力爆發引發第三次世界大戰...
- 史上最大高品質科學推理後訓練資料集開源,快速讓Qwen3等變「科學家」...
- AI 修復錯誤新 SOTA:SWE-Bench Lite 修正率達 60.33%,能像人一樣累積經驗,中科院軟體所出品...
- ReaGAN:讓圖中每個節點都成為智能推理專家...
- 阿里雲剛開源Qwen-Image,免費版GPT-4o吉卜力,中文最佳模型...
- Dualformer:透過隨機推理軌跡學習實現可控的快速與慢速思考...
- 新書推薦《重塑:當人工智慧重構知識經濟時誰將勝出》...
- Meta團隊突破:大型模型「幻覺」暴跌至5%!一句話提問竟成關鍵?...
- 使用AI撰寫程式碼效率反而下降19%!246項任務實測,16位資深程式設計師參與...
- 數學訓練如何「解鎖」大型模型的通用推理能力?最新研究揭示關鍵機制...
- 開發者遭 ChatGPT「趕鴨子上架」!AI 編造假功能,吸引大量用戶,被迫將其開發出來...
- 清華大學研究:再次翻轉?證實強化學習並未真正提升基礎模型推論能力!...
- 清華等提出 Absolute Zero 自博弈大型模型,完全零資料訓練仍登頂多項任務...
- Bengio親自戳破CoT神話!大型語言模型推論是假象,25%頂尖會議論文遭打臉...
- 大型模型首次直接理解程式碼圖:無需代理程式自動修復錯誤,榮登SWE-Bench開源模型榜單...
- 奧特曼遭萬字報告狂揭黑料,馬斯克怒斥:「騙子!」...
- AI「雙重人格」曝光,OpenAI 最新研究找到 AI 「善惡開關」,一鍵切換黑暗面...
- 邊畫邊想!多模態推理迎來巨大提升!...
- 本世紀最偉大AI專訪之一:AI安全、代理人、OpenAI等重要議題...
- 0% 通過率!程式碼神話泡沫化!LiveCodeBench Pro 正式發布!...
- 傳統RAG只會翻書卻不會運用?RAG+讓推理能力邁向新高度!...
- 下一代AI只需20瓦就能運作?科學家瞄準「類腦運算」...
- 4B Qwen3 逆襲 671B DeepSeek!字節跳動 DAPO 微調方法真有這麼猛嗎?...
- Nature 警告:AI「資料飢渴症」引爆學術網站癱瘓潮!90% 知識庫瀕臨崩潰...
- 爆肝一篇部落格就拿到 OpenAI Offer!Muon 作者怒揭:幾乎所有優化器論文都是「假的」...
- Midjourney 進軍影片生成,圖像模型 V7 持續更新,視覺霸主實至名歸...
- 全球程式設計師譁然!黃仁勳於倫敦放話:程式語言的未來是「Human」...
- 字節跳動Seed新作DeltaFormer:下一世代模型架構的嘗試...
- 越髒越安全?哈佛團隊最新研究:10%毒性訓練讓大型模型百毒不侵...
- LLM 已能自我更新權重,自適應、知識整合能力大幅提升,AI 覺醒了?...
- 多代理系統狂燒 Token!Anthropic揭露他們的發現...
- 自主AI代理人路線錯了!華人學者提出LLM-HAS:從「自主能力」轉向「協作智慧」...
- 重磅!Meta 開源最新世界模型 V-JEPA 2...
- 奧特曼:「溫和的奇點」降臨!AI最終掌控物理世界,2030年人類命運大轉折...
- OpenAI 最強推理模型 o3-pro 剛誕生!輾壓 Gemini 2.5 Pro!...
- 溫和的奇點|Sam Altman 最新雄文...
- 面壁MiniCPM4推論速度快3倍,碾壓同尺寸Qwen3,讓阿里巴巴也感到壓力了~...
- 史丹佛與紐約大學聯合研究:人工智慧與人類思維差異的驚人發現 —— 為何大型模型「聰明」卻不夠「智慧」?...
- 蘋果重磅論文出包!被指測試方法大有問題……網友:庫克該裁員了!...
- LeCun 有新證據!大模型與人類思考存在本質差異...
- AI 頭條:OpenAI Codex 新增網路存取權限,Mistral 釋出程式編寫助手...
- 35%準確率蒸發!字節跳動與華中科技大學WildDoc揭示多模態文件理解的強韌性短板...
- 晴天霹靂!蘋果最新研究證實:DeepSeek、o3、Claude 等「推論」模型根本不具推論能力...
- OpenAI升級高階語音功能:更像真人還能當隨身翻譯官...
- 全球30位頂尖數學家秘密集會圍堵AI,當場「破防」!驚呼已接近數學天才...
- 《人類大歷史》作者哈拉瑞:AI 是正在崛起的新物種!...
- 世界頂尖數學家對人工智慧在工作中的熟練程度感到震驚...
- 李飛飛最新訪談:世界模型即將「降臨」...
- 華頓商學院教授Ethan:我們真的在使用AI嗎?還是只是讓它填補空缺、節省成本、加速走向滅絕?...
- 《聖經》成書時間恐將改寫!AI竟發現《死海古卷》早於耶穌時代...
- 奧特曼:Codex 讓我感覺到 AGI!最新對談罕見透露下一代「完美模型」,大膽預測 AI 代理明年將突破界線!...
- 讓AI也能「權衡利弊」?DecisionFlow讓大型語言模型更理解高風險決策!...
- Agent Zero:能學習進化的開源免費智慧體...
- 深度研究也「白菜化」?Google 開源 Gemini 等級的 AI 研究能力...
- 模型越聰明越「不聽話」?MathIF基準揭示AI服從性漏洞...
- OPA-DPO:多模態大型模型幻覺問題的高效解決方案...
- 北京大學校友翁荔最新部落格:Why We Think...
- 兩年內打造 AI 軟體工程師!OpenAI Codex 作者解密人機結對程式設計新模式...
- LSTM之父22年前構想將成真?AI「自我演化」論文一週內集中發表,新趨勢湧現?...
- 深度報導|2.5億美元估值AI筆記Granola創辦人:AI使用習慣正在重塑我們的直覺;AI的作用應是增強而非替代人類...
- AI數學能力飆升100%,自進化逼近強化學習極限!CMU新作顛覆認知...
- 無需人工標註!AI自生成訓練資料,靠「演繹-歸納-溯因」解鎖推理能力...
- 速遞|Google 低調推出 AI Edge Gallery,開源在地端 AI 執行器...
- 網路女皇340頁《人工智慧趨勢報告》PPT...
- 與 Murray Shanahan 探討意識、推論與人工智慧哲學...
- Sakana AI新研究:具備自我編碼改進、自指開放式演化能力的達爾文-哥德爾機誕生...
- 史丹佛華人團隊爆冷門!AI用純CUDA-C編寫核心程式碼,竟然超越PyTorch?...
- AI IDE 正式上線!通義靈碼隨插即用...
- 大型語言模型數獨解不好?!Transformer 作者新創公司公布排行榜:o3 Mini High「變異數獨」正確率僅 2.9%...
- Andrej Karpathy 盛讚!史丹佛團隊新作,讓 Llama-1B 實現毫秒級推論...
- All-In Podcast 實錄:Gemini 引領「無限上下文」,AI 正從工具躍升為認知協作者...
- Llama 論文作者「出走」,14 人團隊僅剩 3 人,法國獨角獸 Mistral 成最大贏家...
- 阿里巴巴開源Qwen新模型,端午節禮物來囉!...
- 混合思維框架MoT讓模型學會「人類式思考」...
- 大型語言模型(LLM)能理解數學嗎?最新研究揭露大型模型的數學推理致命缺陷...
- 人類辯論能力不如GPT-4?《自然》子刊:900人實戰演練,AI勝率64.4%,且說服力更強...
- 深度|對話AI獨角獸Character.AI CEO:最佳應用尚未被發明出來,AI領域現狀類似煉金術,沒人確切知道什麼會奏效...
- 微軟AI公開「折磨」微軟員工,修復Bug唯一貢獻是改了PR標題,GitHub評論區成吃瓜現場...
- How Does Claude 4 Think? Senior Researchers Respond: RLHF Paradigm is Out, RLVR Proven in Programming/Mathematics...
- Quanta:Hopfield網路:催生AI的湧現物理學...
- 大模型首次打破圍棋思維「黑盒」,打通科學發現新路徑!上海AI Lab發布新一代InternThinker...
- Seed1.5-VL技術報告解讀...
- Gemini Diffusion:1500 token/秒,快如閃電!...
- 比Gemini Diffusion更全能!首個多模態擴散大語言模型MMaDA發布,同時實現強推理與高可控性...
- OpenAI放大招!核心API支援MCP,一夜改變智能體開發...
- AI是否知道什麼時候該"思考"?Thinkless教會大模型何時該動腦筋...
- 透過覺醒-睡眠貝葉斯程式學習不斷增長可泛化、可解釋的知識...
- GitHub Copilot 的 Agent 模式與 MCP 支援正式上線 JetBrains、Eclipse 和 Xcode!...
- 學者闡釋人類如何抵制人工智慧炒作,以及為何這至關重要...
- 谷歌AI核爆:升級全系模型,Gemini 2.5雙榜登頂!所有產品用AI重做,OpenAI如何接招?...
- 炸裂!谷歌I/O大會王者歸來:Gemini“世界模型”初現,搜尋“換腦”,一句話製作原聲電影...
- Nature子刊:人類又輸給了AI,尤其是當它知道你是誰時...
- 思考成為負擔:揭秘大型語言模型的「思考陷阱」...
- Google 可自我發現演算法 AlphaEvolve 的開源實現:OpenAplha_Evolve...
- 大型語言模型又曝致命缺陷:根本不會看時鐘!博士驚呆,準確率不及50%...
- Jeff Dean:一年內 AI 將取代初級工程師,網友:「Altman 只會畫大餅,Jeff 說的話才致命」...
- Google | 發布革命性編碼智能體:AlphaEvolve,突破數學極限!...
- AM-Thinking-v1:在32B規模推進推理能力的前沿...
- Thoughtworks 首席技术官:人工智能意味着我们比以往任何时候都更需要开发者...
- GPT-5研發內幕首曝!OpenAI首席研究官:AGI指日可待...
- Anthropic 聯創 Jack Clark 暢談 AGI:AI 正在影響我們的經濟成長...
- ZeroSearch:零搜索強化激勵模型潛能,LLM 搜索能力開啟新紀元...
- 史丹佛以弱馭強W4S:用Meta-Agent駕馭更強LLM,準確率提升至95.4%...
- 受大腦神經動力學啟發的新型AI模型...
- 「經驗時代」將在網路上釋放自我學習的 AI 代理 — 如何做好準備...
- JetBrains 開源其程式碼補全 LLM Mellum...
大語言模型
- 橫掃數學榜的LLM,卻忘了如何聊天?CMU等揭示SFT與RL的驚人差異!...
- 回顧Qwen3廢棄的混合推理模式...
- 繼ZeroSearch之後,通義最新力作MaskSearch提出推論搜尋預訓練新框架...
- 長推理≠高精準度!自適應切換「即時回答」與「深度思考」:節省 Token 與提升精準度的雙贏哲學...
- 打破思維鏈推理瓶頸!“軟推理”讓大模型學會人類抽象能力,token使用量還更少了...
- 北大、清華、UvA、CMU等聯合發布:大模型邏輯推理能力最新綜述...
- LLM 智能體為何表現欠佳?Google DeepMind 研究發現三大失敗模式,RL 微調可緩解...
- 中興通訊研究:LLM自適應題目難度分級蒸餾,讓小模型也擁有「長鏈思考」能力...