• 验证码登录/注册
  • 密码登录

登录失败,用户名或者密码错误


备注:已注册帐号可切换到密码登录,初始密码为123456。
收不到验证码请联系微信客服:shifenyuedukf
登录

首页  > 快讯

月之暗面:一年前就验证过长思维链,因成本高先搞了长文本

3月前
【月之暗面:一年前就验证过长思维链,因成本高先搞了长文本】 2月17日上午消息,月之暗面研究员Flood Sung近日分享了k1.5 模型背后的完整思考过程,并透露称,2024年9月 12 号OpenAI o1 发布带来的震撼效果,令自己陷入了Long-CoT的有效性反思中。因为 Long-CoT 的有效性,其实在一年多前月之暗面Kimi联合创始人Tim周昕宇就验证过,使用很小的模型,训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的 CoT 数据做 SFT,就可以获得非常好的效果。“我依然记得当时看到那个效果的震撼。”Flood Sung表示,公司意识到 Long Context的重要性,所以率先考虑把 Context 搞长,但却对 Long-CoT 这件事情不够重视,其实主要还是考虑了成本问题。“Long Context 主要做的是长文本输入,有 Prefill 预填充,有 Mooncake 加持,成本速度可控,而 Long-CoT 是长文本输出,成本高很多,速度也要慢很多,在这种情况下,把输出搞长就没有成为一个高优选项。”(新浪科技)

最新快讯搜索

AI 中国 特朗普 汽车 新能源 st 悟空 比特币 降息 阿里 中信证券 茅台 涨停 半导体 OpenAI 股票交易异常波动 越南 美国大选 A股 理想汽车 智能驾驶 中信建投 中芯国际 黑神话 新能源汽车 电池回收 动力电池 腾讯控股 小红书 破净发 deepseek 投票 存量房贷利率 欣旺达 资产重组 中国平安 上交所 四连板 稀土 茅台酒价 宁德时代 房贷 贵州茅台 北汽蓝谷 存量房贷 蔚来 哪吒汽车 破净 大选 蜀道装备 以旧换新 泸州老窖 孚能科技 连板股 润和软件 江淮汽车 今日收评 贝莱德 上证指数 三连板 广交会 三元电池 白马股 寻呼机 曲江文旅 瑞幸咖啡 绝地求生 弹匣电池 3000点 黑神话:悟空 AI模型公司 AI出海 存量房贷下调 无人潜水器