普通视图

发现新文章,点击刷新页面。
今天 — 2025年9月7日资讯

高盛:美股多头继续押AI 空头担心增长和集中度 共识看多黄金

2025年9月7日 14:17
高盛市场调研显示,步入传统的“多事之秋”,全球机构投资者的市场情绪正呈现明显分裂。多头阵营继续追逐人工智能(AI)驱动的科技股涨势,而空头阵营则日益警惕经济增长放缓与市场集中度风险。在分歧之下,一个强有力的共识已经浮现:无论看多还是看空,做多黄金成为所有人的共同选择。与此同时,中国市场的关注度持续维持高位,62%的受访者计划维持或增加对中国股票的配置。(华尔街见闻)

民生证券:牛市或处中继再吸筹阶段

2025年9月7日 13:43
民生证券发布研报称,牛市或处中继再吸筹阶段。8月市场整体上涨,上证指数站上3800点创2016年以来新高;寒武纪单月涨幅达110.36%,股价一度超过贵州茅台成为新的“股王”。站在当下市场未来走势该如何判断,寒武纪大幅上涨后其估值反映了什么样的预期,该机构尝试从历史复盘的角度给出一些分析:从上涨驱动力来看,本轮牛市流动性为主导。今年以来的市场上涨主要由流动性宽松所驱动,A股景气度虽基本见底但仍处于较低位置。长周期维度看,在流动性没有明确收紧迹象之前,市场见顶的可能性相对较小。交易情绪来看,两融成交额占全市场成交比例持续攀升,市场交易热度高涨。市场交易存在过热现象,历史经验来看调整后短期内再大幅上涨概率较低,或进入中继再吸筹阶段,两融交易若热度骤减可能会对TMT等两融交易参与度较高的板块短期内产生一定冲击。(财联社)

快讯

2025年9月7日 13:26
欧盟钢铁制造商呼吁对低价进口产品征收关税,以避免行业崩溃。(新浪财经)

9月6日北京新房网签199套、二手房网签179套

2025年9月7日 12:50
北京市住建委官网数据显示,9月6日北京新房网签199套,网签面积11256.93平方米,其中住宅网签70套,网签面积7782.93平方米;二手房网签179套,网签面积14229.79平方米,其中住宅网签167套,网签面积13460.1平方米。(华尔街见闻)

下周逾966亿元市值限售股解禁

2025年9月7日 12:02
下周(9月8日至12日)共有40家公司限售股陆续解禁,合计解禁40.8亿股,按9月5日收盘价计算,解禁总市值为966.01亿元。其中,时代电气限售股解禁市值达278.23亿元,南网储能限售股解禁市值达230.81亿元。(财联社)

非洲航空峰会在卢旺达举行 “中国智造”成亮点

2025年9月7日 11:32
2025年非洲航空峰会于9月4日至5日在卢旺达首都基加利举行,与会嘉宾围绕非洲航空业面临的困境与科技带来的新机遇展开深入探讨。峰会期间,“中国智造”重磅亮相。中国首款获中国民航局“适航三证”认证的无人驾驶载人电动垂直起降飞行器,成功完成非洲首飞,成为本次峰会的最大亮点。(央视新闻)

九三阅兵:4款新鹰击导弹“反舰天团”盘点解读

2025年9月7日 11:31

谁也没想到九三阅兵,咱家一下子亮出4款从没露过面的鹰击反舰导弹:鹰击-15、17、19、20,三款高超音速导弹,一款准高超音速导弹。而且他们的技术、功能和用途都各不相同,能从天上、海面、水下一起招呼敌方舰艇,包括航母。

下载虎嗅APP,第一时间获取深度独到的商业科技资讯,连接更多创新人群与线下活动

近7万人爆仓,比特币交易额锐减近72%

2025年9月7日 11:13
比特币、以太坊等虚拟货币价格突然下跌, 成交额更是几乎全线重挫。 截至9月7日7:30,过去24小时内,比特币向下逼近11万美元/枚,成交额跌近72%,XRP成交量跌近70%,以太坊、SOL跌超60%。Coinglass数据显示,过去24小时加密货币市场共有6.7万人被爆仓,爆仓总金额为1.18亿美元。

GPT-4o 见 AV 女优的次数比「您好」还多 2.6 倍,AI 正在被中文互联网疯狂污染?

作者 张子豪
2025年9月7日 10:58

好家伙,我直呼好家伙。

号称「赛博白月光」的 GPT-4o,在它的知识体系里,对日本女优「波多野结衣」的熟悉程度,竟然比中文日常问候语「您好」还要高出 2.6 倍。

这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底:我们天天在用的大语言模型,有一个算一个,都存在不同程度的数据污染。

▲ 论文:从模型 Token 列表推测大语言模型的中文训练数据污染(🔗 https://arxiv.org/abs/2508.17771)

论文中把这些污染数据定义为 「污染中文词元」(Polluted Chinese Tokens,简称 PoC Tokens)。它们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在 AI 的词汇库深处。

这些中文污染词元的存在,不仅对 AI 来说是一种隐患,更是直接影响到我们的日常体验,被迫接受 AI 各种各样的胡言乱语。

▲ 要求 ChatGPT 重复「给主人留下些什么吧」,ChatGPT 根本不知道在回答什么。

中文互联网的色情赌博信息,怎么「污染」AI

我们可能都曾遇到过这样的情况:

  • 想让 ChatGPT 推荐几部经典电影、相关的论文等,它突然回了一堆奇怪的乱码网站名、打不开的链接、或者根本不存在的论文。
  • 输入一个看似普通的词语,比如「大神推荐」之类的,它有时候却吐出不相关的符号,甚至生成一些让人摸不着头脑的句子。

研究团队的解释是:这背后很可能就是 污染词元在作怪

我们都知道大语言模型的训练需要大量的语料,这些海量数据大多是从网络上进行爬取收集。

但 AI 注意不到的是,它阅读的网页中,竟然充斥着无数「性感荷官,在线发牌」的弹窗广告和「点击就送屠龙宝刀」的垃圾链接。久而久之,这些内容也成了它知识体系的一部分,并变得混乱。

就跟前段时间 DeepSeek 闹出的几起乌龙事件一样,先是莫名其妙的一封道歉信,然后再自己编造一个 R2 的发布日期。这些没有营养的营销内容,一旦被模型吸收,就很容易出现幻觉。

如果说,DeepSeek 出现这些幻觉,需要我们去引导模型;但「污染词元」,甚至不需要引导,AI 自己就乱了套。

什么是「污染词元」,它遵循「3U 原则」:即从主流中文语言学的角度看,这些词元是不受欢迎的(Undesirable)、不常见的(Uncommon),或是无用的(Useless)

目前主要包括成人内容、在线赌博、在线游戏(特指私服等灰色服务)、在线视频(常与盗版和色情内容关联)以及其他难以归类的异常内容。

▲ 大语言模型分词过程

那「词元」又是什么东西?和我们理解一段话不同,AI 会把一个句子分成多个「词元」,也叫 Token。你可以把它想象成 AI 专属的一本《新华字典》,而词元(Token)就是这本字典里的一个个「词条」

AI 在理解我们说的话时,一开始就需要先去翻这本字典。而字典的编纂者,是一种叫 BPE(字节对编码技术) 的分词算法。它判断一个词组,是否有资格被收录为独立词条的唯一标准,就是出现频率

这意味着这个词组越常见,就越有资格成为一个独立词元。

你或许能理解,这两年大语言模型流量正攀升的时候,豆包和稀土掘金曾经像是「疯了」一样,把自己平台 AI 生成的大量内容放到互联网上,提高自己的出现频率。以至于那段时间,用谷歌搜索,还有 AI 总结,引用的来源都是豆包和掘金。

现在,我们再来看研究人员的发现。他们通过 OpenAI 官方开源的 tiktoken 库,获取了 GPT-4o 的词汇库,结果发现,里面塞满了大量的污染词条。

▲ 长中文词元,全是需要打码的内容。

超过 23% 的长中文词元(即包含两个以上汉字的词元)都与色情或网络赌博有关。这些词元不仅仅是「波*野结衣」,还包括了大量普通人一眼就能认出的灰色词汇,例如:

在线赌博类:「大*快三」、「菲律宾申*」、「天天中*票」。在线游戏(私服)类:「传奇*服」。隐蔽的成人内容类:除了名人,还有像「青*草」这样表面正常,实则指向色情软件的词汇。

这些词元,因为在训练数据中出现频率极高,被算法自动识别并固化为模型的基本构成单位。

AI 吃了垃圾食品但不能消化

按理说,既然这些污染词元,它们的语料库是如此丰富,应该也能正常训练。

怎么就现在只要一跟 ChatGPT 聊到这些污染词元,ChatGPT 就 100% 出现幻觉呢?

像是下面我们测试的这个例子,要 ChatGPT 5 翻译这句话,它完全没有办法正确理解,这个北京赛车群也是无中生有。

其实不难理解,回到我们之前提到的「词元 Token」,我们说 AI 从互联网上读取数万亿词元的海量数据,一些集中、且反复地一起出现(频率高)的词语就能成为一个单独的词元。

AI 通过这些词元,来建立对文本理解的基础。它知道了这些 Token 是出现频繁、有可能相关,但不知道它们是什么意思。继续拿字典举例子,这些高频污染词在字典里,但是字典给不出解释。

因为 AI 在这个阶段,学到的只是一种原始的、强烈的「肌肉记忆」,它记住了 A 词元总是和 B 词元、C 词元一起登场,在它们之间建立了紧密的统计关联。

等到正式的训练阶段,大部分 AI 都会经过 清洗 + 对齐(alignment)。这时,污染内容往往被过滤掉,或者被安全策略压制,不会进入强化学习/微调。

不良内容的过滤,就导致了污染词元没有机会被正式、正确地训练。它们因此成了「欠训练」(under-trained)的词元。

另一方面,这些词元虽然「高频」,但它们大多出现在语境单一、重复的垃圾信息中(例如一些广告网页头尾横幅),模型根本学习不到任何有意义的「语义网络」。

最终的结果就是,当我们输入一个污染词元时,AI 的语义模块是空白的,因为它在正式训练阶段没学过这个词。于是,它只能求助于第一阶段学到的「肌肉记忆」,直接输出与之关联的其他污染词元。

▲ 论文中案例:当输入涉及 PoC 词语时,GPT-4.5、4.1 和 4o 的输出。GPT 无法解释或重复 PoC 标记。

这就解释了开头,当被要求一个可能是色情的词元「给主人留下些什么吧」时,GPT 可能会回复一个不相关的类似污染内容词元「黑*战」、以及一些看不懂的符号。在用户看来,这就是莫名其妙的幻觉。

以及下面这个要求 ChatGPT 解释「大发展有限公司官网」,回复的内容根本是乱来。

总结一下,污染 Token 出现频繁 ≠ 有效学习。它们集中在脏网页的角落、缺乏正常上下文,而在后续训练和对齐阶段又被压制,结果就是 词表固化了垃圾,但语义训练缺失

这也导致了我们日常在使用 AI 的时候,如果意外有涉及到相关的词语,AI 会没有办法正确处理,甚至还有人通过这种方法,绕过了 AI 的安全监管机制。

这是可以被量化的幻觉原因

既然如此,为什么不在预训练的时候就把这些脏东西筛掉呢?

道理都懂,但做起来太难了。互联网的原始数据量级之大,现有的清理技术根本不可能把它们一网打尽。

而且很多污染内容非常隐蔽。就像「青*草」这个词,本身看起来完全绿色健康小清新,任何简单的关键词过滤系统都会放过它。只有通过搜索引擎,才会发现它指向的是什么。

连 Google 这种搜索引擎巨头都搞不定这些「内容农场」,更别说 OpenAI 了。

我前段时间想用 AI 整理一下广州有哪些好玩的地方,然后发现 AI 引用的一篇文章来源,是另一个 AI 账号生成的文章。

一时间,我都有点分不清,究竟是我们每天搜索「波多野结衣」搞脏了 AI,还是 AI 生成的垃圾正在污染我们的内容环境。这简直就是个先有鸡还是先有蛋的问题。

▲ 标记方法

为了搞清楚这盆水到底有多浑,研究团队开发了两个工具:

1. POCDETECT:一个 AI 污染检测工具。它不只看字面意思,还会自己上网 Google,分析上下文,堪称 AI 界的「鉴黄师」。

利用这个工具,研究团队对 9 个系列、共 23 个主流 LLM 进行了检测,结果发现污染问题普遍存在,但程度各不相同。除了 GPT 系列以 46.6% 的长中文词元污染率遥遥领先外,其他模型的表现如下:

▲ 不同大语言模型中,中文词汇表中 PoC 词元的数量(比例 %)(一个词元包含超过两个汉字)。Qwen 系列 为 1.00%。GLM4 和 DeepSeek-V3 的表现则相当不错,分别只有 0.25% 和 0.17%。

最值得关注的是,GPT-4、GPT-4-turbo 和 GPT-3.5 这些模型的词汇库中,污染词元数量为 0。这可能意味着它们的训练语料经过了更彻底的清理。

所以当我们拿着前面那些,让 ChatGPT 开启了胡编乱造模式的问题,给这些模型再问一遍时,确实没再出现幻觉,但是直接忽略了。

2. POCTRACE:一个能通过词元 ID 反推其出现频率的工具。原理很简单,在分词算法里,词元的 ID 号越靠前,说明它在训练数据里出现得越多。

关于文章开头我们提到的 2.6 倍,就是通过这个工具进行计算得到的。

在 GPT 的海量词汇库中,能够被完整收录为一个独立词元的人名凤毛麟角,除了「特朗普」(Donald Trump)这样的世界级公众人物,就剩下极少数特例,而「波*野结衣」就是其中之一。

更令人惊讶的是,不仅是全名,甚至连它的子序列,如「野结衣」、「野结」也都被单独做成了词元。这在语言学上是一个极强的信号,表明这个词组在训练数据中的出现频率达到了一个恐怖的量级。

▲ 将与「波*野结衣」相关的网页以及作者估计的比例(0.5%)混合,可以重现 GPT-4o 中「波*野结衣」的标记 ID 及其子序列。

他们输入「波*野结衣」(Token ID 185,946)和「您好」(Token ID 188,633)的 ID 号,最终得出了那个惊人的结论,前者的频率估算值约为后者的 2.6 倍

这篇论文通讯作者,清华教授邱寒教授告诉 APPSO,与「波*野结衣」相关的中文网页,占据了整个 pre-train 语料库的 0.5%——而 4o 里的中文语料占比,预估在 3-5%。因此,4o 的 pre-train 语料库的中文污染情况,实际上可能极其夸张。

论文里进一步推算出,要想达到这样的频率,与「波多野结衣」相关的污染网页,可能需要占据了 GPT-4o 整个中文训练数据集约 0.5% 的庞大份额

为了验证,他们真的按这个比例「投毒」了一个干净的数据集,结果生成的词元 ID 和  GPT-4o 的惊人地接近。
这几乎是实锤了。

但很显然不是每个污染词源都需要出现这么多次,有些时候,几篇文章(甚至可能是 AI 写的),反反复复地提到,AI 就记住了,然后再下次我们问他的时候,给出一个根本不知道真假的答案。


添加一个对抗样本,AI 能把雪山识别成一只狗

当我们和 AI ,都在「垃圾堆」里冲浪

为了应对数据污染,大家也确实都想了很多办法。

财新网就很聪明,在自己的文章页面里用代码「偷偷」藏了一句话,好让 AI 在搬运内容时,能老老实实保留原文链接。Reddit、Quora 等社区也曾尝试限制 AI 内容。

但面对数据污染的汪洋大海,这些行为显然都只是螳臂当车。

就连奥特曼自己都发文感慨,X(推特)上的 AI 账号泛滥成灾,我们得认真思考「互联网已死」这种论调了。

而我们这些普通用户,看起来更是别无他法,每天被迫接受着垃圾信息的轮番攻击。马斯克老说 AI 是个无所不知的「博士」,没想到它背地里天天都在「垃圾堆」里翻东西吃。

有人说,这是中文语料库的问题,用英文 Prompt 模型就会变聪明。Medium 上有作者统计过统计了每种语言的 100 个最长 token,中文全是我们今天聊的这些色情、赌博网站。

而英文的分词和中文不同,它只能统计单词,所以都是一些较长的专业性、技术类单词;日文和韩文都是礼貌性、商业服务类词语。

▲ 中文 Token 前 100 部分词元列表

这十分令人感慨。AI 的能力,除了靠算力和模型堆砌,更深层次的,还是它吃进去的数据。如果喂给 AI 的是垃圾,那无论它的算力多强、记忆力多好,最终也只会变成一个「会说人话的垃圾桶」。

我们总说,希望 AI 越来越像人类。现在看来,某种程度上确实是实现了:我们把互联网这个大垃圾场里的东西源源不断投喂给它,它也开始原封不动地回敬给我们。

如果我们给一个 AI 造一个信息茧房,让它在「无菌环境」中长大,它的智能也是脆弱的、经不起考验的。一个孩子如果只被允许接触教科书里的经典课文,他永远无法应对生活里五花八门的口语和俚语。

说到底,当 AI 对「波多野结衣」比对「您好」更熟悉时,它不是在堕落,而是提醒了我们:它的智能,依然只是统计学上的概率,而非文明意义上的认知。

这些污染词元就像一面放大镜,它将 AI 在语义理解上的缺失,以一种荒诞方式呈现在我们面前。AI 离「像人一样思考」,还差着最关键的一步。

所以,我们真正应该害怕的,不是 AI 被污染,而是害怕在 AI 这面过于清晰的镜子里,看到了我们自己创造的、却又不愿承认的那个肮脏的数字倒影。

#欢迎关注爱范儿官方微信公众号:爱范儿(微信号:ifanr),更多精彩内容第一时间为您奉上。

爱范儿 | 原文链接 · 查看评论 · 新浪微博


招商证券:中报后业绩上修集中在医药、TMT和中高端制造等

2025年9月7日 10:53
招商证券发布研报称,上市公司中报业绩披露前后,盈利上修的个股主要集中在医药(化学制剂、医疗研发外包、其他生物制品、原料药)、TMT(数字芯片设计、IT服务Ⅲ、垂直应用软件、通信网络设备及器件、游戏Ⅲ、印制电路板、模拟芯片设计)、中高端制造(底盘与发动机系统、其他专用设备、能源及重型设备、航空装备Ⅲ、锂电池),以及证券、铜、农药、其他化学制品、火电等。(财联社)

科大讯飞与昭通市人民政府签署战略合作协议

2025年9月7日 10:34
据科大讯飞集团消息,9月6日,科大讯飞股份有限公司与云南昭通市人民政府战略合作协议签约仪式在科大讯飞合肥总部举行。下一步,双方将加速推进务实合作,以此次协议签订为重要契机,在数字经济产业园及数据标注基地建设、人工智能应用等领域务实开展深度合作。(界面新闻)

中国央行连续第10个月增持黄金

2025年9月7日 10:17
据中国央行,中国8月末黄金储备7402万盎司,7月末黄金储备报7396万盎司,为连续第10个月增持黄金。 中国8月外汇储备 33221.54亿美元,前值32922.4亿美元。(华尔街见闻)

8月末我国外汇储备规模为33222亿美元,较7月末上升299亿美元

2025年9月7日 10:16
国家外汇管理局统计数据显示,截至2025年8月末,我国外汇储备规模为33222亿美元,较7月末上升299亿美元,升幅为0.91%。 2025年8月,受主要经济体货币政策预期、宏观经济数据等因素影响,美元指数下跌,全球金融资产价格总体上涨。汇率折算和资产价格变化等因素综合作用,当月外汇储备规模上升。我国经济运行稳中有进,展现出强大韧性和活力,为外汇储备规模保持基本稳定提供支撑。(界面新闻)

金融业年内最大罚单开出,华夏银行最新回应

2025年9月7日 10:15
金融监管部门开出今年以来金额最大罚单!9月5日下午,金融监管总局官网披露多条行政处罚信息,华夏银行、浙商银行、建信投资三家金融机构受到行政处罚,工商银行原职员李某、易某彬2人均遭到禁业处罚。其中,华夏银行因相关贷款、票据、同业业务管理存在多项违规,遭监管罚款8725万元,这也是2025年至今开出的金额最大的金融业罚单。券商中国记者从华夏银行获悉,该罚单系金融监管总局2023年对该行开展风险管理及内控有效性现场检查之后,开出的行政处罚的决定书。华夏银行回应称,对于监管部门的处罚决定,该行诚恳接受;对于监管处罚问题,该行高度重视,将分析问题成因、落实各项整改指施,并对相关责任人员进行严肃问责。(证券时报)

万能险结算利率下调,多数不超3%

2025年9月7日 10:03
截至9月5日,共有近300只万能险产品披露8月结算利率。其中,年结算利率超过3%的万能险产品共有24只,个别产品的年结算利率最高达到3.5%。整体来看,大部分万能险产品的年结算利率不超过3%,约85%的产品年结算利率在2.5%—3%区间。和7月相比,部分万能险产品的结算利率有所下调。近年来,万能险结算利率一直处于下降趋势。2024年同期,大部分万能险产品的年结算利率在3%及以上,最高为3.5%;2023年同期,数百只万能险产品的年结算利率高于4%。万能险结算利率的走势与市场利率走势相关,目前10年期国债利率、存款利率与LPR(贷款市场报价利率)仍处于下行通道,万能险结算利率仍存在下行空间。(中证报)
❌
❌