普通视图

发现新文章,点击刷新页面。
昨天以前唐巧的博客

理解大语言模型 - 读《图解 DeepSeek 技术》

作者 唐巧
2025年10月6日 22:06

最近收到图灵编辑刘美英老师赠送的《图解 DeepSeek 技术》,全书只有不到 100 页,而且配套了大量插画,让原本让人生畏的大语言模型底层技术,变得不那么难懂。

本书非常适合对于大语言模型零基础的读者,作为入门书籍。以下是我的一些笔记。

缩放定律(Scaling law)

深度学习的底层原理其实缺乏科学论证,最终只能用“涌现”这种现象来描述我们观察到的实验结果。这个实验结果就是:当我们提高模型规模的时候,模型的表现也会越来越好。

于是,我们通过三个要素来提升模型的规模,分别是:参数量、数据量和计算量(如下图)

我对“涌现”的理解:这个世界上很多事情都是从量变到质变,大模型“涌现”出来的智能,再一次体现了这种自然界常见的现象。比如:

  • 水在温度上升的时候,形态一直是液态,直到上升了 100 度,就开始沸腾,转化为气态。
  • 股市,前期积累的泡沫越来越大,最后泡沫破灭的时候,就会一下子跌特别多。

我对缩放定律的理解:缩放定律在自然界中也非常常见,很多变化不是线性的,而是幂律(power law)的。比如:

  • 财富的集中度。在美国前 10% 的人持有超过 90% 的财富。
  • 公司的营收排名。排名每上升一名,营收可能是下一名的 2 倍。
  • 明星或达人的收入。关注度每上升一位,收入可能翻翻。
  • 28 原理。决定一件事情的最主要的 20% 因素,占据了 80% 的权重。

深度思考

缩放定律把大家的精力都集中在堆参数量和堆算力上,但是研究人员发现,如果让模型在输出答案的过程中进行“长思考”,答案会变得显著得好。于是,除了在训练阶段发力外,我们通过让模型在生成答案时消耗更多资源,来提升答案的质量。这就是现在变得普遍的“深度思考”模式(如下图)。

在我的理解下,深度思考模式类似于《思考快与慢》一书中提到的人类的慢思考。人类大多数时候,是用直觉来决策的,因为这样效率最高,而且直觉通常来源于大量的经验(预训练),通常情况下是对的。但是,对于一些重大的决策,人类就会启动慢思考(深度思考),会花大量的时间和精力来论证自己的想法是否正确,以保证重大决策的质量。

蒸馏(Distill)

DeepSeek-R1 是一个拥有 6710 亿个参数的庞大模型,这使得部署和使用它都需要强大的硬件支持。但是 DeepSeek 创新性的开创了将自己的推理能力蒸馏到别的小模型(比如 Qwen-32B)上的方法。

具体来说,研究团队用 DeepSeek 当老师模型,让 Qwen 当学生模型。当两个模型接收到相同的提示词后,均需要输出一个词元概率分布。在训练过程中,学生模型需要紧密跟随老师模型的分布特征(如下图)。

以上过程在 80 万个样本的训练下,这些小模型学会了 DeepSeek 的思维方式,与蒸馏前相比,能力有大幅的提升。

在我的理解下,这也非常类似人类的“师徒学习模式”。我在计算机行业,我们行业的毕业生刚进企业的时候,都会有一个导师(mentor)进行一对一指导。最终帮助我们这些职场小白快速融入行业,写出高质量的代码。

以上。

但斌投资札记-读《时间的玫瑰》

作者 唐巧
2025年10月6日 20:00

想读一些价值投资者的书,于是就找到了这本但斌的《时间的玫瑰》。这是一本写于 2018 年的书,现在已经过了 7 年。当年的很多论断,随着时间的检验会更有意思。以下是一些读书感悟。

买入价格很重要

我们常说,买股票需要关注三点:好公司,好管理,好价格。在好价格这件事情上,但斌给我们举了一个例子,也是他自己血泪教训。

但斌说:如果你在 2007 年的高点买入茅台,那么需要 2016 年(9 年后)才能解套。中间还会经历两次 60% 的下跌。所以,即便是大家公认的好公司,如果你的买入价格不对,也是有很大的风险。

关注行业周期

但斌的这本书写在 7 年前,在 7 前年,有一些行业龙头公司是被价值投资者普遍认同的,比如房地产行业的万科,以及教育行业的好未来,但斌在书中多次提到这两家公司。但是我们现在来看这两家公司,就会发现两家公司都经历了价值毁灭的过程,他们都从最高点回撤了超过 80% 。

万科股价:

好未来股价:

回撤的背后,是房地产行业和教育行业整体的低迷带来的。即便是三好学生,如果在一个下坡路的行业,也是做不出什么好成绩的。

关注行业的周期,关注政策的变化,在合适的时候卖出,这也是《股票大作手操盘术》中我很认同的趋势投资观点,在本书中,我再次感受到趋势投资的重要性。

从分歧中学习

但斌在书中提到他参加伯克希尔股东大会的一段记录:一个来自旧金山的 17 岁少年问:成为一个好的投资者的最好方法是什么?

巴菲特回答说:尽可能多地阅读。你要把各种思想装进你的脑子里,随着时间的推移,分辨出哪些是合理的。一旦你做到这样了,你就该下水实践了。

我对此也有很强的认同。学习的第一步是尽量吸收信息,而阅读是一个很好地吸收高质量信息的渠道。当然,我也认为与人交流讨论,以及观察现场同样重要,这都是获得信息多样性的重要手段。

有了信息之后,通过思考和实践来分辨信息,最终把有效的信息沉淀下来,就能成为自己的宝贵经验。

我对获取信息的方法最近还有一个新的感悟,就是“反对性”的意见相对重要,因为人会自我强化自己的观点,所以对于反对观点容易忽视。这个时候,我们应该刻意去找反对性意见,在理解反对性意见的基础上,去解释为什么观点不一样。

反对意见在投资上,也代表着市场的分歧,如果我们能够理解正反两边的观点的同时,又能够看到未来正反观点的分歧消除点,那么就可能获得巨大的收益。

之前我想要获得分歧意见非常难,因为表达反对意见通常让人感觉尴尬。现在我有一个技巧:我会问大模型,让他帮我系统性地总结反对意见以及论证理由,这对我来说非常好用,分享给大家。

以上。

投机与趋势投资 - 读《股票大作手操盘术》

作者 唐巧
2025年9月17日 21:27

上个月见了一个老朋友:代码家。和代码家聊天的时候,他提到了趋势交易,他还推荐了《股票大作手操盘术》

该书的核心思想就是做趋势交易。具体做法是:在形成趋势前观望,在趋势确定建立后顺着趋势做空或做多,在趋势快要结束时,提前补仓或卖出。

我觉得该思想同样适用于长线操作:每家公司都有上升期和平稳期以及下降期。在公司上升期的时候加仓,平稳期的后期卖出,避免下降期的戴维斯双杀,会是非常重要的。

举例来说:

  • 房地产公司的上升期投资,相关的股票,即便是恒大,也涨很多。只要你在合适的地方卖出,你就不会亏。

  • 很多互联网公司的企业,在互联网泡沫期的估值很高。比如微博,哔哩哔哩,陌陌,包括粉笔公考,猿辅导。只要你在合适的地方卖出,也可以吃到很多的时代红利。但是如果你一直秉持长期持有,就可能不挣钱或者只挣很少的钱。

以下是微博的股价走势,现在的价格(12)比发行价(20)还低,但它曾经涨了 5 倍多。

以下是哔哩哔哩的股价走势,如果你买在高点,那么会亏 80%。

以上两个公司就是典型的“互联网”红利公司,在互联网红利期拥有巨大的股价泡沫,在红利结束的时候,股价回归理性。

我感觉趋势投资不是做短线的投机,而是把握时代的大势。做时代周期(5 年左右)的波段,抓时代红利企业,但是又很冷静,知道自己是投机,能看到卖出下车的时间点。

我们如果能够在互联网红利期,提前买入微博和哔哩哔哩这样的高用户量的产品。在红利结束前卖掉。我们假设卖在离最高点回撤 50% 的地方,也会有 2-4 倍的收益,整个持股周期在 2-3 年。

但说起来容易,执行起来还是挺困难的。比如下面是陌陌的走势,2014 年上市,2017 年股价才开始上涨,2018, 2019年均在年中大幅上涨,之后又回到 2017 年的价格。再之后就一路下跌,现在的价格是发行价的一半。

此书对我最大的价值,就是对价值投资与时代红利周期有了挂钩,之后在思考和判断公司的时候,除了思考价值层面的事情外,更应该思考时代的变化与周期。

以上。

读《真需求》

作者 唐巧
2025年3月8日 21:22

一、序言

最近读完了梁宁的《真需求》,在我看来,梁宁的角色更像是一个老师,因为老师喜欢给学生结论。可能她最有名的作品就是得到 App 上的《产品思维 30 讲》,所以她喜欢给解决方案,给框架。

什么是解决方案?就是给你说某某成功的核心原因是什么,再围绕一系列核心原因建立一个理论上的框架,于是所有的成功就来自于这个框架。学生掌握了这个框架,就理解了所有的生意。

这,确实很符合很多人的需求。

在这本书中,梁宁的解决方案是:价值-共识-模式框架。

但是说实话,我不太喜欢将创业之路极简化的叙事。这种形式虽然易于理解,但是不解决实际问题。真实的企业经营每天面对各种复杂的决策和执行,不是有一个好的生意框架就能当银弹的。极简叙事也简化了成功企业的归因,容易误导读者。

我更喜欢的是能够落地的思维。比如段永平的“不为清单”,“长期主义”,“做正确的事情”,虽然有点像什么都没说,但是更易于落地。

所以,本书的大部分内容对我来说帮助不大,但是我从另外的视角也从书中得到了一些启发,分享如下。

二、情绪价值的产品很重要

梁宁把产品价值分为功能价值+情绪价值+资产价值。我不同意这样的分法,因为这么分不太 MECE( 金字塔原理中的 MECE 原则,即 Mutually Exclusive Collectively Exhaustive)。

但是,我认为情绪价值是重要的商业产品。我的老板把这个叫做“无用之物”的生意。未来消费者会越来越关注自己,做悦己的选择,这方面的商业价值非常大。

三、从历史中思考

梁宁在书中问:如果你在 2012 年同时拿到当时的几个 offer,你应该如何选择?这几个 offer 是新浪微博,虎嗅,搜狐,微信,今日头条。

这是一个很有意思的问题,因为当时没几个人看得懂今日头条。就连投资机构都不投今日头条,更别说一个应届生会选择头条了。

但是这种思考角度让我意识到,其实这个世界的未知性是极强的,就算你是这个世界上最聪明的人,你也可能判断失误。

面对不确定性,构建好自己的反脆弱系统才是合理的应对方式。这事就像做资产配置一样,是我们应对变化和风险必须学会的生存技能。

以上。

个人投资的最佳实践 - 读《不落俗套的成功》

作者 唐巧
2025年2月23日 21:12

序言

本书的作者是耶鲁大学的投资总监大卫·F·斯文森,他管理着耶鲁大学140多亿美元的捐赠资产,并让耶鲁大学在过去的20年里的年收益率达到16.1%。

书中的内容不是很好消化,所以我断断续续读了将近一年时间,里面的很多道理对我在投资领域的成长帮助很大。

我主要的收获有:

  • 资产配置和再平衡的重要性
  • 高费率基金的长期收益问题

下面就这两点结合我自己的个人经历做个分享。

资产配置和再平衡

资产配置可能是每个人学习投资的第一课。这一点很多人都能理解。把自己的钱分为两大部分,一部分保证自己和家人的生活质量不受影响,另外一部分长期不用的闲钱再拿来投资。

对于投资的钱,也应该做好配置。有人把它分成股票,债券,黄金,现金四大类。在书中,作者将核心资产分成了 6 种,分别是:

  • 国内股票
  • 国外发达市场股票
  • 国外新兴市场股票
  • 房地产
  • 美国长期国库券
  • 美国通胀保值国债

但作者在美国,以上核心资产很多在中国并没有有效对标的标的。能对标的可以是 A 股和港股通股票,房地产,债券,QDII 基金等。

我习惯拿石墨表格把自己的资产分类,然后再看各类型的比例。一些简单有用的原则是:任何单一资产不要让它的占比超过可投资资产的 30%。

我在这方面犯过一个巨大的教训,曾经有一个资产在一段时间涨幅特别猛。有一段时间它的占比超过了 30%,这个时候我不但没有减仓,还额外追加了一笔投资。追高操作最终使得这笔追加款后来跌幅将近 50%。整体的盈亏虽然不大,但是追加款的损失把之前积累的利润都抵消了。这本应该避免。

正确的做法是做资产的“再平衡”。

对于每一个资产,定下计划的投资占比。当某个资产涨幅超过了占比一定幅度,就应该卖出一部分,让它恢复到原始占比。

同样的,如果某一笔资产它的价格大幅缩水,那么我们应该补仓,让它的占比恢复到之前的比例。

但是,以上两种操作非常反人性。人性是追高杀跌,而不是追跌杀高。所以我一直在试图修炼自己在这方面的心智。

之前巨大的亏损对我来说也是一个宝贵的经验教训,让我谨记资产配置的重要性。

高费率基金的问题

我之前持有了一些私募基金,有一些亏钱有一些挣钱,我也不知道应该怎么评估这些投资行为。

本书系统性的将美国市场的共同基金做了长达几十年的收益分析和解读,最终让我意识到:高费率的基金是不值得长期持有的。

这类基金的主要问题是:

  • 管理费和超额提成吃掉了一大部分收益
  • 在市场整体大幅上涨的时候,收益提成也会吃掉一大部分 beta 收益
  • 频繁通过高水位法提成,基金的波动就会让基金管理者挣钱,但是遇到深度回调的时候,这部分提成就会变成投资人的亏损
  • 基金管理者旱涝保收,即便基金下跌,管理费也不会少。即便基金规模扩大很多,管理费也不会打折。

另外,很多人其实不知道,大部分基金用 份额缩减法 来收取管理费和提成。这样在产品业绩图上,投资人其实一眼看不到费后收益。

以下是我的一个真实案例:

我持有的名字为金锝睿知 1 期(T18145)的产品显示,从它的发行开始日 22.2.22 开始到 24.12.27,这段时间的收益率是 22.82%(如下图)

但是如果我查看我的资金流水,我的两年持有收益率只有 16.5%,差了 6.3%(如下图)

我不是说这只基金不好,实际上它在过去两年的收益还是远高于 A 股沪深 300 指数的。但是你确实没办法一眼在产品资料里面看到真实的年化费后收益率。当然,问题不是针对这一只基金,大部分私募基金都是采用份额缩减法。

意识到以上这些之后,我赎回了几乎所有整体费率大于 1.5% 的基金。转而更多持有低费率的指数基金。

另外我也买入了一些我觉得不错的个股,比如腾讯,招商银行,比亚迪。对这些个股的生意的思考也让我的商业思维得到进步。

小结

《不落俗套的成功》是一本面向个人投资者的启蒙读物,作者通过大量详细的数据说明资产配置、再平衡的重要性,也让我意识到高费率的基金不值得长期持有。

以上。

❌
❌