普通视图

发现新文章,点击刷新页面。
今天 — 2025年10月14日首页

约印15亿医疗大健康产业基金顺利落地:政企携手,为医疗产业创新注入强劲动能

9月30日,深耕医疗投资领域十余载的约印医疗基金,迎来发展历程中的关键里程碑——其第五期人民币综合基金“约印新源(成都)股权投资合伙企业(有限合伙)”,正式完成中国证券投资基金业协会备案手续,并同步启动对外投资工作。据悉,该基金总规模达15亿元人民币,出资方阵容堪称行业标杆,汇聚了成都市交子产业基金及高新区策源资本、北京经开区政府投资产业引导基金、横琴粤澳深度合作区产业投资基金、无锡惠山经济技术开发区引导基金、江西赣江新区现代产业引导基金、启东金北翼母基金等七家来自全国核心区域的顶尖央、国企机构。

此次资本联动横跨成渝、京津冀、粤港澳大湾区、长三角及中部核心经济圈四大核心经济区,不仅为约印医疗基金的专业投资能力提供了权威背书,更标志着“国资力量+专业投资机构”协同赋能医疗产业创新的模式探索,成功迈出关键性一步。

十年磨一剑:构建“投融退”闭环,约印医疗基金的投资方法论

能吸引全国核心区域国资机构集体入局,约印医疗基金的成功并非偶然。自2015年成立以来,其在医疗投资赛道持续深耕,逐步沉淀出“投得准、陪得好、退得出”的完整投资逻辑,这正是产业伙伴与被投企业选择与之深度合作的核心基石。

在投资判断环节,约印医疗基金始终摒弃短期热点追逐,坚定锚定“临床需求、技术壁垒、产业链适配”三大核心维度,以此筛选具备长期价值的优质项目。从医疗行业本质出发:在临床需求层面,优先布局能解决医生诊疗痛点、填补患者治疗空白的项目;在产业链适配维度,既关注项目在细分领域的核心竞争力,更考量其与上下游资源的协同潜力,确保投资标的能深度融入产业生态,实现可持续发展。

对被投企业而言,约印医疗基金不仅是资本供给方,更是紧密携手的“成长合伙人”。医疗领域创业者多为科学家或医生出身,虽擅长技术研发,却在市场运营、企业管理等方面存在短板。针对这一痛点,约印主动提供全周期赋能:协助企业搭建核心团队、制定发展战略、对接关键临床资源;为破解“集采应对”“出海合规”等行业共性难题,专门打造“印课堂”,邀请行业专家开展实战教学;同时推动被投企业间共享供应链与渠道资源,实现资源互补、互利共赢。

扎实的退出能力,更是约印医疗基金赢得投资人信任的关键。成立十年来,其投资项目中已有37家顺利进入下一轮融资,2家完成并购退出,泛生子(GTH)、东星医疗(301290)、亚虹药业(688176)等多家企业成功登陆资本市场。这份亮眼的投资成果,助力约印医疗基金跻身众多国资LP的优质合作清单,而“投前严选+投后深耕+退出顺畅”的完整闭环,也精准契合了国资机构对“投资确定性”的核心诉求。

图源:约印医疗基金

跨区联动:7大国资的“产业布局棋盘”

此次与约印医疗基金携手的7家国资LP,均为各自区域内产业投资的骨干力量。它们最终选择约印,核心是看中“专业机构操盘+产业资源协同”所带来的双赢空间。

成都交子金控集团作为成都市属大型金融国有企业,成都交子金控集团深入落实市委、市政府“突出机构聚集、服务提质,在加快建设西部金融中心上促发展”等系列决策部署,坚守“传承交子精神、服务实体经济”的初心使命。截至目前,集团旗下“交子系”基金已设立50余支子基金,在蓉备案规模约1307亿元,已投资国家专精特新企业超过500余家,投资培育上市公司90余家,已投资招引成都企业超过180余家,组建了国家中小企业子基金、工银AIC、建银AIC、中赢国家科创协同母基金等一批国家级、国家试点子基金,撬动省域外资金数百亿。

策源资本成立于2022年8月,是成都高新投资集团有限公司全资设立的一级子集团。策源资本围绕电子信息、医药健康和数字经济等成都高新区三大主导特色优势产业,聚焦战略性新兴产业、未来产业,助力构建“3+6+6”现代化产业体系。“加快发展新质生产力,扎实推进高质量发展是新时代的硬道理”,策源资本作为区域重点产业投资平台,将始终坚持初心,不忘使命,充分发挥引导基金的撬动作用,与社会资本形成良性互动,在深度和广度上,促进产业转型升级,促进区域经济高质量发展。

北京经济技术开发区政府投资引导基金成立于2023年1月,规模为100亿元,是经开区出资设立的母基金,聚焦经开区四大主导产业、六大未来产业等符合经开区产业定位和相关产业政策的企业,重点关注产业链提升、强链补链、自主创新。经开区引导基金通过与市场化投资机构合作共建子基金,深入挖掘投资机会,共同保障生物技术与大健康产业高效快速发展。

中金资本作为中金公司的私募投资基金业务运营管理平台,从事境内外私募股权投资基金业务,是中国领先、具有国际影响力的综合性私募股权投资管理机构。中金资本致力于成为一个拥有强大的品牌影响力、出色的融资及投资能力和完善的中后台管理能力的私募基金管理平台,管理的基金类型涵盖人民币股权投资基金、人民币母基金、美元股权投资基金、不动产基础设施基金等。

无锡惠山经济技术开发区引导基金立足于区域产业发展战略和禀赋,围绕生物医药、高端装备、新能源新材料、数字信息以及人工智能、人形机器人、空天经济等未来产业,以“母基金 + 直投”双轮驱动,累计与源码资本、中金资本等合作设立子基金36支,总规模超330亿元,带动股权投资资本集聚615亿元;累计直接股权投资项目66家,总投资金额超50亿元,投资了云鲸智能、雷鸟创新、58HRG、图达通等明星企业,收获了时代天使、上能电气、阿特斯、海达尔等多家上市企业。

江西赣江新区现代产业引导基金(有限合伙)始终锚定“服务新区战略、赋能实体经济”的核心使命,深度融合赣江新区光电信息、高端装备制造、生物医药、新能源新材料等主导产业,通过“基金+项目+生态”的创新模式,精准导入头部企业、培育独角兽项目、激活产业链创新动能。

多方共赢:打造“国资资源+企业创新”生态闭环,解锁医疗创新新路径

对于这支规模15亿元的新基金,约印医疗基金并未局限于“找项目、投资金”的传统模式,而是着力构建“国资资源+企业创新”的生态闭环,进而有效推动区域医疗产业的蓬勃发展。

在资本布局上,约印医疗基金将持续聚焦两大核心方向:一是深耕精准医疗、高端器械等领域,手握核心专利、能破解“卡脖子”技术难题的硬科技企业;二是具备国产替代能力且已成功打开国际市场的头部项目——在当前国内医疗市场竞争加剧的背景下,具备出海潜力的企业无疑拥有更广阔的成长空间。

在资源整合层面,“资源串联”是约印医疗基金的核心打法。对被投企业而言,可通过这一机制快速对接研发、生产、临床等跨领域资源,大幅降低发展中的探索成本,加速技术落地与产品迭代;同时,约印还会根据企业不同发展阶段的需求,提供政策解读、合规咨询等配套服务,帮助企业规避潜在风险,稳健前行。

当前,医疗健康产业正处于政策支持与技术突破双重叠加的战略机遇期。约印医疗基金与七家重量级国资机构的携手,不仅实现了15亿元基金的顺利落地,更开启了“政企协同”赋能医疗创新的崭新实践:专业投资机构负责精准筛选项目、深化投后服务,国资力量则搭建合作平台、导入核心资源,最终推动资本深度赋能医疗创新,让产业升级的价值红利惠及更广泛人群。

昨天 — 2025年10月13日首页

国庆中秋民宿游热度高涨,现存民宿相关企业超35.6万家

近日某OTA平台数据显示,今年国庆中秋假期,民宿订单量同比增长20%。除了传统热门旅游城市,景德镇等小城凭借独特风景与网红效应成为“黑马”,民宿订单增长显著,跻身全国订单TOP30城市。

八天长假为跨省、跨市长线游创造条件,途家数据显示,跨省入住民宿订单同比增1.1倍,跨市订单增85%,“多地打卡”型订单占比近五成。内蒙古、新疆、东北等赏秋目的地,因独特秋景和网红场景,成为热门之选,多地民宿订单量翻倍。

天眼查专业版数据显示,截至目前我国现存在业、存续状态的民宿相关企业超35.6万家。从区域分布来看,浙江省、广东省、云南省民宿相关企业数量位居前列,三个省市数量总和超过10万余家,占企业总数的28.09%。

作为国内领先的商业查询平台,天眼查依托海量商业大数据,结合天眼风险、工商信息、任职信息、股东信息、股权全景穿透图、最终受益人、主要人员等多维度数据,实现从风险洞察到风险预警的全面管控,能快速了解并分析民宿产业的发展现况与未来趋势。

国庆中秋旅游“量价齐升”,现存旅游相关企业近260万家

今年国庆中秋假期带动长线游走强。多家OTA平台数据显示,国内游、出境游订单量明显增长。携程方面,国内长途游订单占比提升,出境长线游受热捧,欧洲多地订单翻倍;去哪儿方面,热门城市酒店预订量、出境机票预订量同比增幅可观。

从目的地看,国内游中北京、成都等地热门,出境游日本、泰国等国家受青睐,欧洲深度游订单增长明显。此外,旅游客单价也有所提升,飞猪数据显示假期出行客单价同比提升14.6%,体现出游客对高品质旅游体验的更高接受度。

节后将迎来旅游淡季,国内游价格回落,部分热门线路降幅超50%。有旅行社已开始布局春节年夜饭产品,如春秋旅游将开启2026年年夜饭预售。节后错峰出境长线游订单量同比已翻倍,充分展示了文旅消费的活跃。

天眼查专业版数据显示,截至目前我国现存在业、存续状态的旅游相关企业超259.9万家。其中,2025年截至目前新增注册相关企业约28.1万余家,从企业注册数量趋势来看,近五年间,除了2022年呈现出显著下降态势外,旅游相关企业的注册数量始终处于高位增长水平。

从区域分布来看,贵州省、广东省、山东省旅游相关企业数量位居前列,三个省市数量总和超过63.6万家,占企业总数的25.5%。

作为国内领先的商业查询平台,天眼查依托海量商业大数据,结合天眼风险、工商信息、任职信息、股东信息、股权全景穿透图、最终受益人、主要人员等多维度数据,实现从风险洞察到风险预警的全面管控,能快速了解并分析旅游产业的发展现况与未来趋势。

中秋国庆租车市场创新高,现存租车相关企业超86.5万家

近日,2025中秋国庆自驾趋势报告发布。自8月15日开放国庆租车预订以来,预订量持续攀升,超四成用户提前一个月锁定行程,“早规划、早锁定”成共识。今年双节叠加8天超长假期,“拼3休12”方案走热,租车市场迎来新一轮预订热潮。

出行需求从“短途周边游”向“深度跨城游”延伸,用户平均租期延长至5.2天,8天以上长租订单同比增超30%。乌鲁木齐、西宁等西北、东北城市成热门,西宁-敦煌等跨城路线预订量领跑。

租车年轻化特征明显,05后、00后、90后用户占比超50%,主导出行决策,偏好灵活路线和新能源车型。新能源车型订单较往年大幅提升,用户对绿色出行和智能化体验的偏好增强。

天眼查专业版数据显示,截至目前我国现存在业、存续状态的汽车租赁相关企业超86.5万家。从区域分布来看,广东省、山东省、江苏省汽车租赁相关企业数量位居前列,分别拥有超9.3万余家、7.5万余家和6.7万余家。

作为国内领先的商业查询平台,天眼查依托海量商业大数据,结合天眼风险、工商信息、任职信息、股东信息、股权全景穿透图、最终受益人、主要人员等多维度数据,实现从风险洞察到风险预警的全面管控,能快速了解并分析汽车租赁产业的发展现况与未来趋势。

昨天以前首页

南京建邺区“AI+硬科技”创新发展推介会圆满举办

9月25日,南京建邺区“AI+硬科技”创新发展推介会成功举办。本次活动由南京建邺高新区管委会、南京金鱼嘴基金街区发展中心主办,聚焦AI+硬科技赛道的前沿趋势、投资方向及产业机遇,搭建资本与优质项目的精准对接平台,加速创新成果落地转化。

南京建邺高新区管委会主任 侍得广、南京建邺区发改委党组副书记、副主任,金鱼嘴基金街区发展中心主任 任媛媛、南京建邺区招商服务中心副主任 丁娟、南京建邺高新区管委会副主任 薛景彬等领导出席大会,与3家顶尖投资机构代表,8家AI+硬科技未来独角兽企业共聚一堂,现场交流务实高效,对接氛围热烈。

开场,南京建邺高新区管委会主任 侍得广为本场活动致辞。建邺区是南京人口结构最年轻的城区,常住人口中超四成为17-40岁人群,每年净增2万余名“高层次+高学历+高净值”的年轻新居民。近年来,建邺区聚焦AI+硬科技核心赛道,集聚万得资讯、烽火星空、文远知行、百川智能等高能级人工智能企业。阿里、小米、京东、腾讯、网易等头部企业布局区域总部。

2021年建邺区揭牌成立全国基金街区中首个资本要素撮合平台——金鱼嘴每日路演,着力打破金融与产业间的信息壁垒,引导金融活水激发实体经济活力。目前已集聚近200家股权投资机构,在管基金规模超4500亿元,累计投资企业近4000家。期待更多资本与项目到大美河西,一同建功立“邺”!

南京建邺高新区管委会主任 侍得广

盛景嘉成主管合伙人 王晓辉、长石资本创始合伙人 汪恭彬、水木创投创始合伙人 吴 勇围绕《AI+硬科技的产业投资逻辑》进行了深入的话题研讨。

王晓辉表示,盛景嘉成有母基金和直投基金,目前母基金覆盖的IPO企业达到265家,直投基金一直坚持投早、投小、投科技,现在深入前沿产业做投资,已有近20家企业成功上市。

产业发展规律通常是,每次技术进步带来基础设施成熟之后,上面有硬件的载体渗透,而后有多种应用的爆发。至于AI的机会也是一样,其中有时间发展的序列和技术关键点的迭代,AI互联网时代也一定会有新的载体,他们会更轻、更小、更沉浸、更方便,目前看诸如AI+AR眼镜等有很大机会,我们在这个赛道已经提前布局且开始有收获了。

盛景嘉成主管合伙人 王晓辉

汪恭彬表示,长石资本围绕智能手机、智能汽车和具身智能的产业链投硬科技,第一只基金已投24个项目,上市11个。

从基础设施对AI的贡献来看,上游的芯片材料有很多机会;自动化程度比较高的工厂,如何借助AI让生产工具和生产效率提升也存在一些机会,目前机器人跟场景的结合还有待进一步提高。相比2017、2018年,现在对于创业者的要求更高,第一,战略能力,可以分析市场、未来的可能性以及天花板有多高;第二,组织能力,可以带领各个方向都比较强的一群人往前走,需要比较强的分享精神;第三,在技术能力上需要具备稀缺性。

长石资本创始合伙人 汪恭彬

吴勇表示,水木创投2012年聚焦投早投小投科技,围绕高校、院所、科技转化投资,围绕早期的种子轮、天使轮、A轮的阶段,硬科技类的项目累计投了140多个项目,有多家上市公司。

水木创投10年前开始做AI相关的投资,包括语音识别等方面。这几年投了具身智能、灵巧手、AI医疗诊断、药物筛选,汽车设计模型,以及最重要的基础设施——算力等方向项目。AI是一个非常有前景的方向,在各行各领域都有机会应用,现在萌芽阶段,迭代很快,很难判断哪个领域最先跑出来。他提醒创业企业,能找到真实的应用场景,进行快速迭代。作为投资人要选最好的团队,最好的方向才能争取同路人。

水木创投创始合伙人 吴 勇

本次活动邀请了埃瓦科技、犀灵视觉、星衍智能、尖叫智能、亿麦矽、丰坦机器人、临一云川、连信数字等8家在AI+硬科技赛道上成绩斐然的未来独角兽企业进行分享,展示他们在硬科技创业中跨行业、跨学科的融合和创新,以及如何在激烈的市场竞争中实现差异化和优势定位。

南京市正全力建设引领性国家创新型城市和人工智能创新发展试验区。其中建邺区作为南京现代化国际性城市中心、金融集聚区和数字经济高地,坐拥建邺高新区等核心板块,汇聚了丰富的金融资本、科创企业和人才资源,致力于打造国内一流的科技创新生态圈。发展“AI+硬科技”,不仅是建邺区落实国家创新驱动发展战略、响应南京市创新部署的重要举措,更是构建区域现代化产业体系、提升核心竞争力的内在要求。

未来,南京建邺区将吸引股权投资机构与更多优秀企业互动,打造优质创投环境,以成熟、包容、高质量的金融环境,让更多资金向科技创新领域集中,深度链接AI+硬科技等科创型企业。

融资丨乐享科技完成2亿元新融资,锦秋基金领投

9月28日,消费级具身智能机器人企业 ---苏州乐享智能科技有限公司(以下简称 “乐享科技”)正式宣布完成 2亿元“天使++”轮融资。本轮融资由钟鼎资本领投,老股东 IDG 资本持续加投,资金将主要用于自研核心零部件攻关、机器人本体与运动控制技术开发及意识仿生模型迭代等,目标加速消费级具身智能产品规模化落地。

这是乐享科技自成立以来 9个月内完成的第三轮融资。截至目前,公司天使轮融资总金额已接近 5亿元。

乐享科技官宣完成2亿元天使++轮融资,天使轮融资总金额近5亿元,持续聚焦消费级具身智能产品研发

9月28日,消费级具身智能机器人企业 ---苏州乐享智能科技有限公司(以下简称 “乐享科技”)正式宣布完成 2亿元“天使++”轮融资。本轮融资由钟鼎资本领投,老股东 IDG 资本持续加投,资金将主要用于自研核心零部件攻关、机器人本体与运动控制技术开发及意识仿生模型迭代等,目标加速消费级具身智能产品规模化落地。

此前,乐享科技曾于2025年5月完成一轮融资,由锦秋基金领投。

这是乐享科技自成立以来 9个月内完成的第三轮融资。截至目前,公司天使轮融资总金额已接近 5亿元。

乐享科技创始人郭人杰出生于1997年,15岁就读于西安交通大学少年班(能源与动力工程方向)、金禾经济研究中心,研究生毕业于伦敦政治经济学院经济学专业,曾任追觅中国区执行总裁,三年达成年营收60亿,管理团队超1500人。创立乐享科技以来,将具身智能技术与百亿营收的消费级机器人经验结合,力图打造出全球首款应用于消费级场景的具身智能产品。

技术 + 经验双驱动,构建消费级具身智能核心竞争力

乐享科技始围绕顶尖人才构建核心竞争力,目前,乐享科技团队规模已扩展至90人,其中研发人员占比超过80%,形成了一支以产品为导向的高效技术团队。核心研发成员均毕业于清华大学、浙江大学、中国科学院、加州大学伯克利分校、卡耐基梅隆大学等国内外顶尖高校及科研机构。

更值得关注的是,团队近期吸引了来自多家世界顶级人工智能研究机构的顶尖人才加盟,在高精度运动控制、多模态感知融合、机器人本体结构等关键技术领域持续加强力量,进一加强了乐享科技的长期技术壁垒,助力公司在底层技术研发上构建正向飞轮,为消费级具身智能产品的创新迭代注入更强技术动力。

团队中,两位消费级机器人二十年经验的产品线总裁、CTO,与具身智能行业的顶尖人才配合,构建了丰富的技术研发经验与学术创新的融合,为公司在具身智能领域的技术突破及后续量产化开发保证了坚实基础。

产品落地赋能多场景,多场景验证商业化潜力

在产品落地与场景拓展层面,乐享科技不断推动消费级具身智能产品从技术概念走向现实应用的进展。旗下履带式机器人W-bot(昵称WaWa)先后亮相世界人工智能大会(WAIC)、世界机器人大会(WRC)两大国际顶级科技盛会,凭借精准的运动控制能力、流畅的人机交互体验,在复杂场景下的适应能力,和其充满亲和力的造型,成为展会网红打卡点,获得行业专家、合作伙伴及媒体的广泛赞誉,展现了公司在消费级具身智能领域的初步探索。

更具突破性的是,W-bot跨界体育领域,于2025年7月20日成为苏超首位机器人领队亮相苏州主场赛场,以“科技+体育”的创新融合形式,开创了具身机器人在公共体育场景应用的全新模式。这一尝试不仅打破了科技产品与大众体育场景的壁垒,让更多人直观感受到具身智能技术的魅力,也打开了W-bot与多种行业配合应用的可能性。W-bot凭借其独有的交互能力与负载运输能力的结合,今天已经有零售、教育、地产、宠物等多种行业的意向订单引入,未来会成为百行千业的参与者。

此前,WAWA初代原型机已率先开启市场验证,于2025年5月31日登陆京东618夏日歌会完成公开亮相,并在6月3日的京东拍卖活动中以29799元成功成交,初步验证了市场对其产品价值的认可,为后续消费级产品的规模化推向市场积累了宝贵经验。

多产品线布局满足多场景需求,软硬件平台化开发

公司并行推进的两款核心产品平台——60厘米高度、拥有20个自由度的小型具身智能机器人Z-Bot,以及兼具交互能力与运动负载能力的履带式机器人W-Bot,针对家庭场景的“室内”、“室外”两大需求,均在按计划稳步研发开发过程中,且内部研发体系保持高度平台化。为适配公司长期的高速迭代战略储备,乐享科技未来将进一步丰富产品矩阵,覆盖更多元化的消费场景。

从行业发展趋势来看,中国具身智能市场正展现出强劲的发展势头,在全球领域的影响力持续提升,尤其是消费级细分赛道,当前已进入加速成长的关键阶段。作为消费级具身智能的开创者先行者,乐享科技凭借技术自主化、产品场景化、团队专业化优势,已构建起差异化竞争壁垒。

此次融资完成后,乐享科技将进一步加大研发投入,加速核心技术迭代与产品量产,推动消费级具身智能从 “前沿科技” 走向 “大众消费”,助力中国具身智能产业成为全球龙头。

未来,公司将继续秉持“正直、极致、开放”的价值观,以成为全球消费级具身智能产品的开创者与长期领导者为己任,推动创新与经验的高度融合,推动技术与人文的深度融合,让具身智能产品走进更多生活场景,为人类探索更广阔的宇宙贡献力量。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

百度Feed实时数仓架构升级

作者 百度Geek说
2025年9月26日 15:53

导读

本文主要介绍基于流批一体建设的Feed实时数仓在业务高速发展和降本增效的大环境下,所面临的问题和挑战,以及对应的解决方案。文章分为四个部分,首先介绍下旧的Feed实时数仓的整体架构设计;然后介绍随着业务的不断发展,旧的架构所面临的问题;第三部分是文章的重点,着重介绍重构升级后的Feed实时数仓架构设计,以及在重构升级过程中所遇到的关键性问题和解决方案;第四部分是总结和规划,Feed实时数仓重构升级后,带来了什么样的收益和业务效果,以及对实时数仓未来发展的一个思路探讨。

01 简介

Feed实时数仓是一个基于 feed 日志产出 15 分钟的流批日志表,主要用于对日志原始字段的解析,并下沉简单业务逻辑。该表保留最细粒度的用户明细数据,是Feed数据的最底层数仓宽表。其整体架构设计如下图所示

图片

数据源:Feed实时数仓的数据源主要是各种日志打点数据,主要包括手百端打点和服务端打点。通过使用MEG日志中台提供的一站式打点方案,对用户的行为明细打点数据进行收集管理。

数据采集:数据采集过程,首先通过minos(百度自研的新一代的流式日志传输系统)的agent服务将打点服务的日志进行采集传输到实时流中,然后由日志中台的清源系统进行统一的清洗,对所有的日志打点数据进行格式化,统一schema。清源系统会将统一处理后的数据,传输到厂内消息队列bigpipe中(百度自研的分布式中间件系统)。

数据清洗:数据清洗分为两阶段。

第一阶段为基于TM流式框架搭建的Feed流式计算作业,该作业订阅消息队列bigpipe中的数据,对日志的原始字段进行解析,并下沉一些简单的Feed业务逻辑。流式计算处理结束之后,根据打点数据的生成时间进行落盘,生成刻钟级目录的数据。

第二阶段为基于StreamCompute框架搭建的批处理作业,该作业的任务是对第一阶段产出的刻钟级目录数据进行字段结构统一,并生成hive、spark等查询引擎能够直接查询的orc格式文件,最后将数据导入到实时数仓中。

数据仓库:

Feed实时数仓作为底层明细数据,虽然是DWD表,但保留着ods层数据的特点,存储着Feed日志打点的基础数据。

Feed业务基于实时数仓的数据,对复杂的业务逻辑进行下沉,产出小时级的离线DWD表,作为 feed 主要对外服务的数据表。并在DWD表的基础上,拼接其他主题数据,进行数据聚合,产出ads 层的主题宽表、中间表。

Feed评估业务基于Feed实时数仓,对cuid进行聚合,产出cuid粒度的评估中间数仓宽表。

数据应用:Feed实时数仓下游的数据应用,主要包括策略信号、实时应用、实时报表等高时效性的应用,主要用来检测数据趋势,观察实验策略、热点活动等带来的数据变化,主要是对Feed的分发、时长、au等指标的影响。

02 实时数仓面临的核心问题

随着业务的不断发展,越来越多的下游业务开始接入Feed实时数仓,比如商业、电商、直播等业务。Feed实时数仓急需解决以下几个问题

1. 计算过程繁琐,成本高时效慢

Feed实时数仓的整体架构为流处理+批处理的架构。其中流处理主要进行日志的ETL处理,订阅消息队列bigpipe中的实时流数据,进行清洗加工,产出统一的proto格式数据;批处理过程是对ETL后的proto格式数据进行格式转换,生成可供hive查询引擎直接查询的orc格式数据。

时效慢:流+批的数据处理架构,使得实时数仓数据的产出时间达到了45分钟,端到端数据应用的产出时间更是达到了50分钟以上。

随着手百业务的不断发展,实验评估、直播、电商等业务对数据的时效性提出了更高的要求。比如Feed实验对照组需要更快的实时监控来观测不同的实验策略对Feed的分发时长带来的收益,电商直播需要更快的实时监控来观察不同的分发策略对于直播间观看情况的影响。50分钟的实时监控已经无法满足这类高时效性的业务场景,尤其是重要时事热点、重大直播活动等热点项目。

成本高:实时计算处理过程使用了TM+SC两套流式架构,其中TM部分承担流式数据的清洗和简单的指标计算,SC部分主要是负责批处理的字段结构统一工作。流+批的处理架构成本偏高,其中TM部分需要240w/年,而SC部分需要360w/年,其负责的字段结构统一工作和消耗的成本明显不成正比。SC架构本是百度自研的一站式流式计算服务,在此项目中用来进行批处理的工作,造成了严重的资源浪费。

2. 下游业务多,指标对不齐

随着电商、直播等业务的发展,越来越多的业务开始接入Feed数据,原本只是为单一Feed业务提供的实时数仓宽表,其下游不断增加,包括且不限于评估实验、分润、商业、电商、直播、百家号等业务。由于Feed实时数仓只是数据清洗之后的用户明细数据,并不包括指标和维度相关的信息,比如点击、展现、播放时长、互动等指标,入口来源、视频类型、干预类型等维度信息。各下游在使用这些指标、维度时都需要根据宽表中的基础数据进行计算。由于下游使用方比较多,且分属不同的部门,计算口径往往无法统一。

图片

以Feed实验评估业务为例,随着Feed业务的发展,核心指标口径也不断变化,导致实验指标和Feed大盘指标无法完全对齐,已经严重影响Feed业务迭代。对于口径对不齐问题,评估中心,数据中心做过专项治理,对齐Feed大盘+视频口径,解决了部分问题;但随着业务持续迭代,数据对不齐问题再次加剧,所以急需从根本上解决指标对不齐的问题。

3. 系统架构冗杂,稳定性差

Feed实时数仓整体架构从日志采集端到应用端,每个阶段的作业都未区分核心和非核心数据。尤其是数据采集部分和数据清洗部分,都是漏斗形架构。这样的架构就会出现,若非核心数据流量暴涨,会引起整体链路上的水位延迟,甚至会阻塞核心数据的处理,最终影响核心数据的使用。

03 实时数仓重构方案

3.1 整体架构

图片

新的实时数仓架构,从数据采集到数仓阶段全部进行了重构升级。

数据采集:

图片

对日志打点从业务、点位重要度 两个维度进行拆分。下图以Feed、手百业务为例,日志中台的清源系统拆分出Feed核心作业、Feed非核心作业,分别处理Feed的核心和非核心数据,核心和非核心日志打点输出到不同的消息队列中,从源头实现核心和非核心数据的解耦。

**数据清洗:**对应核心和非核心消息队列,建立两个独立的数据清洗作业(核心作业和非核心作业)。

1). 字段抽取逻辑保持不变,依旧只是对数据进行简单的清洗。

2). 增加指标计算环节,该指标计算环节对应原架构中Feed离线数仓的小时级明细宽表的逻辑,将离线的复杂业务逻辑下沉到流式计算环节。最终产出的的实时数仓中包含了计算好的指标结果,由于Feed实时数仓为Feed数据的唯一出口,下游在使用时候可以忽略Feed业务逻辑的计算,直接使用Feed实时数仓产出的指标字段,从而解决下游指标对不齐的问题。

3). 删除流转批的处理环节,将字段格式统一的工作集成到流式计算环节中。基于TM流式框架实现了包括字段抽取+指标计算+字段格式统一的全部流式计算处理,减少了流转批的过程,节省大量计算资源,同时还提高数据产出时效性。

数据仓库:新版的Feed实时数据的字段结构与原架构中的Feed离线DWD数仓宽表保持一致,对Feed离线DWD数仓宽表中所有的复杂业务逻辑进行了下沉,新版Feed实时数仓=Feed离线DWD数仓宽表的实时化。下游应用直接通过简单的count/sum操作就能得到feed的各种指标结果,指标查询效率提升90%。

3.2 关键问题解决方案

3.2.1 离线复杂业务逻辑实时化解决方案

由于Feed实时数仓是Feed所有数据的唯一出口,将Feed离线DWD数仓宽表中的复杂业务逻辑下沉到实时数仓中,将从根本上解决下游各业务指标口径对不齐的问题。离线复杂业务逻辑下沉到流式,主要存在以下两个问题。

3.2.1.1 离线和实时数据计算维度不一致

实时数仓和离线数仓建模维度不一样,业务逻辑无法直接下沉。旧的实时数仓是面向数据源建模,所有的字段抽取逻辑是基于不同的日志源进行抽取,比如端打点日志、PC打点日志、服务端日志等;而Feed离线数仓是基于业务建模,分成了点击、展现、时长、互动等业务分区,业务逻辑、指标计算也是在这些业务维度基础上进行处理。

解决方案:

在流式计算环节中,业务逻辑处理分为三层进行。如下图所示,第一层依旧进行字段抽取的数据清洗处理;第二部分根据根据关键字段信息,对所有日志数据进行业务逻辑分区;第三部分,该部分处理逻辑对齐离线的复杂业务逻辑,不同的业务分区,执行不同的业务逻辑计算。最终生成业务维度的实时数仓底层数据。

图片

3.2.1.2 下游用户无法直接进行切换

原Feed实时数仓和Feed离线DWD数仓宽表,数仓建模维度不一样。原Feed实时数仓是简单清洗的日志明细表,只是对日志的字段进行简单的裁剪;Feed离线DWD数仓是对Feed实时数仓宽表进一步加工之后的表(包括删除无用日志字段信息(比如实验sid信息等)、删除无用打点日志、 通过日志明细计算出维度/指标字段)。如果新的实时数仓宽表字段要和离线DWD数仓宽表建模保持一致,原实时数仓下游使用方无法直接迁移到新的Feed实时数仓。

解决方案:

1. 功能单一的大字段单独抽出,建立一个新的明细表。如sid字段,建立sid明细表,下游用户使用时通过cuid等字段进行关联。

2. 无用打点日志:对于Feed业务来说无用的打点日志,单独保留到非核心分区。

3. 新的实时数仓宽表,在离线数仓宽表字段基础上,增加字段用以表示旧实时数仓宽表中分区信息,兼容历史分区逻辑,以供下游切换时使用。

3.2.2 字段格式统一实时化解决方案

字段格式统一,主要是将清洗之后的数据,按照实时数仓的schema进行字段的格式进行统一,同时将最终数据文件(行存)转为ORC列式存储格式,以供hive、spark等查询引擎进行高效的查询。

在原来的数据架构中,字段格式统一只能由sc或者spark进行处理,所以只能使用流+批的方式进行实时数仓的生产,这造成了严重的资源浪费。将该部分处理工作集成到流式计算TM任务中,数据生产成本至少降低200万/年;同时缩短数据生产链路,提升数据产出时效。详细解决方案如下。

3.2.2.1 数据存储格式选定Parquet格式代替之前ORC格式作为最终数据的存储格式

Parquet是一种专为大数据处理系统优化的列式存储文件格式。目标是开发一种高效,高性能的列式存储格式,并且能够与各种数据处理系统兼容。Parquet 在2013年作为开源项目被创建,在2013年6月被 Apache 软件基金会采纳为顶级项目。它的开发受到 Apache Parquet 社区的积极推动。自推出以来,Parquet 在大数据社区中广受欢迎。如今,Parquet 已经被诸如 Apache Spark、Apache Hive、Apache Flink 和 Presto 等各种大数据处理框架广泛采用,甚至作为默认的文件格式,并在数据湖架构中被广泛使用。

Parquet具有以下优势

列式存储:

  • Parquet 是一种列式存储格式,有多种文件压缩方式,并且有着很高的压缩比。

文件是可切分(Split)的:

  • 在Spark中使用parquet作为表的文件存储格式,不仅节省AFS存储资源,查询任务的输入数据量减少,使用的MapTask也就减少了。

支持谓词下推和基于统计信息优化:

  • Parquet 支持谓词下推和统计信息(例如最小值、最大值、空值等),这使得在执行查询时可以更有效地过滤和优化数据访问。这对于加速查询是非常有帮助的。

支持多种数据类型和模式演进:

  • Parquet 支持多种数据类型,包括复杂数据结构,这使得它适用于各种类型的数据。此外,Parquet 允许模式演进,即在不破坏现有数据的前提下修改表结构,提供了更大的灵活性。
3.2.2.2 在TM框架中引入Apache Arrow开源库实现输出parquet格式文件

Apache Arrow 定义了一个与语言无关的列式存储内存格式,可以理解为parquet文件加载到内存中的表现。

图片

上图为Proto格式数据通过Arrow 转为Parquet格式数据的详细过程。

  1. TMSinker算子(TM流式处理框架中输出算子)收到上游产出的proto数据后,首先将数据分成4份,每一份对应一个线程,

  2. 每个线程将自己负责的数据转成一个RecordBatch; 具体操作是解析Protobuf数据,将数据进行格式映射,构建一个Arrow Schema,填充到RecordBatch中,然后将4个RecordBatch合成一张Table。

  3. 使用Arrow提供的API,将Arrow Table写入到Parquet Writer,Parquet Writer负责把数据刷新到磁盘上。

部分组件概念如下:

RecordBatch,可以理解为一张子表,有schema信息和每一列数据,常作为并行计算的子数据单元。

Table可以理解为一张列式存储的表在内存中的表现形式,可以由多个RecordBatch合并而成。

3.2.2.3 实现过程中出现的其他问题及解决方案

小文件变多问题

原架构中,字段结构统一是批处理,会等15分钟的数据都产出之后,集中进行处理;而新的架构中,将字段结构统一的处理集成到流式计算中,导致小文件数过多。太多小文件会导致查询引擎增加对元数据读取开销等问题,影响查询稳定性,甚至会出现占满slot情况 影响其他任务。

小文件产出原因:正常TMsinker算子是通过攒task(数据大小+超时时间)减少小文件产生,但会存在跨时间窗口的数据,从而产出小文件问题。平均每15分钟会产生5234个文件,其中小文件951个,小文件占比18%(略早到的文件占比10%;略晚到的占比8%),平均文件大小258MB -- 未压缩)。

解决方案:

1. TMsinker 算子每次请求tm server获取task数由1个变为多个(可配置),避免出现sinker获取1个task就处理的情况,同时降低tm server的压力。

2. 优化时间等待策略和攒数据策略

a. 默认配置

  • 默认每次获取task数200个;(默认值200;用户可通过配置项覆盖)

  • 最大等待时间20S;(默认20秒;时效和文件size的平衡;用户可通过配置项覆盖

  • 最少积攒数据800MB; (默认800mb;用户可通过配置项覆盖)

b. 详细策略

  • max_num: 一次性可获取并锁定的最多task数量

  • last_num: 上一次获取并锁定的的task数量

  • num: 当前获取并锁定的task数量

图片

大文件转parquet失败问题

在使用arrow库把proto格式数据转为parquet格式数据过程中,当某一列 string 类型的数据超过 2G 时格式转换会失败。

首先我们从string在内存中的表现形式来进行分析

图片

Length:表示这一列一共有多少条数据

Null Count:表示这一列一共有多少条数据是Null

Validity Bitmap:位图,1代表非Null,0代表null,用于快读判断某条数据是否是null

Value Buffer: 存储 string 数据 list;

**Offsets Buffer:**存储每条数据在ValueBuffer中的位置

图片

如上图,string的offsets buffer是list,因此string类型最大只能支持2^31字节=2G的数,如果在这条数据之前所有的数据已经超过2G了,那么因为Offset是int32无法表示大于2G的整数,导致这条数据无法转换。

问题原因找到,解决方案就很简单了,将string替换成large_string类型即可,其offsets buffer是list。

压缩耗时高问题

通过查看arrow库的源码,我们发现Arrow库当前使用的ZSTD压缩方法的Simple API,而Zstd库提供了 Simpler/Advanced API。这两个API的区别是Simple API只能设置压缩级别,而Advanced API可以设置压缩级别和压缩线程等。

解决方案:修改源码中ZSTD压缩方法的API,改为Advanced API,并通过环境变量暴漏多线程相关的参数。

以配置6核CPU为例,单线程时最多整使用1个核,多线程时可以使用到5.5个核

图片

字段结构统一实时化最终整体解决方案如下:

图片

04 总结与规划

Feed实时数仓重构升级完成后,流批一体架构升级为纯流式架构,整体计算成本节省50%,实时数仓数据产出实效缩短30分钟,提速80%。离线复杂业务逻辑下沉,指标查询效率提升90%,DWD明细宽表产出时效提升3小时;Feed宽表统一指标出口,其他下游和Feed业务线完成口径对齐,从根本上解决了指标对不齐的问题;流式计算整体架构统一到流式TM框架,维护成本降低50%,端到端核心非核心数据完成拆分,服务&数据双隔离,互不影响,服务稳定性大幅提升。

针对Feed实时数仓的后续规划,我们计划从计算引擎上进行优化升级,对标业界主流实时计算引擎,改变现有的C++代码开发模式,提高流式计算服务的开发效率,降低开发成本,以应对快速发展手百和Feed业务,满足越来越多的数仓需求。同时未来我们将把Feed实时数仓建设成厂内实时数仓标杆,为更多的业务提供实时数据服务。

融资丨瞻芯电子C轮融资获超10亿元投资

日前,中国领先的碳化硅(SiC)功率器件和芯片方案商——上海瞻芯电子科技股份有限公司(简称“瞻芯电子”)宣布完成全部C轮融资,融资总金额超过10亿元人民币,近日完成工商变更手续。继年初C轮首批资金交割后,多家投资机构陆续跟投,投资者持续看好公司长期发展。C轮融资由国开制造业转型升级基金领投,中金资本、北京市绿色能源和低碳产业基金、国际国方、国投IC基金、金石投资、海望资本、芯鑫跟投。国家级基金和知名投资机构的联合投资,充分体现了资本市场对公司技术实力、市场地位和发展潜能的认可。自2017年成立以来,瞻芯电子累计融资规模已接近三十亿元,是国内碳化硅领域最具投资价值的企业之一。

此次融资将主要用于瞻芯电子自有碳化硅(SiC)产能扩张、产品研发、运营与市场推广,进一步提升产品性能和市场竞争力,加速碳化硅器件的国产替代。

在功率半导体领域,整合设计与制造等产业链的公司被称为垂直整合商(IDM, Integrated Device Manufacturer),也是国际头部厂商采用的主流商业模式。作为国内碳化硅(SiC)IDM模式的先行者,瞻芯电子专注于碳化硅(SiC)功率器件的研发、制造和销售,同时围绕碳化硅(SiC)应用提供包括功率器件、驱动芯片、控制芯片等在内的完整解决方案。

目前瞻芯电子已成功量产了三代碳化硅(SiC)功率器件产品,核心技术指标达到行业领先水平,已实现向多家知名新能源汽车厂商及Tier1供货商的规模出货,批量应用于新能源汽车的车载电源(OBC/DCDC)、空调压缩机、电驱动等领域,并与光伏、储能、充电桩、工业电源等行业众多知名客户建立了稳定供货关系。

查看更多项目信息,请前往「睿兽分析」。

❌
❌