具体内容如下:
问:大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别?
答:大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,都是文本、语音和图像,但在数据规模、质量、来源等方面,预训练数据较传统训练数据会存在一定差异。例如,规模上,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。从数据来源的角度看,由于大模型所需数据规模远超传统模型,因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说,大模型数据来源除了来自传统的定向采集外,还将涉及版权数据、公共数据等新型海量高质量数据来源。
此外,数据处理的核心技术也存在一定差异。例如,由于大模型预训练阶段的原料数据规模更大,因此大模型预训练数据更加注重数据清洗的工程化能力,在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等,对海量数据完成高质量清洗,这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。问:怎么看大模型时代下,多模态数据的需求?
答:大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。
问:今年上半年公司收入同比下滑的原因是什么?预计什么时候止跌回升?
答:上半年,公司境外收入受境外部分客户阶段性裁员、业务方向调整,以及数据出境相关法规落地实施的阶段性影响,同比下降,导致公司整体收入下滑。但另一方面,公司境内收入,受智能驾驶业务增长驱动,已在二季度呈现同比增长态势。公司认为收入的下降主要受短期因素影响。未来,预计随着境外客户人员调整进入尾声,以及出境安全评估逐渐转向常态化,境外收入水平将逐步恢复;同时公司也将持续发力智能驾驶、大模型等新兴战略型业务,并积极探索数据要素市场,力争通过多主线合力,实现未来业绩的稳步升。
海天瑞声(688787)主营业务:AI训练数据的研发设计、生产及销售业务。
海天瑞声2023中报显示,公司主营收入7446.09万元,同比下降35.13%;归母净利润-1724.14万元,同比下降188.76%;扣非净利润-2310.46万元,同比下降380.4%;其中2023年第二季度,公司单季度主营收入4564.35万元,同比下降31.78%;单季度归母净利润-362.51万元,同比下降136.3%;单季度扣非净利润-605.64万元,同比下降262.9%;负债率3.41%,投资收益524.61万元,财务费用-189.59万元,毛利率58.85%。
该股最近90天内无机构评级。融资融券数据显示该股近3个月融资净流出1.09亿,融资余额减少;融券净流出1515.55万,融券余额减少。
以上内容由证券之星根据公开信息整理,由算法生成,与本站立场无关。证券之星力求但不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的的准确性、完整性、有效性、及时性等,如存在问题请联系我们。本文为数据整理,不对您构成任何投资建议,投资有风险,请谨慎决策。