上证报中国证券网讯(记者宋薇萍)如何帮助大模型在数据荒漠中找到高质量“水源”?2024世界人工智能大会期间,
合合信息展示了大模型“加速器”解决方案。同时,
合合信息与百川智能携手,穿透双栏、多栏、表格、图片等复杂的版式,从金融、社科等多领域文档图像中快速提取关键信息,精准地回答用户“刁钻”的专业问题,引起了业内人士的关注。
据介绍,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。
合合信息智能创新事业部总经理唐琪表示,目前,大模型“加速器”已被多家大模型厂商应用于金融、医学、财经、媒体等多领域的文档的解析中,助力大模型更顺利地接轨“专业课”,它不仅仅是一套技术工具,更是推动行业专业知识管理革新、提升业务效率的重要基石。
文档解析技术是支撑大模型语料训练的关键技术之一,面临着从海量文档中高效提炼“智慧燃料”的艰巨任务。据悉,
合合信息的文档解析引擎最快1.5秒可解析百页长文档中的文本、表格、图像等非结构化数据。同时,引擎能够深度“洞察”图表内容,对研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表进行“还原”,巧妙转化大模型能够理解的markdown格式,使数据和图表的价值潜能充分释放。
此外,
合合信息大模型“加速器”还加载了acge_text_embedding模型(简称“acge模型”),如同“
指南针”一般,引导大模型在信息的汪洋大海中准确定位目标,减少“幻觉”发生,提升回答问题的准确性和针对性。
据悉,在大模型文档处理场景中,
合合信息与百川共同探索技术应用新范式,破解困扰大模型产业已久的多文档元素识别、版面分析难题,将对百页文档的整体处理速率提升超过10倍。唐琪表示,未来,大模型加速器将陪伴更多行业级知识库的建立,让大模型惠及千行百业,实现“智能触手可及”。
(文章来源:上海证券报·中国证券网)