300229 拓尔思12.11 0.29 (2.34%)
拓尔思数家媒体大数据云服务平台,简称“数家”。是基于内容资讯领域的大数据智能服务平台,平台汇聚了全网新闻资讯类的内容数据,以“多维知识库+智能语义”的方式对文章进行结构化标引,为媒体提供高信源、精加工的资讯内容服务。
“数家”通过大数据主流计算框架和基于深度学习的自然语言处理技术,以媒体行业应用为主体,同时融合多领域对资讯的应用需求,构建面向场景的垂直应用服务。场景应用贯穿媒体的决策、选题、生产、传播和运营等全流程闭环,实现面向群众的精准化引导和服务;解决了内容结构化、智能化和服务化等行业刚需,通过对数据的精细化运营加工,提升媒体大数据的价值密度。
采用多层级分布式的调度模式,对互联网资源进行大规模高效实时采集。覆盖1000家数字报、10000家媒体和政府网站、400个APP客户端、上百万的微信公众号和准全量的微博账号、涵盖头条、企鹅号、抖音、梨视频等分发平台。每日资讯数据增量300万,微博日增9000万,全库数据超过三百亿条。
人工辅助标引+机器自动标引相结合的方式,实现对内容资讯的“精加工”模式,保证数据标签的多维度和精准度,更适配高信源数据在媒体行业的应用场景。
将数字报、网站、新闻客户端、微信、微博、头条等自媒体平台的内容源数据进行分类归纳整理后,以“云端服务”或“在线实时推送落地”的方式满足用户对互联网资讯内容的数据需求,实现内容供给的SaaS云服务。
整合全渠道各类实时信息来源,为媒体用户提供互联网实时线索信息和素材来源。
通过聚类分析,实现对不同行业、不同地域的分类热点信息。所有热点数据提供多层级的分析下钻和语义分析,支撑媒体的选题研判和热点趋势的多角度掌控。
为用户提供原创稿件的全网传播分析,包括传播转载分析、阅读互动分析、指标模型构建、传播路径分析和多维报表自动生成等。
以事件或专题为中心,构建专属的事件专题分析服务,包括事件的总览、关键因子探索、话题漂移追踪、传播节点分析等一系列深度挖掘的内容语义分析场景。
在并行采集基础上实现子模块的二级调度,以保证大规模采集平台的高时效。
所有采集源都由人工整理配置,保证了数据源头的“纯净”和完整性;配备了专家级的知识标引团队,对行业知识进行梳理、构建了数十个不同维度的媒体知识库。
利用NLP技术来实现内容智能化标引的核心功能,保证数家库中的数据全部具备智能化知识属性,为行业应用夯实基础数据。
利用传统机器学习+深度学习框架和大数据分布式计算框架等,对内容进行数百个维度的统计和分析挖掘,以形成媒体行业所需的细化场景应用服务。
专业专职的数据分析师和算法工程师以每日迭代的工作模式,以保证所有的分析结果都尽可能的客观准确。
新华社
解放军报
经济日报
中国教育报
中国体育报
浙江日报
上海报业
重庆日报
宁夏日报
湖南日报
新华日报
广西日报
云南日报
深圳报业
杭州文广
中国吉林网
东北新闻网
农业部
中国建筑
浙江电力
©️拓尔思信息技术股份有限公司 版权所有 京ICP备11022871号-7