300229 拓尔思
201804-27
中国报协30周年 | 施水才、郭军、林松涛:从资料库保存到大数据媒体融合
发布时间:2018 -04-27
分享至:
分享

本文发表于人民日报出版社--中国报业协会成立三十周年征文集《风雨来时路》,作者:施水才、郭军、林松涛,全文3898个字,大概需要10分钟阅读时间。

 

大家都知道激光照排系统在中国技术创新历史上的影响和对中国报业的贡献,其实汉字检索也是当年748工程的课题之一,当初由南京大学等单位承担。1985年北京信息工程学院和新华通讯社联合承担了国家七五攻关项目《新闻资料资料检索系统》,这是国内较早采用关键词在自由文本(Free Text或Full text)中进行查询的技术探索,也是国内较早开展的全文检索技术研究,该课题的成果当时通过了国家级鉴定,是中国新闻资料检索应用领域的第一个成果。

 

1990年北京信息工程学院和人民日报社展开合作,研制“新闻资料处理系统”,该系统主要由编辑系统和资料检索两个系统组成,于1992年投入实际使用。为了进一步实现产业化,北京信息工程学院的老师们在1993年发起创立了北京易宝北信信息技术有限公司,公司成立后的前两个客户也同样是新闻行业的,他们是南方日报和中国国际广播电台。从此新闻资料的检索从一个技术开创了一个产业,也使得TRS这样一个成果成功的造就了一个A股上市公司——这就是拓尔思。

回顾历史,整个报业的信息检索和挖掘,可以划分为三个阶段:


第一阶段

1990-2000资料库建设

在铅与火出版时代里,记者编辑们每个人自己都有自己的一个精致资料收藏本。各个报社的资料室里,陈列着一排排的资料“中药柜”,柜子前的资料员们拿着剪刀和浆糊紧张地加工标识各种分类资料。随着出版告别“铅与火”,资料加工告别“剪刀加浆糊”成为报业技术革命中的原生呼唤和刚需,采编人员对于数字化资料的诉求随着激光照排的实现成为最迫切的需求,报社的管理人员也迫切需要数字化的管理和统计手段来考核记者编辑的工作成果,由报业原生的需求引发的一场行业的技术革命就悄然发生了。

 

其时,拓尔思公司(易宝北信)在实验室里的全文检索技术也开始正式拥抱市场。继和人民日报的合作研发成功投产后,领国内风气之先的南方日报于1993年初就和刚成立的易宝北信公司签订了全文检索资料库的建设合同。系统建设成后,可以将每日出报后的数字文件标引成全文数据库,为全报社的记者编辑提供方便的检索服务。资料加工上抛掉了“剪刀加浆糊”,资料查询上抛掉了“卡片索引加中药柜子”的生产模式。这种全新的生产模式,极大地推动了采编业务对数据资料的依赖和需求。

 

继南方日报的成功投产后,深圳特区报,上海文汇报等各影响力大报纷纷取经交流,并相继上马对应系统和工程。同时,也推动了各报对历史纸质资料库的数字化进程。市场上也相继出现数字化的专业公司,如深圳点通,湖南青苹果等。整个10年间,各个报社纷纷效仿,把照排后的数据有效存储和管理,历史数据也通过市场化手段数字化。例如:人民日报将历史数据制作成光盘,面向全球发售,带来了可观的经济效益;南方周末15年光盘,成功登榜当年的8848电商网站的畅销榜!

 

电子资料库的成功建设也为采编人员扔掉“纸和笔”打下了坚实的基础,成为报业第三轮技术革新的助推器。回顾和展望,正是中文全文检索技术的成功研发和相关软件产品的推出,使得中文电子资料库,各种光盘出版系统,数据加工服务成为一个新兴产业,也为互联网时代到来的信息传播和获取准备了条件。

 

第二阶段

2000-2010 网站、稿库和媒资管理

随着报业传媒在“告别纸与笔”的技术革命中,各媒体都逐渐将自己的内容生产系统以数字化的方式进行管理,业务技术系统也普及了采编、排版系统和激光照排,整体报业的技术平台水平在信息化程度上也登上了新的台阶。

 

拓尔思在这波报业技术革新浪潮中,也率先提出中文内容管理理念,并结合以国内媒体用户为代表的需求理解和应用实践,打造推出新一代内容管理平台框架——TRS WCM系统,涵盖了从内容采集、存储管理、编辑审核一直到传递服务的全部内容管理生命周期的管理。该平台被应用以中国经济网和南方日报报业集团为代表的广大媒体单位用户,特别是在报业媒体大力发展新闻门户网站、传统媒体与网络协调发展的阶段,起到了创新媒体网站服务的行业支撑和示范推广。

 

随着内容管理水平和报业信息化水平在这个阶段的提升,新一波报业信息化建设的内容,呈现出多元化的发展态势,部分媒体围绕媒体内容资产的管理开始思考报业信息化的数据库建设。因为在媒体业的内容形态组成上,非结构化数据占据9 9 %以上,那么对媒体海量非结构数据的存储、检索、应用等方面都面临着信息化管理水平的提升需求。

 

报业媒体将日常业务产生的内容数据通过数字化手段反解后,对内容数据的管理需求也日益凸显,广泛建设用于成品稿件管理的全文检索数据库。拓尔思利用自身领先的非结构化信息管理技术与全国大多数的报业媒体合作建设成品数据库系统,帮助报业媒体已经从信息基础设施的改造与建设,转向新闻信息资源的开发与利用,通过对新闻信息 资源的整合、加工、挖掘,实现资源共享、内容创新、信息增值及优质服务。

 

在新华社的数字化转型过程中,在以数据管理为核心的思路指导下,打造了新华社社内统一资源共享使用平台——待编稿库,系统打破部门壁垒,最大限度地共享全社内容资源;待编稿库是新华社实现新闻业务信息化的基础,它对于整合全社的新闻信息资源、提高新闻信息利用率、降低新闻信息产品加工成本、满足新闻信息用户个性化的需求、进而提高新华社的核心竞争力起着推动作用。待编稿库系统是全媒体时代的数据型代表系统,也是融媒体时代构建“中央厨房”的资源数据中心的前身。

 

拓尔思承建了新华社建设全社数据资源统一营销的总出口——新华社多媒体数据库。新华社多媒体数据库是全球最大的中文新闻信息数据库,实现了对内数据支撑和对外信息服务的功能。新华社多媒体数据库规划分为内部数据中心和外部综合信息服务平台两部分,内部数据中心实现社内信息和业务整合,外部综合信息服务平台发展对外信息服务,并根据信息服务用户的差异化需求,实现了统一资源的分众化定制服务(大客户子系统)

 

作为党报媒体核心的人民日报,也和拓尔思合作建设了基于内容数据平台的人民日报全媒体新闻资源管理系统——公共稿库。这是人民日报社适应新的舆论格局和媒体发展趋势,将原先分散的新闻信息汇集起来,实现全社编采力量、新闻资源的统一指挥、协调配置、立体开发。是人民日报社不断增强技术敏感、不断改革创新取得的又一阶段性成果,对提高新闻信息采集能力,提高舆论引导能力和传播能力具有重要意义。

 

第三阶段

2010-至今 大数据驱动的媒体融合

进入2010年后,随着全社会大数据概念的普及和逐步落地,报业的内容生产已经发生了巨变,随着社交媒体和移动优先思路的传播,媒体的传播渠道和方式处于颠覆性的变革浪潮中。今日头条和一点资讯等聚合类APP利用数据和算法来决定数据渠道传播已经实现了基于内容价值的传播和变现。数据的积累在过去媒体的业务体系中,更多集中在成品数据库的建设,固然生产的成品数据是核心数据资产,但是我们也要注意到在浩瀚的海量信息流中实现媒体本源价值传播和弘扬正能量宣传,不仅关注单位自身内容、也对外界数据敏感和探索,并利用好融媒体渠道进行导向宣传是作为媒体和宣传传播单位的重要使命。

 

在大数据驱动媒体融合的阶段,拓尔思将多年来的技术积累与报业媒体进行了深度合作,利用自然语言处理在媒体的多年应用经验结合深度学习的迭代更新,帮助媒体从全媒体平台逐步向融媒体平台进行转变,帮助报业媒体在第三轮报业的技术革命浪潮中充分借力技术的支撑优势,来辅助完成自身的转型探索。

 

在此阶段,拓尔思以数据资产为核心的TRS融媒体智能生产传播服务平台在媒体行业迅速普及,促成多个重量级媒体融合项目的落地。该平台针对媒体融合发展的国家战略需求,拓尔思提出媒体的未来在于数据+服务的深刻洞察,将大数据、人工智能与媒体“中央厨房”深度融合,推出新一代融媒体智能生产传播平台,该平台涵盖了智能生产与传播、媒体大数据、传播分析和运营等核心系统,帮助媒体优化组织架构、实现智慧决策和沉淀用户价值。

 

融媒体智能生产传播服务平台通过在浙江日报的落地和应用示范,获得了传媒领域最权威科技奖项——“王选新闻科学技术奖”特等奖;拓尔思的基于大数据的智能传播平台目前在全国的传媒融合转型大潮中,以技术为引领,深化支撑机构的改革创新,在报业传媒领域得到了国内数十家重量级媒体的肯定和实践,具备一定的行业领先性。无论是中央媒体(新华社、解放军报、经济日报等)、区域型媒体(浙江日报、重庆日报、南方日报、四川日报、宁夏日报、云南日报、深圳报业、银川日报、咸宁日报、雅安日报等)、还是行业型媒体(中国教育报、中国民航报、中国医药报等),这些用户都在与拓尔思的基于大数据的智能传播平台进行多元化的合作。

 

在信息过载和立体化传播的时代,传统媒体如何在这个传播被颠覆的时代里面继续发挥优质内容信息供应者和传播者的角色;如何在媒体融合的大背景下发挥媒体所应具有的正确的价值观与舆论导向;如何面向越来越流失的信息受众实现用户沉淀。大数据在这个传播链条上发挥着决定性的因素,可以说大数据成为了移动互联网时代媒体的新生产要素,而拓尔思媒体大数据应用正在被越来越多的传媒集团认可。

 

未来媒体融合会与科技紧密连接在一起,数据作为媒体重要的无形资产,辅以多元化的传播表现形式,实现在过载信息浪潮下的价值体现。用户对知识服务和数据决策的刚需将媒体业务创新与大数据和人工智能紧密地链接在一起,可以预见,基于AI的感知和认知技术手段将应用在媒体业务的全场景中

 

作为市场优秀的媒体融合赋能者,拓尔思洞察先机,主动变革,以大数据+云服务的理念,帮助媒体建设以内容数据和用户资产为核心的媒体两大数据中心,并围绕内容数据和用户行为数据,实现内容生产与用户个性化之间的智能匹配,在基础数据服务、大数据分析服务、智能生产服务、舆情服务、指挥监测服务、产品运营服务、流量变现服务和数据交易服务等方面以大数据+人工智能技术全面带领媒体融合转型和创新迈向新时代。

本文作者:

施水才(拓尔思总裁兼副董事长)

郭军(拓尔思广州分公司总经理)

林松涛(拓尔思新闻事业部总经理)