当前位置: 首页 > 产品中心 > TRS CKM

     以半结构或非结构的自然语言文本为对象,从大规模文本数据集中发现隐藏的、潜在的、新颖的和重要的规律过程。从文本中提取适当的特征,将文本标示成计算机能够理解的形式,采用各种文本挖掘方法发现隐藏的知识模式,以用户可以理解和接收的形式输出,成为指导人们实现的有用的知识。

产品体验&产品资料
产品概述

    近年来随着Internet的大规模普及和企业信息化程度的提高,有越来越多的信息积累,而需要信息的人还没有特别方便的工具去从来自异构数据源的大规模的文本信息资源中提取符合需要的简洁、精炼、可理解的知识,文本挖掘正是解决这一问题的一个方法。

     TRS CKM的主要功能是为中文文本挖掘应用提供强有力的开发接口。它集成了TRS公司最新推出的多项中文信息处理技术,具体包括:TRS文本分类系统、TRS文本相似性检索系统、TRS文本摘要系统、TRS文本信息过滤系统、TRS拼音检索系统、TRS相关短语检索系统、TRS(政治)常识校对系统、TRS文本聚类系统、TRS文本分词系统。TRS CKM 相关产品和技术可以广泛的应用于以下领域和系统中:企业知识门户、信息增值服务、智能搜索引擎 、数字图书馆 、情报分析 、信息安全和过滤、电子商务系统。

十大功能选件
TRS文本分类系统-不需人工干预的自动分类技术,有效提高非结构化信息资源的加工效率

文本分类是指计算机根据文献内容进行类别划分的功能,可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多应用。TRS的文本分类系统支持以下两种分类方式。

基于内容的文本自动分类
系统提供分类训练工具,允许用户自行根据自己的分类需求和内容特点设定分类树结构,加载训练样本数据,生成分类模板,进而根据特征模板对目标文本进行分类。

基于规则的文本分类
规则编写可实现“与、或、非”等逻辑运算规则,且可以设定词频数条件。规则表达式示例:作者=(李四+王某)-正文=外汇、标题=世界杯+正文=(汉城+中国队)。TRS规则分类尤其适用于用户基于关键词的分类需求,而且规则定义界面友好易用。

TRS文本分类系统的功能特点和优势
分类精确度:在几十个类别之内,经过分类体系组织和语料训练后,自动分类的准确率达到86%-90%,规则分类准确率达到95%以上。
分类速度快:分类速度在每秒40篇以上。
支持混合分类:TRS文本分类系统不但支持内容分类和规则分类,而且用户可以根据具体需要综合以上两种分类技术,获得高准确度的多级分类。
具备反馈学习机制和补充训练机制:TRS自动分类支持反馈学习机制和补充训练机制,用户可以根据真实应用的情况即时进行反馈,补充完善训练语料和规则,从而持续改进自动分类的准确率。
具备多语言扩展性:支持多种分类标准和分类体系,支持多级分类和类别复分,支持中英文分类和中英文混合分类,并可扩展到其他语种。

TRS文本相似性检索系统-基于文档“指纹”的文本查重技术,支持千万级的网页查看

相似性检索是相对于给定样本文献,在文献数据集合中查找出与之内容相似的文献的技术。应用实践表明,相似性检索技术在网络内容自动排重,文章关联方面取得良好效果。

TRS文本相似性检索的功能特点和优势
排重准确性高:利用内容的相似性进行排重判断,准确性高,不会因为标题或内容的少许变化而产生漏判,即使把标题改头换面,系统也会正确判定。另外系统提供中英文文本的相似性检索,并可扩展到其他语种。
排重阈值可设定:系统支持用户根据个性化需求设定相似度阈值和检索结果集大小,达到预期的相似检索或内容排重目标。
排重速度快:20万篇文章以内,相似性检索平均速度在1秒内;121.5万篇文章,相似性检索平均速度为2-3秒。高速排重可满足实际应用需要。

先进的自然语言处理技术提 高智能检索体验
分词词典:系统支持设立主题词表、同义词/反义词典、禁用词典以及词典按需 维护。
分词规则库:统计建立了大量歧义排除规则,有效提高了分词准确性、提高了 查准率。
扩展检索:支持主题词典自动扩展检索、同义词/反义词自动扩展检索、全半角 自动扩展检索、简繁体自动扩展检索等。
自然语言检索:对检索语串进行自然语言理解处理,根据关键词语在内容中的 位置和频度等参数计算内容相关度,根据内容相关度从高到低输出检索结果。

TRS文本聚类系统-基于相似性算法的自动聚类技术,提供海量文献的可视化分析 集成应用

文本聚类是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并可自动为该类生成主题词,为用户确定类目名称提供方便。可支持自动生成新闻专题、重大新闻事件追踪、情报的可视化分析等诸多应用。

TRS文本聚类的功能特点和优势
聚类速度快,准确性高:自动聚类准确率达到75%以上,满足大多数应用的使用要求。聚类速度:100篇文档1秒;1万篇文档5分钟
良好的扩展性:可根据用户需求扩展到其他语种。
支持多层次聚类:自动生成每个类的多个主题词。

TRS文本摘要系统-基于统计的文本自动摘要技术,自动提取文章主题

TRS文本自动摘要系统的主要功能是实现文本内容的精简提炼,从长篇文章中自动提取关键句和关键段落,构成摘要内容,方便用户快速浏览文本内容,提高工作效率。该技术可应用于新闻采编、搜索引擎等诸多领域。

文本摘要的功能特点和优势
主题词标引功能:可以从文档中记出主题词,改主题词可以由主题词进行限制,目前支持国办公文主题词表、中办主题词表两部主题词表。
偏重摘要和摘要设定:支持偏重摘要,可以根据用户的提供的关键词,生成有所偏重的内容摘要。同时用户可以自由设定摘要的长度,通过百分比、字数、句数等参数,获取满意的摘要长度。
支持多种语种摘要:支持中英文文本的自动摘要,并可扩展到其他语种。
系摘要性能高:自动摘要速度可达每秒数十篇。

TRS文本过滤系统-基于内容理解的自动过滤技术,准确地识别“李逵”和“李鬼”

基于统计和机器学习的文本过滤技术。TRS文本信息过滤系统的主要功能是有效地识别和过滤各种有害或者垃圾文本信息,帮助用户摆脱有害信息的侵扰。可应用于互联网络信息监管、垃圾邮件屏蔽、涉密邮件防护、敏感信息审查等内容安全领域。

文本过滤的功能特点和优势
褒贬义识别过滤:传统的基于关键字匹配的关键字信息过滤,常常导致大量正面信息被封杀,TRS基于统计和机器学习的文本过滤技术,以及独具特色的文本的褒贬倾向分析技术,准确识别正面和负面的信息。
过滤性高:文本信息过滤的平均速度为每秒40篇以上。
良好的适用性:用户可以灵活、方便的更换模板,来实现对不同的主题的过滤。

TRS拼音检索系统-基于统计的汉字注音技术和多音排岐技术,为用户提供更好的检索体验

基于统计的汉字注音和多音排岐技术。可用于信息检索、搜索引擎等系统的智能增强:向用户提供同音词查询建议,帮助用户更有效地进行检索。

TRS拼音检索的功能特点和优势文本过滤的功能特点和优势
超大拼音词典支持:包含近百万常用的中文词条,且支持词典的人工维护,具体应用可以通过增加或修改词典的词条来实现更好的效果。
实现同音检索、全拼检索和简拼检索
拼音输入校正:例如:输入“电阻”,系统提示:您要查询的是不是:电阻 ?此时点击电阻可以直接查询“电阻”。
客检索性能高:拼音检索速度平均为支持每秒100次检索以上。

TRS相关短语检索系统-基于人工整理和数据挖掘方法结合的相关短语技术,是用户检索的得力助手

基于人工整理和数据挖掘方法结合的相关短语技术。根据语义信息、短语结构、短语词典等计算短语之间的相关关系,获取相关短语。可用于信息检索、搜索引擎等系统的智能增强,向用户提供短语查询建议,帮助用户更有效地进行检索。

TRS相关短语检索的功能特点和优势
超大短语词典支持:人工整理+数据挖掘方法结合,生成一部相关短语词典,包括数十万词条,词典质量高。相关短语词典可根据检索日志进行自动维护,同时具体应用中可以通过增加或修改词典的词条来实现更好的效果。
检索性能高:相关短语检索速度平均为支持每秒100次检索以上。

TRS(政治)常识校对系统-基于语义的校对技术,有效避免政治宣传事故和不良影响

基于语义的校对技术,有效识别文本中政治敏感的错误信息,可应用于稿件校对审查方面,有效避免政治宣传事故和不良影响。

TRS常识校对的功能特点和优势
全面的政治常识校对功能:包括:国家领导人姓名错别字、称谓错误、顺序错误及政治术语不当引用等等。
提供更正建议:除了发现错误外,还可以对错误进行准确的定位,并给出修改建议,方便用户的操作。

TRS文本分词系统-基于规则与统计结合的分词技术,有效地解决了切分歧义

基于规则与统计相结合的分词技术,将中文的汉字序列切分成有意义的词,可应用于文献检索、搜索引擎等诸多领域,提高检索的相关性排序等。

TRS文本分词的功能特点和优势
内嵌分词歧义规则库:可以有效解决大部分的切分歧义。
准确识别人名、地名、组织机构名等信息
多语言支持能力:支持GB18030和UTF8两种编码,具有良好的多语言支持能力。
分词速度快:分词速度在每秒300K字节以上。

TRS文本信息抽取系统-基于规则与统计结合的信息抽取技术,实现文本信息中多种事实信息的抽取

基于规则与统计相结合的信息抽取技术,从非结构的文本信息中抽取有意义的事实信息,被抽取的事实信息以结构化的形式进行描述,并可以存入结构化数据库中,供人们分析和利用。信息抽取技术可应用于公安、医疗、政务、情报、信息服务等多个领域。

TRS文本信息抽取的功能特点和优势
抽取丰富的事实信息:可以实现时间、电话号码、身份证号、护照号、Email、车牌、事件名称、地名、人名等信息的有效抽取。

运行环境

TRS CKM提供本地动态库调用(CAPI)和SOAP API调用(Web Services)两种接口方式,使得用户可以很容易地利用这些技术开发前端应用,或者嵌入到其他应用软件中。

TRS CKM支持的操作系统包括:Windows NT/2000/XP/2003和Linux2.4。

2008 北京拓尔思信息技术股份有限公司 版权所有.保留所有权