从T 到M T:Text,文本; M:Multimedia,多媒体;
TRS在信息检索、文本挖掘、搜索引擎和内容管理等领域具有长期的研发积累和丰富的成果。拥有国内甚至国际领先的文本检索和文本挖掘技术。近几年来,以图像、声音和视频为主的多媒体信息的应用越来越广泛,从2004年开始,TRS开始在多媒体领域进行探索性研究,并成立研究团队,在基于内容的视频分析和关键技术领域取得了进展。目前这项技术正从实验室成果向产品转化,在不远的将来将服务于用户和市场。
从T到M,是TRS面向市场提供全方位的“非结构化信息自动化和智能化处理技术”的重要一步。
基于内容的视频分析及其关键技术的三个发展阶段
纵观基于内容的视频分析和关键技术的发展,从产生到现在,共经历了三个发展阶段。第一个阶段,视频结构分析和浏览,其中涉及的关键技术是镜头边界检测、关键桢提取和场景合并;第二个阶段,视频的相似性检索,核心技术是视频特征的提取和特征空间距离的量度;在前两个阶段研究的基础上,第三个阶段,围绕面向视频语义的信息提取和检索来展开,这也是目前基于内容视频分析研究的重点和热点。
虽然TRS在这一领域的起步较晚,但是TRS目前的研究成果已经跨越了一、二两个阶段,解决了一、二阶段的关键桢提取、视频特征的提取和特征空间距离的量度等关键技术,并在第三阶段的基于内容的视频检索领域取得了进展。
TRS MKM 视频处理基础件
在多媒体基础技术方面,TRS多媒体研究团队开辟了公司的又一个产品框架——TRS MKM(Multimedia Knowledge Management)。TRS MKM产品框架如图1所示,目前主要包含视频数据管理和图像数据的管理,共包括14个功能模块。

图1 TRS MKM产品框架
TRS MKM的各功能模块的详细说明如下表所示:
TRS MKM功能模块详细说明
| ID |
模块名称 |
详细说明 |
| 1 |
抽取视频所有关键帧 |
将视频分割成一组镜头序列,每个镜头取一帧作为关键帧 |
| 2 |
抽取视频最优关键帧 |
抽取指定个数的关键帧,兼顾清晰度、有无字幕、相似度等特征 |
| 3 |
抽取指定视频帧 |
抽取特定时间段,特定时间间隔的视频帧 |
| 4 |
彩色字幕条抽取 |
提取视频字幕信息,不进行二值化,以彩色字幕条(图片)形式输出 |
| 5 |
二值化字幕条抽取 |
提取视频字幕信息,输出二值化的字幕条(图片) |
| 6 |
视频字幕识别 |
提取视频字幕信息,输出字幕文本信息(字符串) |
| 7 |
视频基本信息抽取 |
抽取编码在视频里内嵌信息,包括标题、作者、版权、评论等信息 |
| 8 |
视频格式转换 |
支持视频任意格式之间的转换 |
| 9 |
图片转FLV视频 |
将一组图片序列编码成FLV视频 |
| 10 |
获得视频的音频信息 |
提取视频中的音频信息,以MP3格式的文件保存 |
| 11 |
抽取关键帧+对应音频 |
抽取最优关键帧(2),并抽取每个关键帧对应的音频信息 |
| 12 |
基于内容的图像检索 |
通过图像的颜色、纹理、形状等特征进行相似图片匹配 |
| 13 |
文本+内容图像检索 |
跨媒体检索的一种,结合文本与图像内容的一种检索方式 |
| 14 |
基于内容的图像聚类 |
基于图像颜色、纹理、形状等特征进行图像聚类 |
关键帧提取是基于内容视频检索的一个重要组成部分。关键帧是用于描述一个镜头的关键图像帧,它通常会反映一个镜头的主要内容。依据镜头内容的复杂程度,可以从一个镜头中提取一个或多个关键帧。关键帧的使用将大大减少视频索引的数据量,同时也为查询和检索视频提供了一个组织框架,通过关键帧还可以为一段视频建立视频摘要,允许用户通过观看几个有限的关键帧来快速浏览整段视频。
为了更为有效的描述视频中的内容,需要从低层次的视觉听觉特征中提取高层次的语义信息,建立这些底层的特征与高层语义概念的关联,视频字幕提取的需求应运而生。TRS MKM的视频字幕提取包括三个功能。
1、彩色字幕条抽取,这种功能主要用于人工判定视频内容的时候使用。图2是彩色字幕条抽取的一个结果实例。
2、二值化字幕条抽取,该结果主要用来作为字幕识别的输入。图2(b)是二值化字幕条抽取的实例。
3、视频字幕识别,以二值化字幕条抽取的结果作为输入,应用OCR技术,将字幕条的内容转化成字符串信息。图2(b)的识别结果是:“因爲想你想得痛心”。
(a) (b) 
图2 二值化字幕条抽取实例
TRS视频技术产品化应用尝试
在TRS MKM的基础上,多媒体技术研究团队搭建了TRS视频检索系统、TRS-CBIR(Content Based Image Retrieval)系统、以及TRS- IVMF(Internet Video Monitoring Platform)系统。
TRS视频检索系统是一个集视频采集、视频加工、视频检索为一体的系统。系统包含视频采集器、处理视频数据的后台服务程序和视频检索服务器。视频采集器负责监控互联网上特定的视频网站,并从这些网站上采集最新的符合要求的视频文件及其对应的相关信息。处理视频数据的后台服务程序主要负责视频分类,视频关键帧抽取等,然后将这些信息装入后台数据库;视频检索服务器主要提供客户端的检索服务,并为客户端提供一个友好的用户界面。

图3 TRS视频检索系统
TRS-CBIR系统是一个基于内容的图像检索系统,应用了二次检索机制和相关反馈机制。二次检索机制指的是系统默认第一次检索的前N(一般小于5)个结果是符合用户要求的,第二次检索就以这N个结果作为检索条件进行检索,最后返回检索结果。相关反馈机制主要利用人机交互机制,用户首先根据自己的喜好从第一轮的检索结果中标注出正例结果和反例结果,系统根据用户提供的正例和反例转移检索的特征向量,使特征向量向正例集合靠近,同时远离反例集合;最后系统以转移后的特征向量为检索条件,返回第二轮的检索结果。

图4 TRS 基于内容的图像检索系统
TRS- IVMF主要实现一个互联网视频监控工作平台。系统能够监控互联网上特定的视频网站,并从这些网站上采集最新的符合要求的视频文件及其对应的相关信息,通过对信息内容的自动分析并结合人工判别,提供自动预警功能,最终构建一个互联网统一的视频监控工作平台,为用户提供视频检索、分类、浏览、下载等功能。
基于内容的视频分析和关键技术的前沿研究成果为TRS开拓多媒体信息领域提供了技术保障,相信不久的将来,以这些技术为依托的成熟产品将走向市场。同时,这些研究成果也为TRS研发下一代跨媒体检索技术提供了技术积累,为TRS提供不同模态内容特征的统一检索,奠定了坚实的技术基础。 |