详谈多媒体AI？

多媒体AI（MultiMedia AI）是一款基于文本分析、图像理解、语音识别的视频AI通用技术平台产品，利用多模态的视频理解能力提取视频中包含的结构化信息，生成符合大众审美的精彩集锦，适用于电商、传媒、泛娱乐等场景下的视频的检索和推荐；同时底层数据库提供海量的物体和人物库，支持上万级的基础标签识别和灵活的自注册能力，轻松应对业务多变性。

多媒体AI产品实例（以下简称媒体AI实例）是对应AI服务以及一个能匹配推荐性能的环境，包含 CPU、内存等最基础的计算组件，是媒体AI支撑给每个用户提供服务的实际操作实体。媒体AI实例是以提供的能力服务为核心，以云服务器为基础的概念。其他的资源，比如磁盘、IP、镜像、快照等，只有与计算资源（ECS等服务资源）结合后才能使用。

多媒体AI由底层算法服务层、中间逻辑神经层和上层应用处理层组成。

底层算法服务层：整合封装人脸识别、语音识别、通用标签、视频分类、logo识别（台标）等多项视觉理解算法，同时进行服务化集成，形成统一分析服务层，用于对输入内容进行结构化分析。
中间逻辑神经层：通过上层输入的素材（clib、shot、sequence等）进行解析，同时将解析后的素材，调度转发对应底层算法服务，获取输出结果，同时将多个分析结果进行merge整合、交叉验证，完成后将merge后的结果数据向上输出。
上层应用处理层：作为外部视频素材的统一输入通道，以API方式提供视频上传服务，同时约定上传格式以及大小等输入条件，提供视频分解服务，将上传的视频进行合理分解，供后端逻辑层进行调度分析。此外，上层应用层还提供了人脸库创建等工具型接口的透传，供用户实现应用配置。

详谈多媒体AI？

相关基本概念

限制说明

产品流程示意图

400-692-8081