你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
预览版 API 版本 2024-12-01-preview , 2025-05-01-preview 将于 2026 年 7 月 15 日停用。 如果仍在使用预览 API,请更新代码以面向最新的 API 版本 2025-11-01 (GA)。
API 版本 2024-12-01-preview 且 2025-05-01-preview 以公共预览版提供。 这些预览版在没有服务级别协议的情况下提供,不建议用于生产工作负荷。 有关详细信息,请参阅 Microsoft Azure 预览版的使用条款和 Microsoft 产品和服务数据保护附录(“DPA”)。
Azure内容理解允许你生成一组标准的视频元数据,并使用生成模型为特定用例创建自定义字段。 内容理解可帮助你管理、分类、检索和生成视频资产的工作流。 它增强了媒体资产库,支持亮点生成、对内容进行分类等功能,并促进诸如检索增强生成(RAG)等应用程序的使用。
预生成的视频分析器 (prebuilt-videoAnalysis) 输出 RAG 就绪输出。 在 Markdown 中,输出以下内容:
- 转录文件: 标准 WEBVTT 格式的内嵌转录
- 关键帧: 有序的关键帧缩略图,可实现更深入的分析
JSON 架构包含可视化分析中的更多详细信息。
- 描述: 具有视觉和语音上下文的自然语言段说明
- 分割: 根据定义的类别,自动场景分段将视频分解成逻辑区块
此格式可以直接拖放到矢量存储中,以启用代理或 RAG 工作流 -- 不需要后期处理。
可以从那里自定义分析器,以便更精细地控制输出。 可以定义自定义字段和段。 通过自定义,可以使用生成模型的全部功能从视频的视觉和音频详细信息中提取深入见解。
例如,自定义允许你:
- 定义自定义字段: 确定视频中看到或提及的产品和品牌。
- 生成自定义段: 根据讨论的主题或新闻报道将新闻广播细分为章节。
-
使用面部描述识别知名人物:使客户能够根据生成模型的全球知识,在镜头中标注名人及其姓名和头衔,例如
Satya Nadella。
为何对视频使用内容理解?
视频的内容理解具有广泛的潜在用途。 例如,可以自定义元数据以标记培训视频中的特定场景,从而使员工更容易找到并重新访问重要部分。 还可以使用元数据自定义来识别促销视频中的产品位置,这有助于营销团队分析品牌曝光。 其他用例包括:
- 广播媒体和娱乐: 通过为每个资产生成详细的元数据来管理大型放映、电影和剪辑库。
- 教育和电子学习: 在教育视频或讲座中为特定时刻编制索引和检索。
- 公司培训: 按关键主题、场景或重要时刻组织培训视频。
- 营销和广告: 分析促销视频,提取产品位置、品牌外观和关键消息。
预生成视频分析器示例
使用预生成的视频分析器(预生成视频搜索),可以上传视频并立即获取可用知识资产。 该服务将内容打包为格式丰富的 Markdown 和 JSON。 此过程允许搜索索引或聊天代理引入内容,而无需自定义粘附代码。
例如,调用为检索扩充生成设计的视频分析器
prebuilt-videoSearch。 有关详细信息,请参阅 REST API 快速入门 。分析 30 秒的广告视频将生成以下输出:
# Video: 00:00.000 => 00:06.000 A lively room filled with people is shown, where a group of friends is gathered around a television. They are watching a sports event, possibly a football match, as indicated by the decorations and the atmosphere. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Get new years ready. Key Frames - 00:00.600  - 00:01.200  ## Video: 00:06.000 => 00:10.080 The scene transitions to a more vibrant and energetic setting, where the group of friends is now celebrating. The room is decorated with football-themed items, and everyone is cheering and enjoying the moment. Transcript WEBVTT 00:03.600 --> 00:06.000 <Speaker 1>Go team! Key Frames - 00:06.200  - 00:07.080  *…additional data omitted for brevity…*
操作指南
请参阅以下关于使用内容理解实现视频 RAG 的演练:
能力
注意
人脸识别和分组功能仅在预览版 API 版本中可用,并且不包括在 GA 版本中。
两个阶段将原始视频转换为结构化见解。 下图显示了内容提取如何流入字段提取。
该服务分两个阶段运行。 第一阶段的内容提取涉及捕获基础元数据,例如脚本和镜头。 第二阶段字段提取使用生成模型生成自定义字段和执行分段。
内容提取功能
第一阶段就是提取第一组细节 - 说话人和剪辑点。 它创建了一个可靠的元数据骨干,使后续步骤可以进行逻辑推理。
转录: 以 WebVTT 格式将对话音频转换为可搜索和分析的基于文本的脚本。 如果
"returnDetails": true已设置,则句子级时间戳可用。 内容理解功能支持 Foundry Tools 中 Azure 语音的语音转文本语言的完整集。 视频语言支持的详细信息与音频相同, 有关详细信息,请参阅音频语言处理 。 以下转录详细信息需仔细考虑:Diarization: 区分输出中对话中的说话人,将脚本的某些部分归因于特定说话人。
多语言转录: 生成多语言文本。 语言/区域设置应用于脚本中的每个短语。 设置
"returnDetails": true时会输出的短语。 偏离语言检测,当未指定语言/区域设置或将语言设置为auto时启用此功能。注意
使用多语言转录时,任何具有不受支持的区域设置的文件都基于最接近的支持区域设置生成结果,这结果很可能不正确。 此结果是已知行为。 通过在不使用多语言脚本支持的区域设置时配置区域设置,避免脚本质量问题!
关键帧提取: 从视频中提取关键帧以完全表示每个镜头,确保每个镜头有足够的关键帧,使现场提取能够有效工作。
镜头检测:尽可能识别与镜头边界对齐的视频片段,从而允许对内容进行精确编辑和重新打包。 输出是时间戳列表(以毫秒为单位
cameraShotTimesMs)。 仅当"returnDetails": true设置时,才返回输出。
字段提取和分割
接下来,生成模型分层含义 - 标记场景、总结动作,并根据你的请求将镜头切片。 操作将提示转换为结构化数据。
自定义字段
调整输出以匹配业务词汇。 使用一个 fieldSchema 对象,其中每个条目定义字段的名称、类型和说明。 在运行时,生成模型会为每个片段填充这些字段。
媒体资产管理:
- 视频类别: 通过将内容分类为新闻、体育、采访、纪录片或广告,帮助编辑和制作人组织内容。 可用于元数据标记和更快速的内容筛选和检索。
- 配色方案: 传达情绪和气氛,对叙事一致性和观众参与至关重要。 识别颜色主题有助于查找匹配的剪辑,以便进行加速视频编辑。
广告:
- 品牌: 标识品牌状态,对分析广告影响、品牌可见性和与产品的关联至关重要。 此功能允许广告商评估品牌突出度,并确保遵守品牌准则。
- 广告类别: 按行业、产品类型或受众细分对广告类型进行分类,支持有针对性的广告策略、分类和性能分析。
例子:
"fieldSchema": {
"description": "Extract brand presence and sentiment per scene",
"fields": {
"brandLogo": {
"type": "string",
"method": "generate",
"description": "Brand being promoted in the video. Include the product name if available."
},
"Sentiment": {
"type": "string",
"method": "classify",
"description": "Ad categories",
"enum": [
"Consumer Packaged Goods",
"Groceries",
"Technology"
]
}
}
}
人脸描述字段
注意
该功能仅限少数人访问;客户需要通过Azure支持请求来禁用Azure OpenAI 模型的人脸模糊。 详细了解 管理 Azure 支持请求。
可以选择性地增强字段提取功能,以提供视频中人脸的详细描述。 此功能包括面部毛发、面部表情和名人的存在等属性,这对于各种分析和索引目的至关重要。 要在分析器配置中启用人脸描述功能,请设置disableFaceBlurring : true。
例子:
-
示例字段:facialHairDescription:描述面部毛发的类型(例如,
beard、mustacheclean-shaven) -
示例字段:nameOfProminentPerson:尽可能提供视频中名人的姓名(例如,
Satya Nadella) - 示例字段:faceSmilingFrowning: 提供有关某人是微笑还是皱眉的说明
分段模式
注意
即使未定义任何字段,配置分段也会采用生成模型并消耗令牌。
内容理解提供两种裁剪视频的方法,让你可以获取整个视频或短视频剪辑所需的输出。 可以通过在 enableSegment 自定义分析器上设置属性来使用这些选项。
全视频 –
enableSegment : false该服务将整个视频文件视为单个段,并在整个持续时间内提取元数据。用例:
- 在整个广告中查找特定品牌安全问题的合规性检查
- 完整描述性摘要
自定义分段 -
enableSegment : true使用自然语言描述逻辑,模型创建要匹配的段。 设置contentCategories一个字符串,描述你希望如何对视频进行分段。 自定义允许长度不等的片段,从几秒到几分钟不等,具体取决于提示。 在此版本中,视频仅支持一个contentCategories对象。例子: 将新闻广播拆分为多个故事。
{ "config": { "enableSegment": true, "contentCategories": { "news-story": { "description": "Segment the video based on each distinct news segment. Use the timestamp of each image to identify the start and end time of each segment, no overlap segments. Ignore non-news segments like ads or promotion.", "analyzerId": "NewsAnalyzer" } } } }
主要优势
与其他视频分析解决方案相比,内容理解提供了几个关键优势:
- 基于段的多帧分析: 通过分析来自每个视频段的多个帧而不是单个帧来识别操作、事件、主题和主题。
- 定制: 根据您的特定用例,修改架构以自定义字段和分割。
- 生成模型: 用自然语言描述要提取的内容,内容理解使用生成模型提取该元数据。
- 优化的预处理: 执行多个内容提取预处理步骤,例如听录和场景检测,经过优化,为 AI 生成模型提供丰富的上下文。
技术约束和限制
要记住的视频处理的具体限制:
- 帧采样(约 1 FPS):分析器每秒检查大约一帧。 可能会错过快速动作或单帧事件。
- 帧分辨率(512 × 512 像素):采样帧的大小调整为 512 像素方形。 小型文本或遥远的对象可能会丢失。
- 口语:只转录口头语言。 将忽略音乐、声音效果和环境噪音。
输入要求
有关支持的格式,请参阅 服务配额和限制。
支持的语言和区域
请参阅 语言和区域支持。
数据隐私和安全性
与所有 Foundry 工具一样,请查看Microsoft的 Data、保护和隐私文档。
重要
如果处理 生物识别数据 (例如启用 人脸描述),则必须根据适用法律满足所有通知、同意和删除要求。 请参阅 人脸数据和隐私。
相关内容
尝试在 内容理解工作室中分析视频。
查看内容理解工作室快速入门。
详细了解如何使用 分析器模板分析视频内容。
样品: