Skip to main content

Command Palette

Search for a command to run...

[IT 鐵人賽] Azure Data Service - Day 04 - Cognitive Service - 辨識 - Video Indexer

Updated
1 min read
[IT 鐵人賽] Azure Data Service - Day 04 - Cognitive Service - 辨識 - Video Indexer

Azure Data Service - Day 04 - Cognitive Service - Vision - Video Indexer

前面幾篇都是介紹靜態影像的辨識與分析,那這篇就來到針對影片來做處理。

Cognitive Service 針對影片辨識的部分提供了:Video Indexer

它整合了許多功能,在這邊列出一些比較重要的功能:

  • 語系偵測 可以自動偵測出這個影片是屬於哪個語系,目前支援: English, Spanish, French, German, Italian, Chinese (Simplified), Japanese, Russian, and Portuguese (Brazilian)。
  • 語音轉字幕 透過 Cognitive Service 語音轉文字的技術,將所有語音轉為字幕,並提供不同的字幕檔格式;如果影片的內容是屬於特殊領域或是發音較為特殊,也可以透過 Custom Speech 的方式來增進辨識率。
  • 降噪 透過 Skype 的過濾器,濾除像是電話噪音或是背景雜音。
  • 角色分析 可以知道哪個角色在何時說了那些話、語速如何,將這些資訊變成結構化資料提供搜尋。
  • 文字辨識 (OCR) 透過 OCR 的方式辨識影片有出現的任何文字。
  • 擷取品牌資訊 除了透過 OCR 辨識品牌文字以外,也會透過影像辨識品牌的 LOGO。

提供的功能實在很多,詳細請看:https://docs.microsoft.com/zh-tw/azure/cognitive-services/video-indexer/video-indexer-overview

Video Indexer 是個 SaaS 服務,所以這次就沒有 Coding 的部分,但是它還是有提供 API 可以讓你自己來串接,從上傳檔案到取得分析完的結果。


我們直接開啟網站:https://www.videoindexer.ai/,點選「登入」,如果沒有帳號就自己註冊啦

直接免費試用,如果要付費再透過 Azure 付費就好

登入完後就可以看到以下畫面

我就使用 Microsoft Ignite 2018 的其中一段影片作為範例:https://www.youtube.com/watch?v=5quEOAM_jnc

點選上傳來上傳影片檔案

  • Video source language 可以手動選擇影片的語系,也可以切成自動偵測。
  • Privacy 選擇影片的隱私設定,分為公開跟私密。
  • Indexing preset 可以指定音訊要處理的方式,有 Default、Audio only 與 Noise reduction。
  • Streaming quality 選擇影片的編碼方式,有單一編碼、適應性編碼或者是不編碼。

按下送出後就會開始進行處理。

處理完畢就回如上圖所顯示,直接點開 Play,來看看相關資訊。

可以在上圖看到 Overview 介面,下面來一一介紹。

首先先來看看影片的播放介面,這就是一般常見的播放介面。

一號紅框是它轉換完成的字幕,英文基本上都是很準的。

二號紅框是影片編碼率,如果在編碼時就有指定自適應性編碼率,就可以有多個編碼品質可以選擇。

在人員區塊中,它會秀出所有有在影片中出現的人,如果是名人的話,甚至會自動幫你標記出他是誰,除此之外,在下方有一時間軸,有在影片中出現的時間都會標成黑色,點選後就影片就會自動跳到時間區段。

這邊會自動判斷出影片中所有的關鍵字,把它一一列出來,同樣的,下方也提供時間軸,有出現關鍵字的時間區段會標為黑色,點選後讓影片可以快進到該關鍵字出現的時間區段。

這區是提供所有場景的 TAG 列表,同樣的會在下面時間軸顯示有出現的時間區段,點選後會自動跳的影片的該時間區段。

這邊會顯示所有有在影片裡面偵測到不論是文字或者是商標的品牌,都會顯示在這邊。

也會整合情緒偵測,偵測在影片的每個時間裡的情緒表現為何,把它做成時間軸來顯示。

最後就是整合了智慧縮圖技術,它會自動尋找精彩焦點自動截圖。


切到另一個頁籤:「Timeline」,這邊主要就是依據時間一一把不論是字幕或者是有在影片中被辨認出來的關鍵字或人物顯示出來


小結

透過上面的介紹,我們可以看到 Video Indexer 其實是把 Cognitive Service 所提供的不同服務集大成在這一個服務裡。


下一篇來介紹一下針對影片與圖片所提供的「內容仲裁」服務。

More from this blog

Career-Ops 安裝與設定 — 用 AI 來幫你篩職缺、客製履歷

最近在看新的工作機會,光是瀏覽職缺、比對 JD、調整履歷就花了不少時間。 後來找到 Career-Ops 這個開源專案 作者 santifer 用這套系統篩了 740 多個職缺、產出 100 多份客製化履歷,最後拿到 Head of Applied AI 的 offer。 看起來蠻有意思的,所以我就在 Windows 上實際裝了一輪,這篇就來把整個安裝和設定的過程記錄下來。 我這邊搭配的 AI 後

Apr 12, 20265 min read
Career-Ops 安裝與設定 — 用 AI 來幫你篩職缺、客製履歷

讓 LLM 自動化你的 N8N 工作流程:n8n-mcp-server 安裝指南

前言 網路上一大堆都是在介紹如何在 N8N 裡面用 MCP 來呼叫其他工具,但是更多時候我希望 LLM 能直接幫我寫好或是修改 N8N 的工作流程 所以這篇就來介紹如何設定與使用 n8n-mcp-server 來讓 LLM 幫忙操控 N8N 在 GitHub 上有不少的 n8n-mcp-server,經過一下下的簡單搜索,我決定使用這個專案: n8n-mcp-server 原因在於說這個專案的實作提供了基本上所有需要編輯工作流程的功能,以下就來記錄安裝過程 MCP Server 設定 首先當然...

May 28, 20253 min read

[IT 鐵人賽] ASP.NET Core 與 Log 紀錄和追蹤的愛恨交織 - Day 05 - Elmah - 02

.NET Core Logging- Elmah 02 上一篇我們提到了基本的使用方式,接下來的這一篇我們就來講講要怎麼把 Log 放到不同的儲存體上,以及如何過濾 Log Log 儲存方式 我們先來看這些 Log 倒底存在哪裡,目前共有三種儲存方式,如下: MemoryErrorLog — store errors in memory 預設為使用此方式,簡單來說就是將錯誤 Log 都存在記憶體裡,所以只要應用程式一重新啟動,Log 就沒了;但是也是最方便的方式,只是要注意如果 Log 太...

Oct 20, 20182 min read
[IT 鐵人賽] ASP.NET Core 與 Log 紀錄和追蹤的愛恨交織 - Day 05 - Elmah - 02

[IT 鐵人賽] ASP.NET Core 與 Log 紀錄和追蹤的愛恨交織 - Day 04 - Elmah - 01

.NET Core Logging- Elmah 01 Elmah 是我最一開始使用的 Log 工具,基本上它的功能就是將應用程式所有發生的錯誤記錄下來,不需要改變程式架構,而且又有介面可以觀看,十分的方便;它從 WebForm 時代就有了,到了 MVC 也是運作的很好,那這邊就來介紹一下 Elmah 要如何在 ASP.NET Core 中使用 (.NET Core 也可使用)。 不過很可惜的,目前並沒有釋出官方的 Elmah for .NET Core,不過有一個新專案: ElmahCore...

Oct 19, 20181 min read
[IT 鐵人賽] ASP.NET Core 與 Log 紀錄和追蹤的愛恨交織 - Day 04 - Elmah - 01

BrainBurst, HeadFirst

45 posts

學習學到老,撞牆撞到腦. A lifelong quest—with forehead dents.