動画の無音部分を自動でカットする〜 MLと波形解析のハイブリッド音声処理〜

5.4K Views

November 03, 24

#ios #coreml #swift #soundanalysis #avfoundation #音声処理 #動画処理 #ml #iOSアプリ開発 #機械学習 #波形解析 #動画編集

スライド概要

Kanagawa.swift #1 での発表資料です。
https://kanagawaswift.connpass.com/event/332163/

Shuichi Tsutsumi

@shu223

スライド一覧

フリーランスiOSエンジニア「エンジニアと人生」コミュニティ主宰

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

（ダウンロード不可）

関連スライド

「スキルなし・実績なし」 32歳窓際エンジニアがシリコンバレーで働くようになるまで

Shuichi Tsutsumi 70K

iOSではじめるフォトグラメトリ #iOSDC

ios coreml iosdc ml photogrammetry

Shuichi Tsutsumi 51.5K

ローカルLLM on iOS の現状まとめ

ios coreml llm llama.cpp

Shuichi Tsutsumi 50.3K

GIS入門 - 地理情報をiOSで活用する

iosdc ios gis mapbox

Shuichi Tsutsumi 42.4K

Cursor × iOS開発 - 私はこうやってます 2025年5月版

ios swift ml ai cursor

Shuichi Tsutsumi 38.5K

ふつうのAI駆動iOS開発

ios swift xcode ai claudecode

Shuichi Tsutsumi 37.7K

各ページのテキスト

動画の無音部分を自動でカットする〜 MLと波形解析のハイブリッド音声処理〜

自己紹介 • 堤修一 • @shu223 (GitHub, Zenn, Qiita, note, Docswell, 𝕏, YouTube, Podcast, etc...) • 書籍（商業出版4冊、個人出版多数 @BOOTH）:

最近書いた本エンジニアのための「労働集約からの脱却」入門 zenn.dev/shu223/books/ monetization

https://zenn.dev/shu223/books/monetization

Kanagawaとの関係今年2月に鎌倉に移住 • 10年前にも3年ほど住んでいた（小町・雪ノ下） • 材木座 • 駅まで徒歩23分 • 最寄りのコンビニまで徒歩15分 • 海まで徒歩4分

FAQ: 鎌倉って観光で行くイメージしかないけど住むってどうなの？ A: 最高 • 海も山も街もある • 散歩してるだけで楽しい • 観光客多いのは小町・由比ヶ浜・長谷など一部 • 材木座は由比ヶ浜より落ち着いていて40代後半の子育て世代にはちょうどいい • 都心よりは安い • 2LDK + 作業用1K → 一軒家になって家賃は4割減 • 地方よりは東京に出やすい

本題

話すこと動画の無音部分を自動でカットする処理のiOSでの実装方法

無音部分のカット？ • 人が話している部分「以外」をカットしたい • いわゆるジェットカット

さっそくデモ

10.

Chopper AIで人の声を抽出して動画の無音を自動でカットするアプリ • 2021年リリース • 2023年に有料化 • そこそこ売れている

https://x.com/shu223/status/1388670705240199169

11.

Before After 300秒 145秒（52%カット）

12.

Before After 34秒 26秒（24%カット）

13.

動画の無音カット処理全体の流れ入力 → 音声抽出 → 発話区間検出 → 入力動画の発話区間以外をカット → 出力

14.

動画の無音カット処理全体の流れ入力 → 音声抽出 → 発話区間検出 → 入力動画の発話区間以外をカット → 出力

15.

「発話区間検出」をどう実現するか？

16.

「音のありなし」で判定すればいい？

17.

→ 周りがガヤガヤしてたり車の音が入ってたりしてるだけでもう発話と区別できない

18.

→ MLで「人の声」を判定する

19.

Sound Analysisフレームワーク • MLベースの音声分類 • iOS 13 / WWDC19 で登場 • 当時書いた記事： SoundAnalysis + Create MLで話者認識 - Qiita

https://qiita.com/shu223/items/5d6256c7647db8cea139

20.

音声分類（Sound Classification）

21.

実装 // アナライザを初期化 let audioFileAnalyzer = try SNAudioFileAnalyzer(url: url) // MLModelオブジェクトを渡してリクエストを作成 let request = try SNClassifySoundRequest(mlModel: mlmodel) // リクエストをアナライザに追加 try audioFileAnalyzer.add(request, withObserver: self) // 解析開始 audioFileAnalyzer.analyze()

22.

デモ： Sound Analysisを用いた話者認識 • WWDC19のキャッチアップイベント用につくったデモ • 人物ごとの音声を学習したモデルを Create MLで作成

https://wwdc-gorilla.connpass.com/event/132144/

23.

Sound Analysisを用いた発話区間検出 ver. 1 • Human / Background の音声分類を行うカスタム Sound Classificationモデルを使用 • 分類性能はそこそこ

24.

Sound Analysisを用いた発話区間検出 ver. 2 • iOS 15 / WWDC21でビルトイン（システム組み込み）の音声分類器が利用可能に（それまではモデルを自作するしかなかった） • 約300種類の音声を判別可能 • その中に "speech" も • 分類性能は以前のカスタムモデルと比較して大幅に向上 • 解説記事： Sound Analysisのビルトイン音声分類器

25.

26.

実装方法以前とほぼ同じ let audioFileAnalyzer = try SNAudioFileAnalyzer(url: url) // ここだけが新しい let request = try SNClassifySoundRequest(classifierIdentifier: .version1) try audioFileAnalyzer.add(request, withObserver: self) audioFileAnalyzer.analyze()

27.

Chopperにおける発話区間検出の細かい話 1 "speech" 以外にも、「人の発話」として検出したいクラスを拾っている • 笑い声系 "laughter", "belly_laugh", "giggling", ... • 表現系 ”singing”, "humming", "whispering", "breathing", ... etc...

28.

Chopperにおける発話区間検出の細かい話 2 1位にspeechが来てたら発話区間、みたいな単純な話でもなく、精度向上のため秘伝のタレ的なロジック調整を色々と行っている • 順位関係なく、発話クラスのConfidence（確信度）ベースで判定している • Confidenceのヒストグラムから、カットレベルLow, Mid, Highの閾値を動的に決定 • 発話が断片的にならないよう、連続性も見ている

29.

However

30.

MLは完璧じゃない普通に無音なところも検出できないことがある

31.

MLは完璧じゃない普通に無音なところも検出できないことがある → 波形処理ベースの無音区間判定も併用

32.

iOSにおける音声波形処理 • 音声はAVFoudationで扱う（AVAudioPCMBuffer） • 音声波形処理デジタル信号処理には Accelerateフレームワークの vDSP を使用する解説記事： AVAudioPCMBufferの取り扱いメモ｜shu223

https://note.com/shu223/n/nc65fbc626a3b

33.

RMS（root mean square, 二乗平均平方根） • 音圧を表す指標 • 単位時間ごとに計測された音量を計算する

34.

[beta]

RMS計算の実装
絶対値の平均を計算してもいいが、Accelerateフレームワークの
vDSP_measqv 関数を利用して一行で書ける

rms

static func rms(data: UnsafeMutablePointer<Float>, frameLength: UInt) -> Float {
var val : Float = 0

vDSP_measqv(data, 1, &val, frameLength)

}

rms

return val

公式ドキュメントに記載されている vDSP_measqv 関数の計算式は、 C[0] = sum(A[n] * A[n], 0 <= n < N) /

N; ・・・つまり出力される値は二乗されたものであって、最後に平方根を取る計算はこの関数では行われない。

35.

RMSを用いてどのように無音カットするか？ Logic Proと同等のパラメータ構成で実装（単純な閾値処理ではない） public struct Configuration: Equatable, Hashable { public init() {} /// 閾値（デシベル） public var threshold: Int = ... /// 無音として扱う最低限の時間 public var minDuration: Double = ... /// カットし始める部分の長さに余裕を持たせる public var preAttackTime: Double = ... /// カットし終わる部分の長さに余裕を持たせる } public var postReleaseTime: Double = ...

36.

まとめ弊アプリでは、動画の自動無音カットのため以下2つの方法をハイブリッドで使用： • MLベースの発話区間検出 • Sound Analysis のビルトイン音声分類器を利用 • 音声波形処理ベースの無音区間検出 • AVFoundation / Accelerate を利用

37.

Chopper - 動画の無音部分を自動でカット apps.apple.com/jp/app/id1560947520 ⭐⭐⭐⭐⭐ いただけると大変うれしいです

https://apps.apple.com/jp/app/id1560947520

動画の無音部分を自動でカットする 〜 MLと波形解析のハイブリッド音声処理 〜

Shuichi Tsutsumi

関連スライド

「スキルなし・実績なし」 32歳窓際エンジニアがシリコンバレーで働くようになるまで

iOSではじめるフォトグラメトリ #iOSDC

ローカルLLM on iOS の現状まとめ

GIS入門 - 地理情報をiOSで活用する

Cursor × iOS開発 - 私はこうやってます 2025年5月版

ふつうのAI駆動iOS開発

各ページのテキスト

動画の無音部分を自動でカットする〜 MLと波形解析のハイブリッド音声処理〜