文字起こしデータを用いたラジオ番組の基礎的調査

>100 Views

February 28, 25

スライド概要

西岡 興平, 岡本 一志, 柴田 淳司, 原⽥ 慧, 軽部 幸起: 文字起こしデータを用いたラジオ番組の基礎的調査, 第17回データ工学と情報マネジメントに関するフォーラム, 2025.2, オンライン.

profile-image

Data Science Research Group, The University of Electro-Communications

シェア

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

関連スライド

各ページのテキスト
1.

文字起こしデータを用いたラジオ番組の基礎的調査 西岡 興平,岡本 一志(電気通信大学),柴田 淳司(東京都立産業技術大学院大学), 原⽥ 慧,軽部 幸起(電気通信⼤学) 2025.02.28 DEIM 2025 1 / 28

2.

はじめに 近年,ラジオ番組や聴取機会が増加している インターネットラジオの普及がきっかけ リモートワークや巣ごもり需要の増加が起因[DigitalShiftTimes, 2021] ラジオ番組には番組ごとの特色がある 特にパーソナリティーによって番組のトーンや内容が異なる[radiko news, 2024] メディアの番組コンテンツに関する研究:スポーツやニュースなど特定のジャンルに焦点 ラジオ番組全体の多様性を包括的に分析する試みは不足 2025.02.28 DEIM 2025 2 / 28

3.

本研究の目的 推薦システムへの応用可能性の検討 ラジオ番組の多様な特徴を文字起こしデータを用いて多角的に分析 研究手順 2025.02.28 DEIM 2025 3 / 28

4.

関連研究 研究 対象媒体 対象番組 内容 ラジオのスポーツ実況中継を分析し, [西本+, 2006] ラジオ スポーツ番組 競技ごとにテレビ中継と比較 字幕を用いた感情分析により, [イー+, 2022] テレビ ニュース番組 日本社会の「気分」を視覚化して分析 番組視聴データと放送内容テキストを用いて, [山田+, 2024] テレビ 非公開 視聴者属性ごとの視聴量変動を予測 本研究 ラジオ 全番組 音源の文字起こしを用いた包括的な分析 ラジオ全体の多様なコンテンツに対する横断的な分析までは十分に行われていない 2025.02.28 DEIM 2025 4 / 28

5.

1*: 番組情報はradiko APIから取得 データセットの概要 集計期間:2024年7月1日〜2024年7月31日の計744時間 放送局:ニッポン放送(LF),TBSラジオ(TBS),文化放送(JOQR),NHKラジオ第1(NHK) 実際にアンテナを用いて収集したが,収集過程においての技術的制約や放送環境の影響 により,一部の音源は完全に収集できていない ニッポン放送 TBSラジオ 文化放送 NHKラジオ第1 放送局計 収集時間 584 708 724 733 2,749 収集率 78.5% 95.2% 97.3% 98.5% 92.4% 実測放送回数 742 725 883 1,719 4,069 放送回数 940 837 900 2,051 4,727 2025.02.28 DEIM 2025 5 / 28

6.

収集環境 2025.02.28 DEIM 2025 6 / 28

7.

データセットの構築 文字起こしにはfaster-whisperのlarge-v3モデルを利用 Whisperモデルのパラメータチューニングを通じて精度向上 無音区間判別のための閾値を調整 発狂状態と呼ばれる過剰な解析を抑制する処理(3回に制限) (例:「ハローハローハローハローハローハロー」 → 「ハローハローハロー」) 分析の基盤となるテキストデータを効率的に構築 1ヶ月分のデータ(744時間×4局)の文字起こしにかかった時間:812時間 1局1時間分の音源の文字起こしには平均30分 2025.02.28 DEIM 2025 7 / 28

8.

1分当たりの単語数・品詞数の平均 放送局 単語数 名詞 固有名詞 自立動詞 形容詞 副詞 ニッポン放送 832.9 318.6 84.6 83.3 16.7 30.7 TBSラジオ 828.2 306.9 75.1 84.9 17.8 32.9 文化放送 842.4 312.1 78.6 85.5 17.0 32.8 NHKラジオ第1 363.6 151.9 48.7 36.0 6.0 10.2 形態素解析にMeCab,形態素解析に利用する辞書はmecab–ipadic–NEologdを利用 NHKラジオ第1:ノイズの影響により,文字起こしが正確に行われていない 2025.02.28 DEIM 2025 8 / 28

9.

番組メタデータの収集 radikoはAPIを通じて,放送番組に関連する詳細な情報を提供(太字は本研究で利用) 番組名(例:三四郎のオールナイトニッポン0(ZERO)) 放送局名(例:ニッポン放送) 放送日時 出演者情報(例:三四郎(小宮浩信/相田周二)) 番組ジャンル情報(例:バラエティ) 出演者ジャンル情報(例:芸人) 番組タグ(例:三四郎,小宮浩信,相田周二,お笑い芸人の最強トーク,三四郎ANN0) 番組の詳細説明・紹介文 関連URL 2025.02.28 DEIM 2025 9 / 28

10.

番組ジャンルごとの番組数・1分あたりの単語数 番組ジャンルごとの番組数 2025.02.28 番組ジャンルごとの1分あたりの単語数 DEIM 2025 10 / 28

11.

トーク・バラエティ・音楽ジャンルの平均単語数・品詞数 放送局 ジャンル 単語数 名詞数 固有名詞数 動詞数 形容詞数 副詞数 放送時間 ニッポン放送 トーク 837.77 308.01 75.52 114.47 19.26 34.13 29.81 TBSラジオ トーク 862.92 305.44 67.40 118.66 21.42 38.40 52.64 文化放送 トーク 887.99 311.24 72.97 121.47 19.87 36.90 62.09 ニッポン放送 バラエティ 874.34 313.06 75.89 117.42 20.87 36.58 61.13 TBSラジオ バラエティ 833.73 313.50 80.93 108.01 20.07 34.42 53.62 文化放送 バラエティ 818.54 292.36 68.00 112.87 21.03 37.72 40.03 ニッポン放送 音楽 570.34 236.32 69.60 71.73 11.10 16.77 76.69 TBSラジオ 音楽 311.56 123.33 33.59 44.69 7.41 12.21 91.25 文化放送 音楽 502.49 198.00 53.79 71.43 11.45 19.36 49.01 2025.02.28 DEIM 2025 11 / 28

12.

番組ジャンルによる違いの比較 LF:ニッポン放送,TBS:TBSラジオ,JOQR:文化放送 トークやバラエティでは音楽に比べ出現単語数が多い(特にTBS) トークの名詞数と固有名詞数がバラエティより若干多い(LF,JOQR) トーク番組が実際の人物や出来事に関連する話題を扱う割合が高いことを示唆 バラエティはトークと比べて単語数が,LFで同程度,TBS・JOQRでやや少ない 笑い声や効果音などの非言語的要素が多く,言葉以外で情報を伝える傾向を示唆 音楽では他ジャンルよりも出現単語数が少なく,名詞・動詞・形容詞の出現数も少ない 音楽番組の特性として,他ジャンルに比べて会話が少ないことが影響 番組ジャンルごとに単語や品詞の出現数の違いを確認 2025.02.28 DEIM 2025 12 / 28

13.

テキストの統計分析における懸念点 LF:ニッポン放送,TBS:TBSラジオ 放送局 ジャンル 番組(一部抜粋) 伊集院光のちょいタネ , あいみょんのオールナイトニッポン GOLD, LF トーク 櫻坂46 こちら有楽町星空放送局, テレフォン人生相談 , 霜降り明星のオールナイトニッポン, LF バラエティ ナインティナインのオールナイトニッポン サンドウィッチマン ザ・ラジオショー サタデー, 土田晃之 日曜のへそ アルコ&ピース D.C.GARAGE, JUNK おぎやはぎのメガネびいき, TBS トーク JUNK バナナマンのバナナムーンGOLD, さらば青春の光がTaダ、Baカ、Saワギ TOKYO ナイツのちゃきちゃき大放送, 藤田ニコルのあしたはにちようび, TBS バラエティ 土曜ワイドラジオ かまいたちのヘイ!タクシー!, 高見沢俊彦のロックばん LFではバラエティと分類されそうな番組もTBSではトークに分類 他局におけるトークの特徴が,LFではバラエティとして現れている ジャンルの振り分けは放送局による分類に基づいており,正確性には改善の余地がある 2025.02.28 DEIM 2025 13 / 28

14.

時間帯によって異なるターゲット層 [文化放送, 2024] 例) 朝の時間帯:ニュースや情報番組 → 出勤前の社会人リスナー 昼間や夕方の時間帯:エンタメや音楽番組 → 主婦リスナー 時間帯の分類 05:00 – 12:00:朝の番組 12:00 – 18:00:昼の番組 18:00 – 24:00:夜の番組 00:00 – 05:00:深夜番組 2025.02.28 DEIM 2025 14 / 28

15.

時間帯別の平均単語数 時間帯 ニッポン放送 TBSラジオ 文化放送 NHKラジオ第1 朝 836.20 849.06 882.83 286.19 昼 900.90 868.13 907.72 262.19 夜 811.20 916.51 890.55 439.12 深夜 755.89 639.83 645.59 502.53 深夜帯の出現単語数が他の時間帯と比較して最も少ない傾向を確認(LF,TBS,JOQR) 深夜帯に放送される番組の内容に起因することを示唆 2025.02.28 DEIM 2025 15 / 28

16.

各時間帯における特徴 放送局 ニッポン放送 TBSラジオ 文化放送 ニッポン放送 TBSラジオ 文化放送 ニッポン放送 TBSラジオ 文化放送 ニッポン放送 TBSラジオ 文化放送 時間帯 朝 朝 朝 昼 昼 昼 夜 夜 夜 深夜 深夜 深夜 2025.02.28 番組数上位3ジャンル トーク(109),情報(60),バラエティ(59) トーク(47),ニュース/天気/交通(23),情報(16) ニュース/天気/交通(65),バラエティ(13),トーク(12) バラエティ(96),スポーツ(62),トーク(37) ニュース/天気/交通(67),情報(35),トーク(31) トーク(57),ニュース/天気/交通(35),ショッピング(22) トーク(59),スポーツ(51),バラエティ(30) トーク(55),ニュース/天気/交通(45),バラエティ(39) バラエティ(63),スポーツ(39),アニラジ(36) バラエティ(41),トーク(37),ライフスタイル(16) トーク(50),音楽(20),バラエティ(8) バラエティ(67),音楽(50),アニラジ(44) DEIM 2025 朝,昼:情報番組 夜:スポーツ中継,トーク 深夜:バラエティ,トーク,音楽 朝・昼・夜は情報量が多い 深夜は情報量が少ない 16 / 28

17.

2025.02.28 放送局 時間帯 名詞数 固有名詞数 動詞数 形容詞数 副詞数 ニッポン放送 朝 326.29 87.95 107.39 15.28 29.23 ニッポン放送 昼 348.08 93.71 112.85 17.47 31.82 ニッポン放送 夜 318.24 87.93 103.01 15.21 28.54 ニッポン放送 深夜 266.14 62.82 106.01 19.37 33.88 TBSラジオ 朝 329.33 87.21 109.34 16.98 30.29 TBSラジオ 昼 323.20 79.86 114.58 19.00 33.73 TBSラジオ 夜 333.50 77.91 123.65 18.66 37.97 TBSラジオ 深夜 226.68 51.80 90.78 16.16 28.34 文化放送 朝 327.21 82.66 117.05 17.22 33.28 文化放送 夜 333.86 84.65 116.68 16.93 34.62 文化放送 深夜 231.62 53.94 90.12 16.04 28.36 文化放送 昼 338.06 87.66 118.96 17.69 33.81 NHKラジオ第1 朝 112.96 32.69 37.05 4.81 8.47 NHKラジオ第1 昼 116.30 39.47 33.58 4.68 6.51 NHKラジオ第1 夜 196.51 69.43 52.75 7.12 11.91 NHKラジオ第1 深夜 191.21 54.18 67.60 7.80 15.26 DEIM 2025 17 / 28

18.

テキストの統計分析 - 時間帯 名詞は全時間帯で最も頻出する品詞で,約35%を占める 固有名詞の割合が全名詞数の約25%である 具体的な固有名詞が頻繁に登場する番組が多いと推測 昼は名詞や固有名詞が多い傾向を確認 具体的な話題や情報を多く扱うことを示唆 形容詞や副詞の出現数は朝・昼に比べ,夜・深夜帯で多く使用 情報より抽象的または感情的な内容を扱う傾向を確認 朝・昼で名詞や固有名詞を多用し,深夜には形容詞や副詞の増加傾向を共通して観察 リスナーのニーズに対応した類似のフォーマットを採用している可能性を示唆 2025.02.28 DEIM 2025 18 / 28

19.

クラスター分析 分かち書きした文字起こしデータを基に番組回単位でクラスタリングを実施 クラスタ数は50と設定 クラスタリングの流れ 1. BoWで単語の出現頻度を数値化し,文書ごとのベクトルを作成 2. LDAを使用して100次元のトピックモデルを構築 3. ウォード法で階層型クラスタリングを実行 4. 各クラスタの特徴を分析 5. t-SNEを用いて文書の分布を可視化 2025.02.28 DEIM 2025 19 / 28

20.

クラスタリングの結果 2025.02.28 DEIM 2025 20 / 28

21.

クラスタごとの番組ジャンルの分布 2025.02.28 DEIM 2025 21 / 28

22.

クラスター分析 - トーク,バラエティが共起しているクラスタ 2025.02.28 DEIM 2025 22 / 28

23.

クラスター分析 - トーク,バラエティが共起しているクラスタ クラスタ42,43に注目 クラスタ 42 43 クラスタを代表する番組(一部抜粋) マヂカルラブリーのオールナイトニッポン0(ZERO), 空気階段の踊り場, オードリーのオールナイトニッポン, JUNK バナナマンのバナナムーンGOLD, JUNK 山里亮太の不毛な議論 乃木坂46のオールナイトニッポン, 俺達には土曜日しかない, 星野源のオールナイトニッポン, TALK ABOUT, あいみょんのオールナイトニッポンGOLD クラスタ42を代表する番組:お笑い芸人を中心とした番組 クラスタ43を代表する番組:音楽アーティストやアイドルがパーソナリティの番組 パーソナリティの属性によって,番組の内容に一定の違いを確認 2025.02.28 DEIM 2025 23 / 28

24.

クラスター分析 - スポーツを特徴としているクラスタ 2025.02.28 DEIM 2025 24 / 28

25.

クラスター分析 - スポーツを特徴としているクラスタ クラスタ3,4に注目 クラスタ クラスタを代表する番組(一部抜粋) ×巨人, ショウアップナイター広島×巨人Part2, 3 ショウアップナイター広島 ショウアップナイター巨人×中日, ショウアップナイター巨人×中日Part2 ショウアップナイターDeNA ×中日, ショウアップナイターDeNA ×中日Part2, 4 文化放送ライオンズナイター20 時~21 時10 分, ショウアップナイタープレイボール クラスタ3を代表する番組:「巨人」を含むチーム間の野球中継番組 クラスタ4を代表する番組:野球の情報番組やさまざまな野球中継番組 類似クラスタでも取り上げられている対戦カードや番組内容に違いを確認 2025.02.28 DEIM 2025 25 / 28

26.

本研究のまとめ 推薦システムへの応用可能性の検討 ラジオ番組の多様性に着目し,各番組の特徴による違いを分析 実際に録音したラジオ番組の音声データを文字起こしして,基礎的な調査 分析結果 テキストの統計分析 番組や時間帯による特性が発話内容に反映されていることが確認 ジャンルごとの番組特性の定量的な提示 クラスター分析 番組ジャンルや番組内容によって特定のクラスタが形成されることを確認 番組特性の分類の定性的な解釈可能性の示唆 2025.02.28 DEIM 2025 26 / 28

27.

今後の展望 データの拡張 期間の拡大(複数月、年間データの分析) 放送局の追加(インターネットラジオ、地方局の分析) 分析の高度化 無音区間の判別精度向上(faster-whisper の閾値調整の最適化) ノイズ除去や文字起こし技術の精度向上 番組ごとの特徴をより細かく抽出(発話速度や話者情報の利用) 推薦システムへの応用 得られた知見を基に推薦タスクへの応用 類似番組の自動推薦(ジャンル・感情特性を活用) 2025.02.28 DEIM 2025 27 / 28

28.

参考文献 [DigitalShiftTimes, 2021] DigitalShiftTimes: コロナ禍でラジオが復権!?民放ラジオ業界70 年の歴史を塗り替 えたradiko(ラジコ)の「共存共栄型DX」とは,https://digital-shift.jp/dx_strategy/210708, 2021. (2024/08/14 アクセス) [radiko news, 2024] radiko news:【2024年最新】radikoで聴ける!本当に面白いおすすめラジオ番組, https://news.radiko.jp/article/edit/69149/, 2024.(2025/01/17アクセス) [西本+, 2006] 西本卓也,光部杏里,渡辺隆行: ラジオ放送番組におけるスポーツ実況中継の分析, 信学技報, WIT2006–6, 27–32, 2006. [イー+, 2022] イーフエイチー,望月源: テレビ字幕データを用いた感情分析による「ある日の日本の気分」推 定に関する研究, 言語処理学会第28回年次大会発表論文集, 857–862, 2022. [山田+, 2024] 山田祐也,南條浩輝: テレビ番組の放送内容テキストを用いた視聴者属性別の視聴量変動の予 測, 言語処理学会 第30回年次大会 発表論文集, 2482--2486, 2024. 2025.02.28 DEIM 2025 28 / 28