学習初期の段階では、センテンスマイニングの対象にする話者を固定した方がよい(気がする)
発音や言い回しが安定する
段階別の方法論(実験中)
Phase 0
- マイニングするYouTubeチャンネルを1つ決める
- 全ての字幕から頻度順の単語リストを作る
- 各単語の使用例を確認してマイニングする
- filmotで単語の使用例を探す
- 3語文のようなシンプルな例文が良い
- 見出し語1000語程度行う
Phase 1
- 同チャンネルの動画から未知語をマイニングする
- 単語自体は知っていてもフレーズとして初見ならマイニング対象にする
Phase 2
- 他のチャンネルもマイニング対象にする
- 最初に使ったチャンネルと同じジャンルの動画から始める