BERT一問一答

BERTとNLPの基礎について勉強したのでメモ。

  • paraphrasingとは? どんなタスク?

    • 言い換え。要約とか剽窃検出での応用がある。
  • named entity recognitionとは?

    • 文中の固有表現にタグをつけるタスク。地名とか時間とか人名とか
  • BERTの学習は穴埋めだという記憶があるが、具体的には?

    • Masked Language Model (MLM)というパラダイム。一定確率で入力単語をMASKして、これを予測するソフトマックス出力のモデルを学習する。
    • BERTの特徴はBidirectionalな文脈考慮をしていること。これを実現するためにlossも前方予測ではなくMask予測に置き換わっている。
    • ある文章の自然さを定量化するためにMaskedLMが用いられたりする[3]。[n番目の単語のBERT尤度]を全N個の単語について足し合わせたもの。
  • BERTと言語モデルはどう違う?

    • ?
  • huggingfaceのtokenizerとは?

    • 日本語を分割してくれるやつ。
  • tokenizerに種類があるのはなぜ?

  • 日本語について、tokenの種類はtokenizerによって変化する?

    • ?
  • 使用歴のあるモデルは?

    • cl-tohoku/bert-base-japanese[1]
      • bert-large-japaneseもあったのか / BERTの論文内でbaseとlargeが定義されている。
    • wikipediaのデータで学習されている
    • Mecab, IPA-Dict. vocab-size=32k
    • google cloud tpu v3 8coreで5日間かけて学習

[1] https://huggingface.co/cl-tohoku/bert-base-japanese
[2] Tokenizer の違いによる日本語 BERT モデルの性能評価. https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/P4-12.pdf
[3] https://zenn.dev/hellorusk/articles/f9e6c503dc54e2