BERT一問一答 - そうだね

BERTとNLPの基礎について勉強したのでメモ。

paraphrasingとは? どんなタスク?
- 言い換え。要約とか剽窃検出での応用がある。
named entity recognitionとは?
- 文中の固有表現にタグをつけるタスク。地名とか時間とか人名とか
BERTの学習は穴埋めだという記憶があるが、具体的には?
- Masked Language Model (MLM)というパラダイム。一定確率で入力単語をMASKして、これを予測するソフトマックス出力のモデルを学習する。
- BERTの特徴はBidirectionalな文脈考慮をしていること。これを実現するためにlossも前方予測ではなくMask予測に置き換わっている。
- ある文章の自然さを定量化するためにMaskedLMが用いられたりする[3]。[n番目の単語のBERT尤度]を全N個の単語について足し合わせたもの。
BERTと言語モデルはどう違う?
- ?
huggingfaceのtokenizerとは?
- 日本語を分割してくれるやつ。
tokenizerに種類があるのはなぜ?
- アルゴリズムが違って、特性が違う
日本語について、tokenの種類はtokenizerによって変化する?
- ?
使用歴のあるモデルは?
- cl-tohoku/bert-base-japanese[1]
  - bert-large-japaneseもあったのか / BERTの論文内でbaseとlargeが定義されている。
- wikipediaのデータで学習されている
- Mecab, IPA-Dict. vocab-size=32k
- google cloud tpu v3 8coreで5日間かけて学習