BERT一問一答
BERTとNLPの基礎について勉強したのでメモ。
paraphrasingとは? どんなタスク?
- 言い換え。要約とか剽窃検出での応用がある。
named entity recognitionとは?
- 文中の固有表現にタグをつけるタスク。地名とか時間とか人名とか
BERTの学習は穴埋めだという記憶があるが、具体的には?
BERTと言語モデルはどう違う?
- ?
huggingfaceのtokenizerとは?
- 日本語を分割してくれるやつ。
tokenizerに種類があるのはなぜ?
- アルゴリズムが違って、特性が違う
日本語について、tokenの種類はtokenizerによって変化する?
- ?
使用歴のあるモデルは?
[1] https://huggingface.co/cl-tohoku/bert-base-japanese
[2] Tokenizer の違いによる日本語 BERT モデルの性能評価. https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/P4-12.pdf
[3] https://zenn.dev/hellorusk/articles/f9e6c503dc54e2