言語処理100本ノック 2020年版を解いていく。
(かなり久々の更新...!)
Python, NLPの勉強を目的に、言語処理100本ノック 2020年版をやってみようと思います。
やっていて分からない / 疑問に思った点を調べた結果 / その問題で特に集中して使った知識等を、主にメモしていきます。
※特に詰まることなく出来た問題については、記事ページを作成しない可能性があります。
言語処理100本ノック 2020年版はこちらから。 nlp100.github.io
↓問題全体を通して、よく拝見するサイト
- GitHub - upura/nlp100v2020: 「言語処理100本ノック 2020」をPythonで解く
- カテゴリ: 言語処理100本ノック2020 | 機械学習エンジニアの技術メモ
- 【言語処理100本ノック 2020】Pythonによる解答例まとめ - Qiita
目次
事前準備: 環境構築
- AnacondaでPython 3.7.7の仮想環境を作成
第2章で、Windows 10 -> Windows Subsystem for Linux に構築し直し。
※詳細: 後述の「番外編」を参照 - JupyterLabの環境を軽く整備
Ref: JupyterLabのすゝめ - Qiita
第1章: 準備運動
第2章: UNIXコマンド
第3章: 正規表現
- 22. カテゴリ名の抽出
- 24. ファイル参照の抽出
- 27. 内部リンクの除去
- 28. MediaWikiマークアップの除去
- ※主な使用ライブラリ: gzip, json, re
- ※正規表現 チートシート関連
第4章: 形態素解析
第5章: 係り受け解析
第6章: 機械学習
第7章: 単語ベクトル
第8章: ニューラルネット
第9章: RNN, CNN
第10章: 機械翻訳
番外編
- WSLにAnaconda, JupyterLabをインストール - mocchaso note
第2章で、WindowsからWSLにAnaconda環境を作り直した時のメモ書き。 - WSLにMeCab + NEologdをインストール / Anaconda3上のPythonで使えるように - mocchaso note
第4章に入り、MeCab + NEologdの実行環境を改めて整備した時のメモ書き。