2020-07-05から1日間の記事一覧
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 27本目に続き、↓をベースに実装しました。 qiita.com ファイルの除去に関しては、上記サイトとは異なり、内部リンクマークアップの除去とは別パターンでマッチさせました。 (内部…
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 上記まとめにも記載した解説記事より、マッチングパターンを流用しました。 qiita.com \[\[(?:[^|]*?\|)??([^|]*?)\]\] このマッチングパターンの仕組みは、素人の言語処理100本ノ…
正規表現の最短一致を使います。 → 量指定子, ?を組み合わせる www-creators.com
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 「括弧でパターンの一部を抽出」できればOKです。 下記サイトの、正規表現パターンの活用例 → 括弧でパターンの一部を抽出 note.nkmk.me
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) cut -f 1 popular-names.txt | sort | uniq -c | sort -r -k 1 -t ' ' sort -r -kのkオプションで、1, 3, 1000等数字をどれにしても出力結果が変わらないのは何故? → ※考え&調査中
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) sortのtオプションでタブ区切りを指定する時は、先頭に$マークを付ければOKです。 qiita.com ただ、Ubuntuだとこの書き方は出来ないみたいです...。 単に-t \tと指定してみたらうま…
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 区切り文字をタブにしたい時は、何も指定しなくてOK → cutのデフォルト区切り文字はタブ takuya-1st.hatenablog.jp
言語処理100本ノック 2020を進めていたら、Windows上にAnaconda環境を作ったため、第2章でUNIXコマンドを使えずに詰みました。 経験も兼ねてWSLにAnaconda, JupyterLabをインストールし直した時のメモ書きです。 (記載のURLを参考にしたら無事にインストー…
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) random.shuffle(list(<文字列の部分スライス>)) だと、シャッフル前と後で中身が変わらなかったのは何故? ※考え&調査中
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 文字コードへの変換 ord(): 文字 → 文字コード chr(): 文字コード → 文字
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 集合の使い方を↓で確かめながら、実装できました。 note.nkmk.me
(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) n-gramの大体の考え方・実装方法は、↓を見てある程度分かりました。 qiita.com なぜrange(len(sequence) - n + 1)ではないとダメなのか? ※考え&調査中