mocchaso note

サーバーエンジニアが何か色々呟いているところ。

Notionのデータベースによるメモ管理方法を学んだ話

前回のメモアプリの話の続きになります。 VSCodeでフォルダ管理していた作業メモ・Tipsメモを、 Joplinに一通り移植し終えて、Notionに移行しようとしている状態です。 この時に、「Notionのメモやデータベースは、こんな風に管理すると良いよ」 といった学…

メモアプリについて色々調査・検討した時の話

今回は、メモアプリについて色々調査・検討した時の話です。 だいぶ前にTwitterで垂れ流していた内容ですが、 せっかく色々調べたので、再整理してアウトプットしてみようと思います。 ざっくりまとめ 詳しい話 メモアプリを色々見てみようと思った経緯 事前…

2021年の目標・やりたいことを言語化

2021年にどんなことをやっていきたいのか、ざっと考えていた内容を改めて言語化してみます。 +2020年の振り返りも超ザックリと行おうと思います。 (2021年が始まって1か月経ち、改めて気を引き締める意味も込めて) 2020年の振り返り 夏頃から在宅勤務に切…

言語処理100本ノック 2020「39. Zipfの法則」

Zipfの法則とは...? ja.wikipedia.org 平たく言うと、「出現頻度が多ければ、全体での割合が大きい」ということらしい。 言語処理100本ノック-39(pandas使用):Zipfの法則 - Qiita

言語処理100本ノック 2020「36. 頻度上位10語」

※棒グラフの描き方 matplotlib で棒グラフを描く – Python でデータサイエンス Matplotlibで日本語を表示 設定していないと、↓のように出力されて、豆腐化文字化けする。 /home/mocchaso/anaconda3/envs/develop/lib/python3.7/site-packages/matplotlib/bac…

言語処理100本ノック 2020「30. 形態素解析結果の読み込み」

空文字に対してsplitを適用するとどうなる? 配列に空文字列が1つ入る。 >>> "".split(",") [''] ※分割パターンを指定しないと、何故か空のリストになる。 >>> "".split() [] ※分割パターンが空文字だとエラーに。 >>> "abc".split("") Traceback (most rece…

WSLにMeCab + NEologdをインストール / Anaconda3上のPythonで使えるように

約2年越しに、↓の回避策です。 MeCabの新語辞書NEologdをインストールできない... - mocchaso note Windowsでも、WSL (Ubuntu)を使えば、MeCab + NEologdまでインストールできます。 qiita.com ModuleNotFoundError が出る $ pip install mecab-python3==0.9…

言語処理100本ノック 2020「28. MediaWikiマークアップの除去」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 27本目に続き、↓をベースに実装しました。 qiita.com ファイルの除去に関しては、上記サイトとは異なり、内部リンクマークアップの除去とは別パターンでマッチさせました。 (内部…

言語処理100本ノック 2020「27. 内部リンクの除去」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 上記まとめにも記載した解説記事より、マッチングパターンを流用しました。 qiita.com \[\[(?:[^|]*?\|)??([^|]*?)\]\] このマッチングパターンの仕組みは、素人の言語処理100本ノ…

言語処理100本ノック 2020「24. ファイル参照の抽出」

正規表現の最短一致を使います。 → 量指定子, ?を組み合わせる www-creators.com

言語処理100本ノック 2020「22. カテゴリ名の抽出」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 「括弧でパターンの一部を抽出」できればOKです。 下記サイトの、正規表現パターンの活用例 → 括弧でパターンの一部を抽出 note.nkmk.me

言語処理100本ノック 2020「19. 各行の1コラム目の文字列の出現頻度を求め,出現頻度の高い順に並べる」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) cut -f 1 popular-names.txt | sort | uniq -c | sort -r -k 1 -t ' ' sort -r -kのkオプションで、1, 3, 1000等数字をどれにしても出力結果が変わらないのは何故? → ※考え&調査中

言語処理100本ノック 2020「18. 各行を3コラム目の数値の降順にソート」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) sortのtオプションでタブ区切りを指定する時は、先頭に$マークを付ければOKです。 qiita.com ただ、Ubuntuだとこの書き方は出来ないみたいです...。 単に-t \tと指定してみたらうま…

言語処理100本ノック 2020「12. 1列目をcol1.txtに,2列目をcol2.txtに保存」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 区切り文字をタブにしたい時は、何も指定しなくてOK → cutのデフォルト区切り文字はタブ takuya-1st.hatenablog.jp

WSLにAnaconda, JupyterLabをインストール

言語処理100本ノック 2020を進めていたら、Windows上にAnaconda環境を作ったため、第2章でUNIXコマンドを使えずに詰みました。 経験も兼ねてWSLにAnaconda, JupyterLabをインストールし直した時のメモ書きです。 (記載のURLを参考にしたら無事にインストー…

言語処理100本ノック 2020「09. Typoglycemia」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) random.shuffle(list(<文字列の部分スライス>)) だと、シャッフル前と後で中身が変わらなかったのは何故? ※考え&調査中

言語処理100本ノック 2020「08. 暗号文」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 文字コードへの変換 ord(): 文字 → 文字コード chr(): 文字コード → 文字

言語処理100本ノック 2020「06. 集合」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) 集合の使い方を↓で確かめながら、実装できました。 note.nkmk.me

言語処理100本ノック 2020「05. n-gram」

(まとめ: 言語処理100本ノック 2020年版を解いていく。 - mocchaso note) n-gramの大体の考え方・実装方法は、↓を見てある程度分かりました。 qiita.com なぜrange(len(sequence) - n + 1)ではないとダメなのか? ※考え&調査中

言語処理100本ノック 2020年版を解いていく。

(かなり久々の更新...!) Python, NLPの勉強を目的に、言語処理100本ノック 2020年版をやってみようと思います。 やっていて分からない / 疑問に思った点を調べた結果 / その問題で特に集中して使った知識等を、主にメモしていきます。 ※特に詰まることな…

Git LFSでpushできるようになった!

卒業研究で使うデータをGitHubで管理していたのですが、その中にWordNetもありました。 WordNetは余裕で100MBを超えているため、管理対象にするならGit LFSの導入が必要になりました。 相当時間がかかったものの、何とか導入できたので備忘録。 Windows 8.1…

MeCabの新語辞書NEologdをインストールできない...

2020/07/07 追記 ↓で解決できました。 mocchaso.hateblo.jp 卒業研究でMeCabを使って形態素解析まで実装しましたが、新語に対応してませんでした。 新語辞書NEologdを追加でインストールすることで対応させられるみたいです。 公式マニュアルに従って進めて…

タイピング練習について

実は、昨年の7月ぐらいまでブラインドタッチができませんでした。 ちょうどその時期に研究室に配属され、そこからWebゲームで鍛えることにしました! Flashタイピング 【寿司打 - SushiDA -】 お馴染み寿司打。ミスを減らすことが点数UPのコツ。 タイピング…

Python100本ノック 97本目~101本目(96本目~100本目)

Python100本ノック、97本目から101本目についてです。 いよいよ最終回です!! qiita.com 97本目:完全数 問題: 高橋君は完全なのものが大好きです。自然数には、完全数という物があります。 完全数というのは、自分以外の約数の総和が自分と等しくなる自然…

Python100本ノック 92本目~96本目(91本目~95本目)

Python100本ノック、92本目から96本目についてです。 終わりが見えてきたぞおおお qiita.com 92本目:1を何回書いたか 問題:高橋君は1以上N以下のすべての整数を10進表記で1回ずつ紙に書きました。 この作業で、高橋君は1という数字を何個書いたでしょうか…

Python100本ノック 90本目~91本目(89本目~90本目)

Python100本ノック、90本目から91本目についてです。 qiita.com 90本目:全て偶数だったらひたすら割るやつ 問題:渡辺君は、黒板に書かれている整数がすべて偶数であるとき、次の操作を行います。 -> 黒板に書かれている整数すべてを、2で割ったものに置き…

Python100本ノック 82本目〜89本目(81本目〜88本目)

Python100本ノック、82本目から89本目についてです。 qiita.com 82本目:TwoSums 問題:整数配列とターゲットが渡された時、整数配列の内足したら答えがターゲットになる2つの数字を返しなさい。 例:twosums([2, 7, 11, 15], 9) ==> 2, 7 特に問題無く解け…

Python100本ノック 72本目~81本目(71本目~80本目)

Python100本ノック、72本目から81本目についてです。 qiita.com 72本目:連続した数かどうか 問題:1118のような、3つ以上の同じ数字が連続して並んだ4桁の整数を良い整数とします。 4桁の整数Nが与えられるので、Nが良い整数かどうかを答えてください。 特…

Python100本ノック 62本目~71本目(63本目~70本目)

Python100本ノック、62本目から71本目についてです。 ※Qiita記事では63本目~70本目に該当しますが、この記事から番号がズレているっぽい...? qiita.com 62本目:現在の日付をtoday.txtというテキストファイルに文字列の形で書き込みなさい date.isoformat(…

Python100本ノック 53本目~61本目

Python100本ノックを61本目まで進めたので、前回に引き続き、問題に関するメモや感想等を小分けして書いていきたいと思います。 qiita.com 53本目:以下の16進文字列が有名なGIFファイルであるか確認せよ。 問題: 以下の16進文字列をbytes変数に変換し、そ…