学校に通わずに学ぶログ

投稿

10月, 2021の投稿を表示しています

ブログの説明

学校に通わないで学んだことを記しています。間違っているところが何かありましたらご指摘下さると幸いです。コメントに対する返信が遅れる可能性があります。その場合は申し訳ございません。

このブログでは広告を表示しています。このブログ内の投稿記事を検索するには右上の拡大鏡のアイコンを、アーカイブやラベル付けから投稿記事を閲覧するには左上の三重線のアイコンをクリックして下さい。

数式の表示にはMathJaxを利用させていただいています。数式の表示のためにJavaScriptが有効である必要があります。そうでない場合、訳の分からないLaTeXのコードが表示されます。幾何学図形やチャートの表示にはHTML5 CanvasやGoogle Chartを使用しています。その表示のためにもJavaScriptが有効である必要があります。

DebianユーザーがNLTKで自然言語処理の初歩の初歩を試してみた

10月 05, 2021

この投稿は自然言語処理の中で一番初歩的なテキスト分析（字句解析）についての事始め。ダウンロードとインストール Python 3のdebパッケージとPython3用の NLTK(Natural Language Toolkit) のdebパッケージを公式のリポジトリからダウンロードしてインストールした。 $ su # apt install python3 python3-nltk python3-nltkというdebパッケージは、Debianのバージョンのbusterにもbullseyeにもbookwormにも存在する。 NLTKは、そのホームページの説明等によれば、自然言語処理に必要な道具類をまとめたプラットフォームなのだそうで、しかもオープンソースの企画らしい。ダウンロードとインストールがうまくいったのでPython3を早速起動し、 NLTKのホームページに掲載されている簡単なコードを試してみた。まずはPython3をターミナル・エミュレーター上で起動。 $ python3 Python 3.7.3 （省略）次にNLTKをインポート。 >>> import nltk 適当に選んだ文字列をsentenceに代入した。sentenceは任意の識別子。 >>> sentence = """A similar argument applies ... to any other a priori judgement.""" >>> print(sentence) A similar argument applies to any other a priori judgement. Python 3ではヒアドキュメントを3つの二重引用符号(""")で囲む。こうした場合、/nなどによって改行を明示せずとも複数行に渡って文字列を入力できる。ヒアドキュメントとはHTMLのpre要素のようなもの。文字列として選んだのはバートランド・ラッセル著の『哲学の問題』からの一節。 Russell, Bertrand. The Problems of Philosophy . p.140 epub形式...