DebianユーザーがNLTKで自然言語処理の初歩の初歩を試してみた
この投稿は自然言語処理の中で一番初歩的なテキスト分析(字句解析)についての事始め。 ダウンロードとインストール Python 3のdebパッケージとPython3用の NLTK(Natural Language Toolkit) のdebパッケージを公式のリポジトリからダウンロードしてインストールした。 $ su # apt install python3 python3-nltk python3-nltkというdebパッケージは、Debianのバージョンのbusterにもbullseyeにもbookwormにも存在する。 NLTKは、そのホームページの説明等によれば、自然言語処理に必要な道具類をまとめたプラットフォームなのだそうで、しかもオープンソースの企画らしい。 ダウンロードとインストールがうまくいったのでPython3を早速起動し、 NLTKのホームページ に掲載されている簡単なコードを試してみた。 まずはPython3をターミナル・エミュレーター上で起動。 $ python3 Python 3.7.3 (省略) 次にNLTKをインポート。 >>> import nltk 適当に選んだ文字列をsentenceに代入した。sentenceは任意の識別子。 >>> sentence = """A similar argument applies ... to any other a priori judgement.""" >>> print(sentence) A similar argument applies to any other a priori judgement. Python 3ではヒアドキュメントを3つの二重引用符号(""")で囲む。こうした場合、/nなどによって改行を明示せずとも複数行に渡って文字列を入力できる。ヒアドキュメントとはHTMLのpre要素のようなもの。 文字列として選んだのはバートランド・ラッセル著の『哲学の問題』からの一節。 Russell, Bertrand. The Problems of Philosophy . p.140 epub形式...