ロイターニュースのコーパスを入手する方法

Python の nltk というライブラリを利用すれば良いことを id:n_shuyo に教わった。

% sudo apt-get install python-nltk
% python
>>> import nltk
>>> nltk.download()
>>> d と入力
>>> reuters と入力して Enter

これで ~/nltk_data/corpora/reuters にデータがダウンロードされる。