Windows+Python 3 環境における TreeTagger のセットアップ手順

Windows+Python 3 環境に TreeTagger をインストールする手順を自分のためにメモ。

TreeTagger は、英語の形態素解析を行うためのツールです。

TreeTagger の入手とインストール

以下のサイトから TreeTagger 本体と parameter file を入手します。

TreeTagger

TreeTagger 本体

Windows version については上記リンク先のページのだいぶ下のほうに記載があります。

「A Windows version of the TreeTagger is available here」の「here」を右クリックして tree-tagger-windows-3.2.zip をダウンロードします。

解凍すると現れる TreeTagger フォルダを C ドライブの直下に置きます。

Parameter file

Chunker parameter files for PC のところの「English chunker parameter file」を右クリックして english-par-linux-3.2-utf8.bin.gz をダウンロードします。

解凍すると現れる english-utf-8.par ファイルを TreeTagger\lib フォルダの中に入れます。

TreeTaggerWrapper のインストール

以下、Python 3 がすでにインストールされていることを前提とします。

TreeTaggerWrapper は TreeTagger を Python で利用するためのパッケージです。

コマンドプロンプトを起動して以下を実行します。

> pip install treetaggerwrapper

サンプルプログラム

※ tag[0], tag[1], tag[2] は、それぞれ tag.word, tag.pos, tag.lemma も可。

コマンドプロンプトを起動して実行すると、以下のように出力されます。

> python treetaggersample.py
Peter   NP      Peter
piper   NN      piper
picked  VVD     pick
a       DT      a
peck    NN      peck
of      IN      of
pickled JJ      pickled
peppers NNS     pepper
.       SENT    .

1 列目は word (各々の単語)、2 列目は pos (part-of-speech:品詞)、3 列目は lemma (見出し語) です。

TreeTagger において品詞を表すのに使われる POS タグの種類と意味については以下のウェブページを参照:

Tree Tagger Tag Set
モバイル通信とIT技術をコツコツ勉強するブログ:英文の形態素解析ツール「TreeTagger」の品詞コードの,意味・日本語訳の一覧表(完全版)

【theme : プログラミング
【genre : コンピュータ

プロフィール

よしいず

Author:よしいず
MATHEMATICS.PDFというウェブサイトを運営しています。

管理の都合上、トラックバックとコメントはオフにしてあります。ブログ経験者なら分かっていただけると思いますが、スパム(アダルトやその他の宣伝)ばかりなのが現実です。

リンクは自由です。当サイトの記事に対する間違いの指摘・意見・感想などを述べた記事からのリンクは歓迎です。ただし、ブログ記事アップ直後はミスが多く、頻繁に修正します。場合によっては削除する可能性もあります。その際、何も断りもなく修正・削除しますがご了承ください。内容を参考にする場合には投稿後一週間ほど様子を見てからにしてください(笑)。

記事の間違いを指摘するときは、その具体的箇所、理由(仕様に反するなど)・根拠(参考にした文献など)、代替案(同じ結果を得るための正しいやり方)も教えてください。そうしないと、(指摘される側および第三者はその時点では無知の状態なので、)どこが間違いなのか分かりませんし、本当に間違っているのかどうかが判断・検証できません。実際、間違いだと指摘されたことが結局は正しかったというケースもありますので。

このブログのタイトル一覧

リンク
月別アーカイブ
カテゴリ
最新記事
検索フォーム
RSSリンクの表示