source: main/trunk/model-sites-dev/hathitrust/collect/capisco-european-pacific-encounters/etc/conf/lang/stopwords_ja.txt@ 31289

Last change on this file since 31289 was 31289, checked in by davidb, 7 years ago

initial setup files for collection

File size: 1.8 KB
Line 
1#
2# This file defines a stopword set for Japanese.
3#
4# This set is made up of hand-picked frequent terms from segmented Japanese Wikipedia.
5# Punctuation characters and frequent kanji have mostly been left out. See LUCENE-3745
6# for frequency lists, etc. that can be useful for making your own set (if desired)
7#
8# Note that there is an overlap between these stopwords and the terms stopped when used
9# in combination with the JapanesePartOfSpeechStopFilter. When editing this file, note
10# that comments are not allowed on the same line as stopwords.
11#
12# Also note that stopping is done in a case-insensitive manner. Change your StopFilter
13# configuration if you need case-sensitive stopping. Lastly, note that stopping is done
14# using the same character width as the entries in this file. Since this StopFilter is
15# normally done after a CJKWidthFilter in your chain, you would usually want your romaji
16# entries to be in half-width and your kana entries to be in full-width.
17#
18の
19に
20は
21を
22た
23が
24で
25お
26ず
27し
28れ
29さ
30ある
31いる
32も
33する
34から
35な
36こず
37ずしお
38い
39や
40れる
41など
42なっ
43ない
44この
45ため
46その
47あっ
48よう
49たた
50もの
51ずいう
52あり
53たで
54られ
55なる
56ぞ
57か
58だ
59これ
60によっお
61により
62おり
63より
64による
65ず
66なり
67られる
68においお
69ば
70なかっ
71なく
72しかし
73に぀いお
74せ
75だっ
76その埌
77できる
78それ
79う
80ので
81なお
82のみ
83でき
84き
85぀
86における
87および
88いう
89さらに
90でも
91ら
92たり
93その他
94に関する
95たち
96たす
97ん
98なら
99に察しお
100特に
101せる
102及び
103これら
104ずき
105では
106にお
107ほか
108ながら
109うち
110そしお
111ずずもに
112ただし
113か぀お
114それぞれ
115たたは
116お
117ほど
118ものの
119に察する
120ほずんど
121ずå…
122±ã«
123ずいった
124です
125ずも
126ずころ
127ここ
128##### End of file
Note: See TracBrowser for help on using the repository browser.