分析規則(パターン)

11.0 マニュアル(英語)

http://www.ibm.com/support/knowledgecenter/SS8NLW_11.0.0/com.ibm.discovery.es.ta.doc/iiysatextanalrules.htm

11.0 マニュアル(日本語)

http://www.ibm.com/support/knowledgecenter/ja/SS8NLW_11.0.0/com.ibm.discovery.es.ta.doc/iiysatextanalrules.htm

Sample

<?xml version="1.0" encoding="UTF-8"?>

<pattern-list lang="ja">

<mi category="$.dic_user.seikaku" value="優しい性格">

<w id="0" lex="優しい"/>

<w id="1" lex="性格"/>

</mi>

</pattern-list>

<?xml version="1.0" encoding="UTF-8"?>

<pattern-list lang="ja">

<mi category="$.dic_user.bukatsu" value="${0.lex}同好会">

<w id="0" >

<w id="1" lex="同好会"/>

</mi>.</pattern-list>

<?xml version="1.0" encoding="UTF-8"?>

<pattern-list lang="ja">

<mi category="$.dic_kaiwa_gakusei.bukatsu" value="${0.lex}${1.lex}">

<w id="0" />

<w id="1" category="$.dic_user.org_suffix"/>

</mi>

</pattern-list>

<w> attribute

pos

    • noun

    • verb

    • adjective

ftrs (各言語共通)

    • aux, for auxiliary words

    • symbol, for symbols

    • unk, for unknown words

ftrs (日本語固有)

    • 調査中

category

    • facet path

<w id="0" category="$.first_name"/>

<w id="1" category="$.last_name"/>

str

    • 文字列

    • 正規表現

/ 演算子

スラッシュ ( / ) 演算子 (Java regex 構文の一部でない) を含むルールはすべて、java.util.regex クラスを使用して評価されます。 例えば、式 str="/love/" は、love、lovely、beloved、および glove と一致します。

最初または最後の / 演算子がないと、この制約は正規表現として解釈されません。 代わりに、この制約はストリングのパターン・マッチングとして解釈されます。

| 演算子

パイプ ( | ) 演算子は、ブール OR 演算子として解釈されます。 この演算子は、正規表現インタープリターでは解釈されないリテラル制約です。 評価対象の語のリスト内のいずれかの語が文書に含まれる場合に、一致したとみなされます。

^ 演算子

この演算子は、行の先頭のみと一致します。 例えば、str="/^love/" は、loves と lovely が一致しますが、beloved や glove は一致しません。

$ 演算子

この演算子は、行の末尾のみと一致します。 例えば、str="/love$/" は、love と glove が一致しますが、lovely や loves は一致しません。

( ) 演算子

括弧は、グループ演算子です。 複数のワードや、これらワードの変化形を Java regex インタープリターで評価する場合に、この演算子を使用します。

...