Name

rules table — 规则表包含一组规则,将地址输入序列标记映射到标准化的输出序列。规则被定义为一组输入标记,后跟 -1(终止符),然后是一组输出标记,后跟 -1,后跟表示规则类型的数字,最后是规则的排名。

描述

规则表必须至少包含以下列,但您可以添加更多列供自己使用。

id

表的主键

rule

表示规则的文本字段。 详细信息请参见PAGC 地址标准化器规则记录

一条规则由一组表示输入标记的非负整数组成,以 -1 结束,然后是相同数量的非负整数,表示邮政属性,以 -1 结束,然后是表示规则类型的整数,最后是表示规则排名的整数。规则的排名从 0(最低)到 17(最高)。

例如,规则 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6 映射到输出标记序列 TYPE NUMBER TYPE DIRECT QUALIF到输出序列 STREET STREET SUFTYP SUFDIR QUALIF。 该规则是等级 6 的 ARC_C 规则。

stdaddr中列出了相应输出标记的编号。

输入令牌

每个规则都以一组输入标记开始,后跟终止符 -1。 从 PAGC 输入令牌中摘录的有效输入令牌如下:

基于表单的输入令牌

AMPERS

(13). "&" 符号经常用于缩写单词 "and"。

DASH

(9). 标点符号字符。

DOUBLE

(21).两个字母的序列。 经常用作标识符。

FRACT

(25).分数有时用于公民数字或单位数字。

MIXED

(23).包含字母和数字的字母数字字符串。 用于标识符。

NUMBER

(0). 一串数字。

ORD

(15). 诸如 First 或 1st 之类的表示。 常用于街道名称。

ORD

(18).一个字母。

WORD

(1). 单词是任意长度的字母串。 单个字母既可以是 SINGLE,也可以是 WORD。

基于功能的输入令牌

BOXH

(14). 用于表示邮政信箱的词汇。例如 BoxPO Box

BUILDH

(19). 用于表示建筑物或建筑群的词汇,通常作为前缀。例如,在 Tower 7A 中的 Tower

BUILDT

(24).用于表示建筑物或建筑群的单词和缩写,通常作为后缀。 例如:购物中心

DIRECT

(22).用于表示方向的单词,例如

MILE

(20). 用于表示里程碑地址的单词。

ROAD

(6). 用于表示高速公路和道路的词汇和缩写。例如,在 Interstate 5 中的 Interstate

RR

(8).用于表示乡村路线的单词和缩写。 RR

TYPE

(2). 用于表示街道类型的单词和缩写。 例如:ST or AVE

UNITH

(16). 用于表示内部子地址的单词和缩写。 例如,APT UNIT

邮政类型输入令牌

QUINT

(28).5 位数字。 识别邮政编码

QUAD

(29). 一个4位数字,用于识别 ZIP4 编码。

PCH

(27). 由字母、数字和字母组成的3个字符序列。用于识别 FSA,即加拿大邮政编码的前3个字符。

PCT

(26). 由数字、字母和数字组成的3个字符序列。用于识别 LDU,即加拿大邮政编码的最后3个字符。

停用词

STOPWORDS 与 WORDS 结合。 在规则中,多个 WORD 和 STOPWORD 组成的字符串将由单个 WORD 标记表示。

STOPWORD

(7). 具有低词汇重要性的词,可以在解析中省略。例如:THE

输出令牌

在第一个 -1(终止符)之后,跟随输出标记及其顺序,然后是终止符 -1stdaddr中列出了相应输出标记的编号。 允许的内容取决于规则的类型。the section called “规则类型和等级”部分列出了对每种规则类型有效的输出标记。

规则类型和等级

规则的最后部分是规则类型,由以下之一表示,后跟规则等级。 规则的排名从 0(最低)到 17(最高)。

MACRO_C

(令牌编号=“0”)。 用于解析 MACRO 子句(例如 PLACE STATE ZIP)的规则类

MACRO_C 输出标记(摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--

CITY

(令牌编号“10”)。 示例“Albany”

STATE

(令牌编号“11”)。 示例“NY”

NATION

(令牌编号“12”)。 大多数参考文件中不使用此属性。 示例“USA”

POSTAL

(令牌编号“13”)。 (SADS 元素“ZIP CODE”、“PLUS 4”)。 此属性用于美国邮政编码和加拿大邮政编码。

MICRO_C

(令牌编号=“1”)。 用于解析完整 MICRO 子句(例如 House、street、sufdir、predir、pretyp、suftype、qualif)的规则类(即 ARC_C 加 CIVIC_C)。 这些规则不会在构建阶段使用。

MICRO_C 输出令牌(摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--

HOUSE

这是一段文本(标记号码为 1):这是街道上的街道号码。例如, 7575 State Street中。

predir

是文本(标记编号 2):街道名称预指示,例如北、南、东、西等。

qual

是文本(标记编号 3):街道名称预修饰符示例 OLD in 3715 OLD HIGHWAY 99

pretype

是文本(标记编号 4):街道前缀类型

street

是文本(标记编号 5):街道名称

suftype

这是文本(标记号码为 6):街道后缀类型,例如 St、Ave、Cir。这是跟在根街道名称后面的街道类型。例如,STREET 位于 75 State Street中。

sufdir

是文本(标记编号 7):STREET POST-DIRECTIONAL 街道名称后面的方向修饰符。示例WEST 位于3715 TENTH AVENUE WEST中。

ARC_C

(令牌编号=“2”)。 用于解析 MICRO 子句的规则类,不包括 HOUSE 属性。 因此,使用与 MICRO_C 相同的一组输出令牌减去 HOUSE 令牌。

CIVIC_C

(令牌编号=“3”)。 用于解析 HOUSE 属性的规则类。

EXTRA_C

(令牌编号=“4”)。 用于解析额外属性的规则类 - 从地理编码中排除的属性。 这些规则不会在构建阶段使用。

EXTRA_C 输出令牌(摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--

BLDNG

(令牌编号 0):未解析的建筑物标识符和类型。

BOXH

(令牌编号 14):BOX位于 BOX 3B

BOXT

(令牌编号 15): 3B位于 BOX 3B

RR

(令牌编号 8):RR位于 RR 7

UNITH

(令牌编号 16): APT 位于 APT 3B

UNITT

(令牌编号 17): 3B位于APT 3B

UNKNWN

(标记编号 9):否则未分类的输出。