rules table — 规则表包含一组规则,将地址输入序列标记映射到标准化的输出序列。规则被定义为一组输入标记,后跟 -1(终止符),然后是一组输出标记,后跟 -1,后跟表示规则类型的数字,最后是规则的排名。
规则表必须至少包含以下列,但您可以添加更多列供自己使用。
id
表的主键
rule
表示规则的文本字段。 详细信息请参见PAGC 地址标准化器规则记录。
一条规则由一组表示输入标记的非负整数组成,以 -1 结束,然后是相同数量的非负整数,表示邮政属性,以 -1 结束,然后是表示规则类型的整数,最后是表示规则排名的整数。规则的排名从 0(最低)到 17(最高)。
例如,规则 2 0 2 22 3 -1 5 5 6 7 3 -1 2 6
映射到输出标记序列 TYPE NUMBER TYPE DIRECT QUALIF到输出序列 STREET STREET SUFTYP SUFDIR QUALIF。 该规则是等级 6 的 ARC_C 规则。
stdaddr中列出了相应输出标记的编号。
每个规则都以一组输入标记开始,后跟终止符 -1
。 从 PAGC 输入令牌中摘录的有效输入令牌如下:
基于表单的输入令牌
AMPERS
(13). "&" 符号经常用于缩写单词 "and"。
DASH
(9). 标点符号字符。
DOUBLE
(21).两个字母的序列。 经常用作标识符。
FRACT
(25).分数有时用于公民数字或单位数字。
MIXED
(23).包含字母和数字的字母数字字符串。 用于标识符。
NUMBER
(0). 一串数字。
ORD
(15). 诸如 First 或 1st 之类的表示。 常用于街道名称。
ORD
(18).一个字母。
WORD
(1). 单词是任意长度的字母串。 单个字母既可以是 SINGLE,也可以是 WORD。
基于功能的输入令牌
BOXH
(14). 用于表示邮政信箱的词汇。例如 Box 或 PO Box。
BUILDH
(19). 用于表示建筑物或建筑群的词汇,通常作为前缀。例如,在 Tower 7A 中的 Tower。
BUILDT
(24).用于表示建筑物或建筑群的单词和缩写,通常作为后缀。 例如:购物中心。
DIRECT
(22).用于表示方向的单词,例如北。
MILE
(20). 用于表示里程碑地址的单词。
ROAD
(6). 用于表示高速公路和道路的词汇和缩写。例如,在 Interstate 5 中的 Interstate
RR
(8).用于表示乡村路线的单词和缩写。 RR。
TYPE
(2). 用于表示街道类型的单词和缩写。 例如:ST or AVE。
UNITH
(16). 用于表示内部子地址的单词和缩写。 例如,APT 或 UNIT。
邮政类型输入令牌
QUINT
(28).5 位数字。 识别邮政编码
QUAD
(29). 一个4位数字,用于识别 ZIP4 编码。
PCH
(27). 由字母、数字和字母组成的3个字符序列。用于识别 FSA,即加拿大邮政编码的前3个字符。
PCT
(26). 由数字、字母和数字组成的3个字符序列。用于识别 LDU,即加拿大邮政编码的最后3个字符。
停用词
STOPWORDS 与 WORDS 结合。 在规则中,多个 WORD 和 STOPWORD 组成的字符串将由单个 WORD 标记表示。
STOPWORD
(7). 具有低词汇重要性的词,可以在解析中省略。例如:THE。
在第一个 -1(终止符)之后,跟随输出标记及其顺序,然后是终止符 -1
。 stdaddr中列出了相应输出标记的编号。 允许的内容取决于规则的类型。the section called “规则类型和等级”部分列出了对每种规则类型有效的输出标记。
规则的最后部分是规则类型,由以下之一表示,后跟规则等级。 规则的排名从 0(最低)到 17(最高)。
MACRO_C
(令牌编号=“0”)。 用于解析 MACRO 子句(例如 PLACE STATE ZIP)的规则类
MACRO_C
输出标记(摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--。
CITY
(令牌编号“10”)。 示例“Albany”
STATE
(令牌编号“11”)。 示例“NY”
NATION
(令牌编号“12”)。 大多数参考文件中不使用此属性。 示例“USA”
POSTAL
(令牌编号“13”)。 (SADS 元素“ZIP CODE”、“PLUS 4”)。 此属性用于美国邮政编码和加拿大邮政编码。
MICRO_C
(令牌编号=“1”)。 用于解析完整 MICRO 子句(例如 House、street、sufdir、predir、pretyp、suftype、qualif)的规则类(即 ARC_C 加 CIVIC_C)。 这些规则不会在构建阶段使用。
MICRO_C
输出令牌(摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--。
HOUSE
这是一段文本(标记号码为 1
):这是街道上的街道号码。例如, 75在75 State Street
中。
predir
是文本(标记编号 2
):街道名称预指示,例如北、南、东、西等。
qual
是文本(标记编号 3
):街道名称预修饰符示例 OLD in 3715 OLD HIGHWAY 99
。
pretype
是文本(标记编号 4
):街道前缀类型
street
是文本(标记编号 5
):街道名称
suftype
这是文本(标记号码为 6
):街道后缀类型,例如 St、Ave、Cir。这是跟在根街道名称后面的街道类型。例如,STREET 位于 75 State Street
中。
sufdir
是文本(标记编号 7
):STREET POST-DIRECTIONAL 街道名称后面的方向修饰符。示例WEST 位于3715 TENTH AVENUE WEST
中。
ARC_C
(令牌编号=“2”)。 用于解析 MICRO 子句的规则类,不包括 HOUSE 属性。 因此,使用与 MICRO_C 相同的一组输出令牌减去 HOUSE 令牌。
CIVIC_C
(令牌编号=“3”)。 用于解析 HOUSE 属性的规则类。
EXTRA_C
(令牌编号=“4”)。 用于解析额外属性的规则类 - 从地理编码中排除的属性。 这些规则不会在构建阶段使用。
EXTRA_C
输出令牌(摘自 http://www.pagcgeo.org/docs/html/pagc-12.html#--r-typ--。
BLDNG
(令牌编号 0
):未解析的建筑物标识符和类型。
BOXH
(令牌编号 14
):BOX位于 BOX 3B
中
BOXT
(令牌编号 15
): 3B位于 BOX 3B
中
RR
(令牌编号 8
):RR位于 RR 7
中
UNITH
(令牌编号 16
): APT 位于 APT 3B
中
UNITT
(令牌编号 17
): 3B位于APT 3B
中
UNKNWN
(标记编号 9
):否则未分类的输出。