TokenGenerator

Module Contents

class TokenGenerator
__word_processor
__get_tag_key(self, person, time_key)

Obtiene el elemento un determinado key y persona.

Person:[int] - Indice de la persona (0 - 5).
Time_key:[String] - Tiempo verbal
Returns:[String] - Tag correspondiente al tiempo de conjugación para la persona.
__get_shape(self, token)

Da la forma de la palabra pasada como parametro. Por ejemplo si la palabra pasada como parametro es ‘Hola’ devuelve ‘Xxxx’

Token:[String] - Palabra a partir de la cual se quiere obtener la forma.
Returns:[String] - Cadena de caracteres que contiene la forma de la palabra

pasada como parametro.

__get_verb_token_rule(self, verb, base_verb, person, time_key)

Genera una regla para el tokenizer con la forma:

{<variation>: [{ ORTH:<variation>,
LEMMA:<palabra raíz a la que refiere>, POS:<part of speech (verbo, sust, etc)>, TAG:<tag (profundiza el part of speech)>, SHAPE:<xxxxxxxxx (Ej. para ‘variation’)>

}]

}

Donde en lugar de utilizar una variación utiliza el termino escrito correctamente.

Verb:[String] - Verbo conjugado.
Base_verb:[String] - Verbo raíz.
Person:[int] - Indice de la persona (0 - 5).
Time_key:[String] - Clave del tiempo verbal de la conjugación.
Returns:[Dict] - Lista de objetos de congifuración para cada conjugación disponible.
__get_noun_token_rule(self, noun, base_noun, tag)

Genera una regla para el tokenizer con la forma:

{<variation>: [{ ORTH:<variation>,
LEMMA:<palabra raíz a la que refiere>, POS:<part of speech (verbo, sust, etc)>, TAG:<tag (profundiza el part of speech)>, SHAPE:<xxxxxxxxx (Ej. para ‘variation’)>

}]

}

Donde en lugar de utilizar una variación utiliza el termino escrito correctamente.

Noun:[String] - Verbo conjugado.
Base_noun:[String] - Verbo raíz.
Tag:[String] - Tag del sustantivo.
Returns:[Dict] - Lista de objetos de congifuración para cada conjugación disponible.
__create_custom_verb_token_rules(self, verb, base_verb, person, time_key, max_dist)

A partir de un verbo conjugado, utiliza el modulo WordProcessor para deformarlo. Para cada deformación que cumpla con la distancia máxima deseada, se crea una regla.

Verb:[String] - Cadena de caracteres con la forma “bien escrita” de la

palabra a deformar.

Base_verb:[String] - Forma base de la palabra (Ej. vende –> vender)
Person:[int] - Indice de la persona (0 - 5)
Time_key:[String] - Clave del tiempo verbal.
Max_dist:Distancia de levenshtein máxima para que una variación

de una palabra sea tomada como válida.

generate_verb_rules_set(self, infinitive, max_dist)

A partir del verbo recibido genera las conjugaciones posibles utilizando el conjugador y luego el generador de terminos fuzzy. Finalmente, retorna un diccionario con las excepciones al tokenizer requeridas.

Infinitive:[String] - Verbo en infinitivo que debe ser conjugado. Debe ser una

cadena de caracteres terminada en uno de {‘*ar’, ‘*er’, ‘*ir’, ‘*ár’, ‘*ér’, ‘*ír’}

Max_dist:[int] - Distancia de demerau_levenshtein máxima que se admite en las

deformaciones.

Returns:[Dict] - Diccionario con todas las excepciones al conjugador generadas a

partir del verbo, sus conjugaciones y las deformaciones realizadas.

__create_custom_noun_token_rules(self, noun, base_noun, max_dist, is_plural=False)

A partir de un sustantivo crea un set de reglas para el tokenizer.

Noun:[String] - Sustantivo.
Base_noun:[String] - Palabra base (lemma).
Max_dist:[int] - Distancia de demerau levenshtein máxima.
Is_plural:[bool] - True si la palabra es plural.
generate_noun_rules_set(self, singular, max_dist)

A partir del sustantivo recibido obtiene su forma plural y deformaciones utilizando el procesador de sutantivos y luego el generador de terminos fuzzy. Finalmente, retorna un diccionario con las excepciones al tokenizer requeridas.

Infinitive:[String] - Sustantivo a llevar a plural y deformar.
Max_dist:[int] - Distancia de demerau_levenshtein máxima que se admite en las

deformaciones.

Returns:[Dict] - Diccionario con todas las excepciones al conjugador generadas a

partir del verbo, sus conjugaciones y las deformaciones realizadas.