TokenizerRulesGenerator

Module Contents

class TokenizerRulesGenerator
token_generator
__generate_verb_rules(self, categories, max_dist, base_path)

Genera todas las reglas necesarias para generar un nuevo modelo con el tokenizer modificado a partir de las categorias indicadas. Para cada una de dichas categorias genera un directorio temporal del modelo (el mismo se será eliminado al finalizar el proceso de creación del modelo).

Solo toma aquellas categorias que sean de tipo ‘verb’

Categories:[Dict] - Diccionario conteniendo las categorias y los token por cada una de ellas.
Max_dist:[int] - Distancia de demerau levenshtein máxima
Base_path:[String] - Ruta raíz del modelo.
__generate_noun_rules(self, categories, max_dist, base_path)

Genera todas las reglas necesarias para generar un nuevo modelo con el tokenizer modificado a partir de las categorias guardadas en el atributo categories de la clase. Para cada una de dichas categorias genera un directorio separado dentro del directorio maestro del nuevo modelo.

Solo toma aquellas categorias que sean de tipo ‘noun’

Categories:[Dict] - Diccionario conteniendo las categorias y los tokens de cada una de ellas.
Max_dist:[int] - Distancia de demerau levenshtein máxima
Base_path:[String] - Ruta raíz del modelo.
__save_model_seed(self, model_seed, base_path)

Guarda la semilla del modelo en el disco.

Model_seed:[Dict] - Semilla para la creación del modelo.
Base_path:[String] - Directorio base del modelo.
generate_model_data(self, model_seed, path, max_dist)

A partir de una model_seed, crea los archivos de configuración para modificar el tokenizer de un modelo de spacy.

Model_seed:[Dict] - Semilla para la creación del modelo.
Base_path:[String] - Directorio base del modelo.
Max_dist:[int] - Distancia de demerau levenshtein máxima para las deformaciones a los token.