Según Wikipedia, TF-IDF es una técnica de cómputo que permite calcular el peso de una palabra en un documento [1]. TF-IDF significa Term Frequency–Inverse Document Frequency y se basa en la frecuencia de una palabra en un documento y la inversa de la frecuencia de la palabra en otros documentos de las misma colección.
La técnica de cómputo consiste en multiplicar dos estadísticas: la frecuencia de una palabra en un documento (TF) y la inversa de la frecuencia de la palabra en todos los documentos de las misma colección (IDF).
Escribe una herramienta CLI en GO que reciba una palabra y un documento de texto y devuelva el peso TF-IDF de la palabra en el documento. Para el cómputo, considera otros documentos en la misma carpeta del primero.
Asume las seguientes fórmulas:
Adicionalmente, debes escribir otra herramienta CLI en GO que reciba una URL de un documento en Internet y lo guarde en una carpeta, similar a Linux curl
o wget
. La solución de este problema adicional y su calidad te garantirán una mejor evaluación.
Debes de partir de un fork de este proyecto: https://github.com/weremote-net/golang-dev-challenge-mid
El código debe ser escrito en inglés, con buena lógica y buena claridad y debe solucionar el problema.
Serás evaluado en base los siguientes puntos: