Technology

TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) is a statistical measure that quantifies a term's relevance in a document by multiplying its local frequency (TF) with its global rarity (IDF).

TF-IDF is a core statistical method in information retrieval and text mining: it assigns a numerical weight to a word, signaling its importance within a document relative to a larger corpus. The calculation is direct: Term Frequency (TF) measures how often a word appears in the document, and Inverse Document Frequency (IDF) scales that value down if the word (like 'the' or 'a') is common across all documents. The final TF-IDF score emphasizes terms that are frequent in a specific document but rare overall (e.g., 'quantum' in a physics paper). This vectorization process is crucial for applications like building search engine relevance rankings and training machine learning models for text classification.

https://www.capitalone.com/tech/machine-learning/understanding-tf-idf-for-machine-learning/

3 projects · 3 cities

Related technologies

Apache Lucene 2 BM25 3 Elasticsearch 4 Embeddings 22 FAISS 17 HNSW 7 Solr 2 Terrier 2 BERT 179 Covariate search 1 GPT-3 191 GPT-4 528 GraphRAG 13 Keras 74 Language Models 4 ONNX 82 PyTorch 265 RAG 138

Recent Talks & Demos

Showing 1-3 of 3

Members-Only

Más allá del RAG: Grafos universales para datos no universales

Santiago Oct 29

GraphRAG RAG

Magic: AI Deck Building

Covariate search semantic search