WikiEdge:ArXiv-2407.01219/terms

出自WikiEdge
跳至導覽 跳至搜尋
編輯

這篇文章的術語表如下:

  • 生成式大型語言模型(Generative Large Language Models):指通過預訓練學習大量文本數據,能夠生成連貫、相關文本的大型人工智能模型。
  • 檢索增強生成(Retrieval-Augmented Generation, RAG):一種結合預訓練生成模型和基於檢索的模型的技術,通過檢索相關信息來增強生成內容的準確性和質量。
  • 嵌入模型(Embedding Model):在自然語言處理中,用於將文本轉換為數值向量,以便在向量空間中進行語義比較的模型。
  • 向量數據庫(Vector Database):專門設計用於存儲和檢索嵌入向量的數據庫,支持高效的相似性搜索。
  • 查詢重寫(Query Rewriting):一種優化查詢表達的方法,通過改寫查詢來提高檢索系統的性能。
  • 查詢分解(Query Decomposition):將複雜查詢分解為更簡單、更具體的子查詢,以提高檢索的相關性和準確性。
  • 偽文檔生成(Pseudo-document Generation):基於用戶查詢生成假設性文檔,用於檢索與查詢更相關的文檔。
  • 混合搜索(Hybrid Search):結合稀疏檢索(如基於關鍵詞的搜索)和密集檢索(如基於向量的搜索)的方法,以提高檢索效果。
  • 重排序(Reranking):在初步檢索結果基礎上,使用更精細的算法重新對文檔進行排序,以提高檢索的相關性。
  • 文檔重打包(Document Repacking):在重排序後,對文檔進行重新組織,以優化後續處理模塊的性能。
  • 摘要(Summarization):從檢索到的文檔中提取關鍵信息,生成簡潔的摘要,以減少冗餘並提高生成響應的質量。