【AI簡答】
LLM是一種大型語言模型,它是由許多參數(通常是數十億個或更多的權重)組成的神經網絡,並在大量未標記的文本數據上進行訓練。
它們旨在理解和生成人類語言。近年來,LLM已成為自然語言處理領域的重要研究方向,並在許多NLP任務中取得了最先進的效果。
【Wiki說明】
大型語言模型(LLM:Large Language Model)是指包含數千億(或更多)參數的語言模型,這些參數是在大量文字資料上訓練的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來說,LLM 建立在 Transformer 架構之上,其中多頭注意力層堆疊在一個非常深的神經網路中。
現有的 LLM 主要採用與小語言模型類似的模型架構(即 Transformer)和預訓練目標(即語言建模)。作為主要區別,LLM 在很大程度上擴展了模型大小、預訓練資料和總計算量(擴大倍數)。他們可以更好地理解自然語言,並根據給定的上下文(例如 prompt)生成高品質的文字。
這種容量改進可以用標度律進行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根據標度律,某些能力(例如,上下文學習)是不可預測的,只有當模型大小超過某個水平時才能觀察到。
2023年3月6日,來自Google與柏林工業大學的人工智慧研究人員小組推出了一個多模態具象化視覺語言模型(VLM)-PaLM-E,該模型的參數規模達到了5620億個,整合了用於控制機器人的視覺與語言。研究人員稱,這是有史以來規模最大的VLM,無需重新訓練即可執行各種任務。
文章網址:https://wiki.mbalib.com/wiki/%E5%A4%A7%E5%9E%8B%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B