怀孕20天有什么症状| 头总出汗是什么原因| 肺气阴两虚吃什么中成药| 肝血不足吃什么中成药| 1960属什么生肖| 房东是什么意思| 籍贯是指什么| 廊坊有什么好玩的地方| 女人下面长什么样| 伦琴是什么单位| 甲状腺球蛋白高是什么原因| 脚发热是什么病| pvd是什么材料| 认知什么意思| 梦见红色的蛇是什么意思| 北方是什么生肖| 亚子什么意思| 什么是带状疱疹| 两肺间质性改变是什么意思| 过敏性咽炎吃什么药| ab型血可以接受什么血型| ha是什么单位| 皮疹用什么药膏最好| 破气是什么意思| 月亮杯是什么东西| 低压高吃什么药效果好| 息肉样病变是什么意思| 一什么手表| 借记卡是什么卡| 膀胱充盈差是什么意思| 喉咙有痰是什么原因引起的| 睾酮低有什么影响| 打虫药什么时候吃合适| 桃子有什么营养价值| 乳酸脱氢酶高是什么原因| 头顶爱出汗是什么原因| 鸭胗是什么器官| 什么肉蛋白质含量最高| 什么是c刊| 苛捐杂税是什么生肖| 副镇长是什么级别| 肺五行属什么| 地级市副市长是什么级别| 2007年属什么生肖| 测血糖挂号挂什么科| 六字箴言是什么意思| 白玉蜗牛吃什么| 文静是什么意思| 骨质密度增高是什么意思| 蜈蚣最怕什么药| nt检查需要注意什么| 上皮细胞是什么| 幽门螺旋杆菌阳性代表什么| 郡肝是什么部位| 子午相冲是什么意思| 女性胆固醇高吃什么| 白羊座的幸运色是什么颜色| 学籍有什么用| 农垦局是什么性质单位| 生命科学专业学什么| 胃低分化腺癌是什么意思| 虬是什么动物| 砭石是什么东西| 高血压是什么原因造成的| 肥达氏反应检查什么病| 单核细胞高是什么原因| 一什么柜子| 掉头发严重是什么原因| 红海为什么叫红海| 家里养什么动物吃蟑螂| 沟壑什么意思| 肚脐是什么穴位| 三线炎有什么症状| 俄罗斯信奉的是什么教| 南京有什么玩的| 化名是什么意思| 女儿茶属于什么茶| 小孩子上户口需要什么证件| 青椒是什么意思| 粉黛是什么意思| 男生为什么会遗精| 扫把和什么是一套的| 更年期什么时候| 87年兔是什么命| 什么地照着| 手上长斑点是什么原因| 为什么肚子会胀气| mo是什么意思| 乙肝表面抗体是什么意思| 受精卵着床有什么反应| 立秋什么意思| 胃寒胃痛吃什么食物好| 霜对什么| 相依相偎是什么意思| 硅是什么| 幺妹是什么意思| 脚后筋疼是什么原因引起的| 有妇之夫是什么意思| 心什么| 妊娠状态是什么意思| 官方旗舰店和旗舰店有什么区别| 突然晕厥是什么原因| 此刻朋友这杯酒最珍贵是什么歌| 戾气太重是什么意思| 阑尾炎在什么位置| 俄罗斯被称为什么| 哮喘咳嗽吃什么药好得快| 20年属什么生肖| 织锦是什么面料| 老人头晕吃什么药效果好| 胆囊炎属于什么科| 9月3号是什么日子| 什么宠物好养又干净| 疲软是什么意思| 眼睛为什么不怕冷| 什么是近视| 甲状腺毒症是什么意思| 什么是继发性高血压| 卅什么意思| 肺炎支原体抗体阳性是什么意思| 竖心旁的字与什么有关| 男生喉结不明显是为什么| 什么是植物神经功能紊乱| 8月8号什么星座| 肚子胀胀的是什么原因| 九月十二号是什么星座| 乳腺b超挂什么科| 腰腿疼痛吃什么药效果好| 梅毒和艾滋病有什么区别| 膝盖疼痛用什么药| 梦见别人打我是什么意思| 木薯是什么东西图片| 水瓶座男生喜欢什么样的女生| 洗葡萄用什么洗最干净| 神经性头疼吃什么药效果好| 孜孜不倦什么意思| 怀孕初期吃什么对胎儿发育好| 品相是什么意思| 舒五行属什么| 早孕试纸和验孕棒有什么区别| 二手房是什么意思| 军师是什么意思| 柠檬有什么功效和作用| 狗狗拉肚子吃什么药| 甲状腺密度不均匀是什么意思| s和m什么意思| 帕金森是什么原因引起的| 体内湿气重吃什么药| 肝功能异常是什么| 肾炎有什么症状| 儿童便秘吃什么最快排便| ipa啤酒什么意思| 十二月二号是什么星座| 五行海中金是什么意思| 李嘉诚是什么国籍| 尿酸520属于什么水平| 虎虎生风是什么意思| 蒲公英吃了有什么好处| 血崩是什么意思| 左枕前位是什么意思| 喝豆浆有什么好处和坏处| 罗汉果是什么| 什么属于发物| 心脏支架和搭桥有什么区别| 尿频尿急是什么症状| 乐观是什么意思| 无故流鼻血是什么原因| 电解质是什么检查项目| 朝鲜面是什么原料做的| 水滴鱼长什么样子| 处女座是什么| 通勤是什么| 吃什么补阴虚最好| 夕火念什么| 孙俪什么学历| 什么夫妻百事哀| 喉咙有异物感是什么原因| 竖心旁的字与什么有关| 失眠缺什么维生素| 什么原因导致荨麻疹| 孕晚期破水是什么症状| 壁虎的尾巴有什么作用| 风风火火是什么生肖| 挂急诊和门诊有什么区别| 得失是什么意思| 医保卡有什么用| 左手食指麻木是什么原因引起的| 女性排卵期有什么表现| 聋哑人为什么不会说话| 昔字五行属什么| 出水芙蓉是什么意思| 土字旁有什么字| 芒果有什么营养价值| 今天冲什么生肖| 右耳朵热代表什么意思| 寂寞的反义词是什么| 微信什么时候有的| 尿素肌酐高是什么原因| 鸡属相和什么属相最配| 弦是什么| 豆包是什么意思| 避孕套长什么样| 为什么会长水泡| 吉林有什么特产| 什么是初心| 今日是什么日子| 尿里面有血是什么原因| 为什么会得胆囊炎| 肺炎吃什么药有效| 99年属什么| 12月8号是什么星座| 上海什么房子不限购| 鸡蛋胶是什么鱼胶| 什么危不什么| 血脂高是什么原因引起| 心路历程是什么意思| 水痘擦什么药膏好得快| 心脏不好吃什么| 吃什么有助于降血压| ct 是什么| 满城尽带黄金甲是什么意思| 白果是什么东西| 门槛石有什么讲究| 二氧化碳结合力是什么| 毒龙钻是什么意思| 胰管扩张是什么意思| 胃窦在胃的什么位置| 固执己见是什么意思| 双鱼座的幸运石是什么| 结婚需要什么证件| 递增是什么意思| 跖疣是什么| 11月26是什么星座| 梦见自己相亲是什么征兆| 肾阳虚吃什么食物| 血管瘤是什么病| 梦见晒衣服是什么意思| 什么是三净肉| 屁股上长痘是什么原因| 牙龈萎缩吃什么维生素| 蟑螂喜欢吃什么东西| 胃窦黄斑瘤是什么病| 哈密瓜什么时候成熟| 阴虚火旺吃什么中成药好| 普通的近义词是什么| 眼皮突然肿了是什么原因| 6月25日是什么日子| 荨麻疹能吃什么食物| 鼻子冒热气是什么原因| 什么是制片人| 金字旁乐读什么| 纯钛对人体有什么好处| 孕囊是什么东西| 双子座和什么座最不配| 93年属什么的生肖| 孕妇吃山竹对胎儿有什么好处| 院感是什么意思| 喝什么茶可以减肥| 种小麦用什么肥料好| 花儿为什么这样红简谱| 洛阳古代叫什么| 戒奶涨奶痛有什么缓解方法| 1.20是什么星座| 幽门阳性是什么意思| 百度Zum Inhalt springen

【直播】模块化设计—基于FPGA的数字逻辑分析仪

aus Wikipedia, der freien Enzyklop?die
百度 如今榴花溪堂的客户主要是西安人,可能也是由于自身宣传不够。

Ein Large Language Model, kurz LLM (englisch, teilweise übertragen gro?es Sprachmodell), ist ein Sprachmodell, das sich durch seine F?higkeit zur Textgenerierung auszeichnet. Es handelt sich um ein computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat. Für die mathematische Beschreibung siehe Sprachmodell.

Gro?e Sprachmodelle erlangen diese F?higkeiten durch die Verwendung gigantischer Datenmengen, um w?hrend des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viel Rechenressourcen.[1] Gro?e Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze und werden (a priori) entweder durch selbstüberwachtes Lernen oder halbüberwachte Lernmethoden trainiert. Stand 2024 werden meistens Transformer als Architektur für diese neuronalen Netze gew?hlt.[2]

Gro?e Sprachmodelle arbeiten als selbstanpassende Sprachmodelle, die ?verschiedene Aufgaben in natürlicher Sprache ausführen k?nnen, z. B. das Zusammenfassen, übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das n?chste Token oder Wort vorhersagen“.[3] Bis 2020 bestand die einzige M?glichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung.[4] Gr??ere Modelle, wie z. B. das inzwischen popul?re GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe von Prompt Engineering ?hnliche Ergebnisse erzielen k?nnen.[5] Zus?tzlich zu der F?higkeit, Kenntnisse über Syntax, Semantik und ?Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass gro?e Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.[6]

LLMs werden beispielsweise bei Open Assistant, ChatGPT, Ernie Bot und Grok eingesetzt. Einige gro?e Sprachmodelle sind die GPT-Modellreihe von OpenAI (z. B. GPT-3.5 und GPT-4, die in ChatGPT und Microsoft Copilot verwendet werden), Googles PaLM, Gemini und Gemma 2, Metas LLaMA-Familie von Open-Source-Modellen, Anthropics Claude und X.AIs Grok-1. Daneben gibt es auch leistungsf?hige LLMs chinesischer Firmen wie diejenigen von Alibaba, Deepseek, 01 AI und Zhipu AI.[7]

Auf der ?Conference on Neural Information Processing Systems“ (NeurIPS) 2017 stellten Google-Forscher unter Ashish Vaswani die Transformer-Architektur in ihrem Papier Attention Is All You Need vor.[8][9] Ziel dieses Papiers war es, die Seq2seq-Technologie aus dem Jahr 2014 zu verbessern, und es basierte haupts?chlich auf dem von Bahdanau et al. 2014 entwickelten Aufmerksamkeitsmechanismus (attention mechanism).[10] Im darauffolgenden Jahr 2018 wurde BERT eingeführt und schnell ?allgegenw?rtig“. Obwohl der ursprüngliche Transformator sowohl Encoder- als auch Decoderbl?cke hat, ist BERT ein reines Encoder-Modell.[11]

Obwohl GPT-1 im Jahr 2018 als reines Decoder-Modell eingeführt wurde, erregte GPT-2 im Jahr 2019 gro?e Aufmerksamkeit, da OpenAI es zun?chst als zu leistungsf?hig erachtete, um es aus Angst vor b?swilliger Nutzung zu ver?ffentlichen. GPT-3 im Jahr 2020 ging noch einen Schritt weiter und ist ab 2024 nur noch über eine API verfügbar, ohne die M?glichkeit, das Modell zur lokalen Ausführung herunterzuladen. Es war das browserbasierte ChatGPT aus dem Jahr 2022, das ?die Welt komplett ver?nderte“.[12] 2023 wurde GPT-4 für seine erh?hte Genauigkeit und als ?heiliger Gral“ für seine multimodalen F?higkeiten gepriesen.[13] OpenAI gab die High-Level-Architektur und die Anzahl der Parameter des GPT-4 nicht bekannt.

In der Zwischenzeit haben konkurrierende Sprachmodelle gr??tenteils mit der GPT-Serie gleichgezogen, zumindest was die Anzahl der Parameter betrifft.[14] Zu den bemerkenswerten Ausnahmen in Bezug auf die Anzahl der Parameter geh?ren Googles T5-11B von 2019 und PaLM-E von 2022. Am 26. Januar 2024 übertraf Googles Gemini Pro GPT-4,[15] was die Elo-Bewertung betrifft.

Seit 2022 erfreuen sich Open-Source-Modelle zunehmender Beliebtheit, zun?chst vor allem BLOOM und LLaMA, die allerdings beide Einschr?nkungen im Einsatzbereich aufweisen. Im Januar 2024 war Mixtral 8x7b von Mistral AI laut dem LMSYS Chatbot Arena Leaderboard das leistungsf?higste offene LLM, leistungsf?higer als GPT-3.5, aber nicht so leistungsf?hig wie GPT-4.[16]

Neben Grafikprozessoren gibt es seit einigen Jahren Chiparchitekturen, die für das Training und Inferencing von gro?en neuronalen Netzen optimiert sind. 2016 wurde beispielsweise von Google die erste Version ihrer Tensor Processing Unit (TPU) vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Herstellern mit Spezial-Hardware für die Bearbeitung von LLMs. So haben beispielsweise Cerebras den CS-1, CS-2 und CS-3, AMD die Instinct-Serie, Intel die Gaudi-Plattform und Nvidia Hopper bzw. dessen Nachfolger Blackwell eingeführt bzw. angekündigt.

Trainingsmethoden

[Bearbeiten | Quelltext bearbeiten]

Feinabstimmung und Spezialisierung

[Bearbeiten | Quelltext bearbeiten]

Nach dem rechenintensiven Vortraining, das die allgemeinen Sprachgrundlagen erlernt, werden Large Language Models (LLMs) oft durch Feinabstimmung (englisch: fine-tuning) spezialisiert. Dabei wird das Modell mit einem kleineren, aufgaben- oder dom?nenspezifischen Datensatz weiter trainiert. Dies erm?glicht es, die F?higkeiten des Modells für bestimmte Anwendungsf?lle, wie beispielsweise die Beantwortung von Fragen in einem bestimmten Fachgebiet oder das Generieren von Text in einem bestimmten Stil, pr?zise anzupassen. Im Gegensatz zum Vortraining, bei dem die gesamte Wissensbasis aufgebaut wird, dient die Feinabstimmung dazu, die bereits erlernten Kenntnisse gezielt zu formen und zu verfeinern, ohne die Grundf?higkeiten zu beeintr?chtigen.

Methoden der Feinabstimmung:

  • Vollst?ndige Feinabstimmung (Full Fine-Tuning): Dies ist der traditionelle Ansatz, bei dem alle Parameter des vortrainierten Modells w?hrend des Trainings mit dem neuen Datensatz angepasst werden. Obwohl diese Methode in der Regel die besten Ergebnisse erzielt, erfordert sie erhebliche Rechenleistung und Speicherkapazit?ten, was sie für viele Anwendungsf?lle unpraktisch macht.
  • Parameter-effiziente Feinabstimmung (Parameter-Efficient Fine-Tuning, PEFT): Um die Nachteile der vollen Feinabstimmung zu umgehen, wurden Methoden entwickelt, die die Anzahl der zu trainierenden Parameter drastisch reduzieren. Eine der prominentesten und weit verbreiteten Techniken in diesem Bereich ist Low-Rank Adaptation (LoRA)[17].
  • LoRA friert die Gewichte des ursprünglichen, vortrainierten Modells ein. Anstelle der Aktualisierung aller Parameter werden kleine, trainierbare Matrizen (sogenannte ?Rank-Decomposition-Matrizen“) in jede Schicht der Transformatoren-Architektur injiziert. Da die Anzahl der Parameter in diesen Matrizen im Vergleich zu den Milliarden von Parametern des Basismodells minimal ist, reduziert LoRA den Rechen- und Speicherbedarf erheblich. Die Idee dahinter ist, dass die erforderlichen Anpassungen, um ein Modell an eine neue Aufgabe zu adaptieren, eine inh?rent niedrige Rangordnung haben. LoRA-Modelle sind dadurch sehr kompakt (oft nur wenige Megabyte gro?) und k?nnen einfach gespeichert und ausgetauscht werden. Dies hat die Feinabstimmung von gro?en Modellen demokratisiert und für ein breiteres Spektrum von Entwicklern zug?nglich gemacht. Die Methode wurde erstmals 2021 von einem Forschungsteam von Microsoft vorgestellt.

Multimodal Learning

[Bearbeiten | Quelltext bearbeiten]

Multimodal Learning verwendet verschieden strukturierte Daten im Bereich der künstlichen Intelligenz:[18]

  • Text ist eine der am h?ufigsten verwendeten Modalit?ten im maschinellen Lernen. Textdaten enthalten strukturierte Informationen, und mithilfe der natürlichen Sprachverarbeitung l?sst sich leicht Wissen aus ihnen extrahieren. Die Techniken, die zur Verarbeitung dieser Informationen verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entit?ten und Textklassifizierung.
  • Bilder sind eine wesentliche Quelle visueller Informationen. Mithilfe von Convolutional Neural Networks konnten gro?e Fortschritte beim Verst?ndnis von Bildern erzielt werden. Verwendete Techniken sind z. B. die Objekterkennung, die Gesichtserkennung und die Segmentierung von Bildern.
  • Die Audiomodalit?t umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams.
  • Videos sind eine leistungsstarke Quelle für multimodale Daten, weil sie visuelle und auditive Informationen kombinieren. Computer Vision und Audioverarbeitungstechniken erm?glichen es, Wissen aus einer Videosequenz zu extrahieren. Dies erm?glicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivit?ten oder sogar die Erkennung von Gesten.

Bootstrapping Language-Image Pretraining

[Bearbeiten | Quelltext bearbeiten]

Die meisten modernen Vision-Language-Modelle ben?tigen w?hrend des Trainings einen hohen Rechenaufwand, weil das Training mit umfangreichen Modellen und Datens?tzen erfolgt, vgl. Contrastive Language-Image Pre-training (CLIP). Die Forschung befindet sich an der Schnittstelle zwischen Sehen und Sprache. Daher ist zu erwarten, dass Vision-Language-Modelle von den leicht verfügbaren unimodalen Modellen der Bilderkennung und natürlichen Spracherkennung profitieren k?nnen.

Vortrainierte Vision-Modelle bieten eine qualitativ hochwertige visuelle Darstellung. Vortrainierte Sprachmodelle, insbesondere gro?e Sprachmodelle, bieten leistungsstarke F?higkeiten zur Sprachgenerierung und Zero-Shot-übertragung. Um die Kosten zu senken und dem Problem des katastrophalen Vergessens entgegenzuwirken, bleiben die unimodalen vortrainierten Modelle w?hrend des Vortrainings eingefroren. Weil gro?e Sprachmodelle jedoch w?hrend ihres unimodalen Vortrainings keine Bilder gesehen haben, macht das Einfrieren die visuelle Sprachausrichtung besonders schwierig.[19]

Skalierungsgesetze

[Bearbeiten | Quelltext bearbeiten]

Passt man für jede Modalit?t die sieben Parameter der Gleichung

an und minimiert

für , wobei der Standard-Huberverlust für jeden Durchlauf und Modalit?t ist. Man setzt dann , , . Um die optimalen Minima zu identifizieren, verwendet man das BGFS-Verfahren auf demselben Gitter der Initialisierungswerte. Die erhaltenen optimalen Werte befinden sich nicht an den Grenzen des Initialisierungsgitters. Die Skalierungsgesetze für jede Modalit?t sind im Einzelnachweis verfügbar. Die Parameter für jede Modalit?t variieren erheblich.[20]

Bei LLM und Foundation Models anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden Verschlechterung der Ergebnisqualit?t kommen (Modellkollaps, model collapse). Dies betrifft insbesondere nachfolgende Modellversionen, die mit einem zunehmenden Anteil an künstlich generierten Daten trainiert werden, d. h. dass Teile der Trainingsdaten ebenfalls von einem LLM stammen. Eine Vorsortierung der in der Regel durch Webscraping erlangten Daten erscheint bisher als zu aufw?ndig.[21]

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Better language models and their implications. Abgerufen am 15. Januar 2024 (englisch).
  2. Rick Merritt: What Is a Transformer Model? 25. M?rz 2022, abgerufen am 15. Januar 2024 (englisch).
  3. Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier S. 319) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. Eight Things to Know about Large Language Models.
  4. Was ist Feinabstimmung? | IBM. 15. M?rz 2024, abgerufen am 10. Dezember 2024.
  5. Language Models are Few-Shot Learners. (PDF) Abgerufen am 15. Januar 2024.
  6. Human Language Understanding & Reasoning. 13. April 2022, abgerufen am 15. Januar 2024 (englisch).
  7. Markus St?deli: Die Rangliste der weltbesten KI-Chatbots zeigt: Bei der künstlichen Intelligenz ist China den amerikanischen Anbietern dicht auf den Fersen. In: NZZ am Sonntag, 14. Dezember 2024, abgerufen am 15. Dezember 2024
  8. Ashish Vaswani et al: Attention is all you need. (PDF) Google, abgerufen am 5. Februar 2024 (englisch).
  9. Rob Toews: Transformers Revolutionized AI. What Will Replace Them? Abgerufen am 5. Februar 2024 (englisch).
  10. Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. In: Arxiv. 1. September 2014, abgerufen am 5. Februar 2024 (englisch).
  11. Was ist BERT? – von Stefan Luber, über Bigdata-Insider, am 10. Mai 2022.
  12. ChatGPT turns 1: How the AI chatbot has completely changed the world. 30. November 2023, abgerufen am 5. Februar 2024 (englisch).
  13. GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why. Abgerufen am 5. Februar 2024 (englisch).
  14. Parameters in notable artificial intelligence systems. Our World in Data, 3. April 2024, abgerufen am 16. Mai 2024 (britisches Englisch).
  15. Siddharth Jindal: Google's Gemini Pro Beats GPT-4. 27. Januar 2024, abgerufen am 5. Februar 2024 (amerikanisches Englisch).
  16. LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys. Abgerufen am 5. Februar 2024.
  17. Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen: LoRA: Low-Rank Adaptation of Large Language Models. In: Proceedings of the 10th International Conference on Learning Representations. 2021, doi:10.48550/arXiv.2106.09685, arxiv:2106.09685.
  18. Multimodal Learning: Die Technik, die die künstliche Intelligenz revolutioniert. In: Weiterbildung Data Science | DataScientest.com. 17. August 2023, abgerufen am 24. Juni 2024 (deutsch).
  19. Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023, doi:10.48550/ARXIV.2301.12597, arxiv:2301.12597.
  20. Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer: Scaling Laws for Generative Mixed-Modal Language Models. 10. Januar 2023, doi:10.48550/ARXIV.2301.03728.
  21. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal: AI models collapse when trained on recursively generated data. In: Nature. Band 631, Nr. 8022, 25. Juli 2024, ISSN 0028-0836, S. 755–759, doi:10.1038/s41586-024-07566-y, PMID 39048682, PMC 11269175 (freier Volltext) – (nature.com [abgerufen am 27. Juli 2024]).
检查妇科清洁度三是什么意思 都有什么快递 家奴是什么生肖 usr是什么意思 酚妥拉明是什么药
押韵是什么意思 一什么玉米 六八年属什么生肖 1990是什么生肖 子宫内膜囊性增生是什么意思
胆汁反流是什么症状 单飞什么意思 儿童早餐吃什么有营养还能长高 猴子屁股为什么是红色 老日念什么
舌头疼痛吃什么药 检测hpv挂什么科 灵芝与什么相克 月经量少吃什么好 神经内科看什么病
涧是什么意思hcv8jop4ns4r.cn 为什么呢hcv9jop6ns3r.cn 朱砂有什么功效hcv8jop7ns5r.cn 时柱比肩是什么意思hcv8jop7ns9r.cn 男女双修是什么意思hcv8jop3ns8r.cn
薛定谔的猫比喻什么jiuxinfghf.com 吉兰巴雷综合征是什么病hcv9jop5ns4r.cn 血小板低是什么问题hcv8jop1ns1r.cn 今年23岁属什么生肖hcv9jop0ns4r.cn 这是什么英语hcv9jop7ns3r.cn
巨蟹座女和什么座最配hcv8jop9ns5r.cn 卫校学什么专业最好hcv8jop8ns4r.cn 甲胎蛋白是什么意思hcv8jop6ns5r.cn 纪年是什么意思hcv8jop9ns6r.cn 山东简称为什么是鲁不是齐qingzhougame.com
潜能什么意思hcv8jop6ns5r.cn 土鳖吃什么hcv7jop7ns2r.cn 母亲节买什么礼物hcv8jop7ns4r.cn 京东plus是什么意思hcv8jop2ns6r.cn 分泌物过氧化氢阳性是什么意思hcv8jop3ns0r.cn
百度