- Tubelator AI
- >
- Videos
- >
- Entertainment
- >
- Whitepaper Companion Podcast - Foundational LLMs & Text Generation
Whitepaper Companion Podcast - Foundational LLMs & Text Generation
Read the whitepaper here: https://www.kaggle.com/whitepaper-foundational-llm-and-text-generation
Learn more about the 5-Day Generative AI Intensive: https://rsvp.withgoogle.com/events/google-generative-ai-intensive_2025q1
Introduction:
The advent of Large Language Models (LLMs) represents a seismic shift in the world of artificial intelligence. Their ability to process, generate, and understand user intent is fundamentally changing the way we interact with information and technology.
An LLM is an advanced artificial intelligence system that specializes in processing, understanding, and generating human-like text. These systems are typically implemented as a deep neural network and are trained on massive amounts of text data. This allows them to learn the intricate patterns of language, giving them the ability to perform a variety of tasks, like machine translation, creative text generation, question answering, text summarization, and many more reasoning and language oriented tasks. This whitepaper dives into the timeline of the various architectures and approaches building up to the large language models and the architectures being used at the time of publication. It also discusses fine-tuning techniques to customize an LLM to a certain domain or task, methods to make the training more efficient, as well as methods to accelerate inference. These are then followed by various applications and code examples.
Video Summary & Chapters
No chapters for this video generated yet.
Video Transcript
خوش آمدید همه به غوطه ور عمیق.
امروز ما یک غوطه ور عمیق در چیزی بسیار بزرگ،
مدل های بنیادی زبان بزرگ یا LLMs،
و چگونه متن را ایجاد می کنند.
به نظر می رسد به نظر می رسد که آنها در همه جا ظاهر می شوند، درست است؟
تغییر چگونگی نوشتن کد، چگونگی نوشتن داستان ها.
بله، پیشرفت فوق العاده سریع بوده است.
سخت است که بالا بماند.
برای این غوطه ور عمیق، ما تمام راه را به بالا می رویم.
تا فوریه سال ۲۰۲۵، بنابراین ما در حال صحبت کردن با موضوعات پیشرفته هستیم.
بله، به طور جدی کاهش می یابد.
بنابراین وظیفه ما امروز این است که همه اینها را از بین ببریم.
به قلب این LLMs بروید.
از چه چیزی ساخته شده اند؟
چگونه تکامل می کنند؟
در واقع چگونه یاد می گیرند؟
البته، چگونه می توانیم اندازه گیری کنیم که آنها چقدر خوب هستند؟
ما به همه این ها نگاه می کنیم، حتی برخی از ترفندها که برای آنها سریع تر اجرا می شود استفاده می شود.
خیلی چیزها برای پوشش وجود دارد، اما امیدوارم بتوانیم آن را به یک سفر سرگرم کننده تبدیل کنیم.
شما می دانید، نقطه شروع برای همه این، پایه ترین LLM های مدرن، این است که
معماری تبدیل
در واقع این نوع خنده دار است.
این برنامه از یک پروژه گوگل که در سال 2017 بر روی ترجمه زبان متمرکز شده بود، آمده است.
خوب، بنابراین این چیز تبدیل، من یادم می آید که در مورد آن شنیده ام.
یکی از اصلی این کدور و decoder بود، درست است؟
انگار یک جمله را در یک زبان می گیرد و آن را به زبان دیگری تبدیل می کند.
بله، دقیقاً.
بنابراین کددر ورودی را می گیرد، شما می دانید، مانند یک جمله به زبان فرانسه، و ایجاد این
نمایندگی از آن، مانند خلاصه ای از معنی.
سپس decoder از این نمایندگی برای تولید خروجی، مانند ترجمه انگلیسی، استفاده می کند.
قطعه به قطعه
و هر قطعه، آن را یک توکن می نامند.
این می تواند یک کلمه کامل مانند گربه یا بخشی از کلمه مانند پیش فرض باشد.
اما سحر واقعی این است که چه اتفاقی در داخل هر لایه از این چیز تبدیل می افتد.
همه چیز درست است.
بیایید به این جادو برویم.
در واقع در یک لایه تبدیل چه اتفاقی می افتد؟
اول چیزها اول.
اول، متن ورودی باید برای مدل آماده شود، درست است؟
ما متن را به آن توکن ها بر اساس واژگان خاصی که مدل از آن استفاده می کند تبدیل می کنیم.
و هر یک از این توکن ها به این وکتور تراکم تبدیل می شود که ما آن را در ادغام می نامیم.
این موضوع معنی این توکن را درک می کند.
اما، و این مهم است، ترانسفورماتورها تمام توکن ها را به طور همزمان پردازش می کنند.
بنابراین ما نیاز به اضافه کردن برخی از اطلاعات در مورد سفارش آنها در جملات ظاهر شده است که
کدگذاری موقعیتی نامیده می شود.
کدگذاری. و انواع مختلفی از کدگذاری موقعیت وجود دارد، مانند sinusoidal و یادگیری
کدگذاری ها. انتخاب در واقع می تواند تا حدی تاثیر بگذارد که مدل چقدر بهتر درک می کند.
عبارات یا ترجیحات طولانی تر از متن
در غیر این صورت، مانند اینکه تمام کلمات را در یک کیسه پرتاب کنید، تمام ساختار را از دست می دهید.
پس از آن ما به، من فکر می کنم، بخش معروف ترین، توجه چند سر. من دیدم این تشنه