
27 episodes
סקירות מאמרים על למידה עמוקה, חידות מתמטיקה, דיונים מתמטיים על בינה מלאכותית.
בפרק זה של MathyAIwithMike, אנו צוללים לעומק האתגרים ההנדסיים של עולם הבינה המלאכותית. נדון במגבלות הארכיטקטוניות של מודלי הטרנספורמר, המביאות ל"כשל טופולוגי" בניהול מצבים פנימיים, ונבחן את הצורך במעבר למודלים רקורסיביים כמו Mamba. ננתח את מחקרם של חוקרי אוניברסיטת ג'ונס הופקינס המפריך את הקשר הישיר בין התערבות פנימית (Activation Steering) לבין פריצות דרך פרומפטים חיצוניים. לבסוף, נכיר את המהפכה של שפת Lean4 המביאה ודאות מתמטית מוחלטת לעולם הפיננסי עם ספרייה של מעל 200 משפטים מוכחים לאימות אלגוריתמי מסחר. הפרק גם נוגע בהשפעה הפיזית של חוות השרתים על משאבי המים של כדור הארץ.
בפרק זה אנו צוללים לשני נושאים מרתקים מחזית הטכנולוגיה והמתימטיקה. בתחילה, נדון במהפכת האימות הפורמלי בעולם הפיננסים: כיצד שימוש בשפת Lean4 מאפשר להוכיח מתימטית אלגוריתמים בנקאיים ולמנוע טעויות אנוש קריטיות. בחלקו השני של הפרק, נבחן את סוגיית האבטחה בבינה מלאכותית. נדבר על טכניקת ה-Activation steering ועל מחקר חדש מאוניברסיטת ג'ונס הופקינס המפריך את החשש שמשתמשים רגילים יכולים לפרוץ את הגנות המודל באמצעות מילים בלבד. הצטרפו אלינו לשיחה על הפיכת עולם התוכנה והכסף ליציב, שקוף ובטוח יותר באמצעות לוגיקה קשיחה ומחקר פורץ דרך.
בפרק זה אנו צוללים לעומק האתגרים המבניים של מודלי שפה גדולים. אנו דנים ב"כשל הטופולוגי" של הטרנספורמרים וכיצד מעבר לארכיטקטורה רקורנטית עשוי לפתור את בעיית הזיכרון בשיחות ארוכות. בנוסף, אנו בוחנים את המחיר הסביבתי הכבד של ה-AI דרך צריכת המים האדירה של מרכזי הנתונים. לבסוף, נדבר על המהפכה במתמטיקה הפיננסית: שימוש בשפת Lean4 לאימות פורמלי של אלגוריתמים המנהלים טריליוני דולרים, במטרה ליצור תשתית כלכלית יציבה וחסינה יותר. הצטרפו אלינו לשיחה על העתיד שמעבר ל"גדול יותר" – עתיד של דיוק, יעילות ויציבות.
הפרק עוסק במהפכה השקטה של עולם הפיננסים: המעבר ממודלים מתמטיים משוערים למערכות מוכחות פורמלית. בעזרת שפת Lean4, חוקרים ומתכנתים בונים תשתיות פיננסיות שבהן כל צעד לוגי מאומת על ידי המחשב לפני הרצת הקוד. הפרק מסביר כיצד הוכחת משפטים מורכבים, כמו אינטגרל איטו, מסייעת למנוע טעויות קריטיות ומבטיחה ודאות בעולם שבו טריליוני דולרים נמצאים על הכף. נלמד על חשיבות הדיוק המוחלט, אימוץ טכנולוגיות אימות פורמלי בוול סטריט, ואיך 'שומר סף' דיגיטלי מוודא שאין חורים במתמטיקה שמאחורי הבורסה.
בפרק זה אנו צוללים אל מאחורי הקלעים של עולם הבינה המלאכותית ומגלים מדוע המודלים הנוכחיים עומדים בפני "קיר". נדון במגבלות הזיכרון של ארכיטקטורת הטרנספורמרים ובצורך במעבר למודלים רקורנטיים חכמים יותר. בהמשך, נחשוף את המחיר הסביבתי הכבד של חוות השרתים, בדגש על צריכת מים מאסיבית לקירור. לבסוף, נכיר את שפת Lean4 המאפשרת אימות מתמטי פורמלי של אלגוריתמים פיננסיים, במטרה להפוך את שוק ההון למדעי ומדויק יותר. האם אנחנו עוברים מהתלהבות עיוורת לבנייה הנדסית יציבה? הצטרפו אלינו לשיחה מרתקת על העתיד של הטכנולוגיה והשפעתה על המציאות הפיזית והכלכלית של כולנו.
בפרק זה אנו צוללים אל המחירים הנסתרים של הבינה המלאכותית – הפיזיים והלוגיים כאחד. נתחיל בבחינת צריכת המים האדירה של מרכזי הנתונים הדרושים לקירור השרתים, וכיצד ה-AI משפיע על משאבי הטבע שלנו. בהמשך, נעבור לעולם המתמטיקה הפיננסית ונכיר את שפת Lean4, המאפשרת "הוכחה פורמלית" של אלגוריתמים. נבין מדוע עולם הפיננסים עובר מתיאוריות על הנייר למערכות שמוכחות צעד אחר צעד, במטרה למנוע טעויות של מיליארדי דולרים. שיחה מרתקת על הקשר שבין שרתים צמאים למים לבין הצורך בוודאות מתמטית מוחלטת בעידן הדיגיטלי.
בפרק זה אנו צוללים אל תוך "תקרת הזכוכית הארכיטקטונית" של מודלי הבינה המלאכותית הנוכחיים. נבין מדוע מבנה הטרנספורמרים המוכר מגיע לקצה גבול היכולת שלו, וכיצד מודלים חדשים המבוססים על State-Space Models (SSMs) מציעים פתרון יעיל וחכם יותר לניהול זיכרון. בנוסף, נחשוף את המחיר הסביבתי הכבד של ה-AI – צריכת המים האדירה לקירור שרתים – ונבדוק כיצד שפת התכנות Lean4 הופכת את עולם הפיננסים למדע מדויק ובטוח יותר באמצעות אימות פורמלי של אלגוריתמים. הצטרפו אלינו לשיחה על המעבר מעידן של "גדול יותר" לעידן של בינה מלאכותית חכמה, חסכונית ובטוחה הרבה יותר.
האזינו לדיון מעמיק על החידושים האחרונים מ-re:Invent בתחום ה-AI! נגלה איך טכנולוגיות חדשות משנות את כללי המשחק ומאפשרות לנו לאמן מודלים מותאמים אישית בקלות וביעילות. נדבר על אימון מודלים ל-RAG ולמידת חיזוק (RL), ואיך אמזון מאפשרת לנו לבנות מודלי יסוד משלנו עם שליטה מלאה והתאמה אישית. הצטרפו אלינו כדי להבין איך תוכלו לבנות מודלים חכמים יותר, עם מידע עדכני, ולהתאים אותם אישית ברמת הליבה.
הצטרפו אלינו לדיון על החידושים האחרונים בעולם ה-AI והענן, היישר מכנס re:Invent של AWS. נסביר מה הופך את הכנס הזה לקריטי, אילו הכרזות חשובות צפויות בו, וכיצד החידושים הטכנולוגיים משפיעים על הכלכלה ועל עולם ה-AI בכלל. מייק יחזור עם ניתוחים מעמיקים ב-7 בדצמבר ויספק תובנות ייחודיות על הטכנולוגיות החדשות והמתמטיקה שמאחוריהן. אל תפספסו את הסקירות המרתקות שלו!
בפרק זה של Mathy AI with Mike, אנו צוללים לשאלה האם הדרך בה אנו מעריכים מודלי שפה גדולים (LLMs) היא שגויה מיסודה. השימוש ב-LLMs כדי להעריך LLMs אחרים הפך לסטנדרט, אך גישה זו עלולה להניב אומדנים מוטים שיטתית. הפרק מציג שיטה לתיקון ההטיה באמצעות משערך Rogan-Gladen מתחום האפידמיולוגיה, ודן בחשיבות של חישוב רווחי סמך הלוקחים בחשבון את אי-הוודאות של השופט עצמו. בנוסף, נבחנת הדרך האופטימלית להקצות תקציבי כיול אנושיים כדי למזער את רוחב רווח הסמך הסופי, ובכך להגביר את האמינות של מחקר ופיתוח בתחום הבינה המלאכותית.
בפרק זה של MathyAI, מייק ואורח דנים בחשיבותם של 'כוכבים' בפרויקטי קוד פתוח, במיוחד בתחומי המתמטיקה והבינה המלאכותית. הם מסבירים שכוכבים אינם רק עניין של פופולריות, אלא מדד לאיכות, אמון קהילתי ואימוץ. השניים מנתחים את המשמעות של פרויקט שמגיע ל-300 כוכבים ומדוע זהו ציון דרך משמעותי. הם גם מסבירים מהם העקרונות להשגת כמות כזו של כוכבים, כולל פתרון בעיות אמיתיות, קוד נקי ותיעוד ברור, ומעורבות קהילתית.
האם מודלי שפה גדולים חושפים מידע רגיש למרות ההצפנה? הפרק צולל למאמר פורץ דרך החושף כיצד ניתן לגנוב נתונים מודלים דרך ערוץ צדדי, גם בתקשורת מוצפנת. נלמד על 'מתקפת ערוץ צדדי' וכיצד דפוסי תעבורה, כמו גודל חבילות וזמני תגובה, יכולים לחשוף נושאים רגישים. הניסויים הראו הצלחה של עד 98% בזיהוי מידע רגיש! נדון בהשלכות בעולם האמיתי ובפתרונות כמו obfuscation שמייקרוסופט ו-OpenAI הטמיעו.
בפרק זה, אנו צוללים למאמר פורץ הדרך של יאן לקון, LeJEPA, החושף גישה חדשה לאימון מודלי בינה מלאכותית. לקון טוען ששיטות מורכבות רבות הן מיותרות, ומציע התפלגות גאוסית פשוטה כיעילה יותר. LeJEPA משלב רגולריזטור SIGReg עם פונקציית לוֹס רגילה, היוצרת אימון "רזה" ויציב עם תוצאות מרשימות, לעתים קרובות גובר על מודלים גדולים יותר שאומנו על מערכי נתונים עצומים. גישה זו לא רק משפרת ביצועים אלא גם מוכיחה שפשטות יכולה לנצח כוח חישוב גולמי, ומבשרת עתיד מבטיח ללמידה עמוקה.
בְּאֶפִּיזוֹדָה הַזּוֹ אֲנַחְנוּ חוֹקְרִים מֶחְקָר חָדָשׁ הַבּוֹחֵן אִם מוֹדֶל AI קָטָן יָכוֹל לְהַצְלִיחַ לִפְתּוֹר בְּעָיוֹת מוּרְכָּבוֹת יוֹתֵר מִמּוֹדֶלִים גְּדוֹלִים. הַמֶּחְקָר מַצִּיג גִּישָׁה חֲדָשָׁה, Spectrum-to-Signal, הַמְעוֹדֶדֶת גִּיוּוּן בַּפִּתְרוֹנוֹת בִּשְׁלַב הָאִימּוּן כְּדֵי לְשַׁפֵּר אֶת יְכוֹלוֹת הַהַנְמָקָה. אָנוּ מְפָרְקִים אֶת הַשְּׁלַבִּים שֶׁל הַמֶּחְקָר, בּוֹחֲנִים אֶת הַהַשְׁוָואוֹת שֶׁנַּעֲשׂוּ, וּמְדַבְּרִים עַל הַחֲשִׁיבוּת שֶׁל בְּדִיקַת שִׁיטּוֹת הַהַעֲרָכָה בְּקַפְּדָנוּת.
בפרק הזה, מייק ושותפו צוללים למאמר פורץ דרך בשם CAT ("Compress & Attend Transformer") החושף ארכיטקטורת טרנספורמר חדשנית. CAT פותר את בעיית היעילות של מודלים קיימים בכך שהוא מאפשר למודל יחיד להתאים את עצמו דינמית לדרישות שונות של מהירות ואיכות. הם מסבירים כיצד CAT דוחס מידע ומפענח אותו ביעילות, תוך שמירה על פרטים חשובים. בנוסף, הם מדגישים את היכולת לשלוט ביעילות המודל בזמן אמת, מה שהופך אותו לגמיש במיוחד. לסיום, הם מזכירים את הפרויקט החדש של מייק: "100 סקירות המאמרים הכי טובות".
האם אי פעם דמיינתם כמה מהר נוכל ליצור וידאו עם AI? צוואר הבקבוק העיקרי הוא מנגנון ה-Attention, הצורך עד 80% מזמן ההסקה. LiteAttention מציגה פתרון חדשני: דילוגי חישוב אבולוציוניים. הרעיון הוא לזהות בלוקים לא חשובים בשלבים מוקדמים של הסרת הרעש, ולדלג עליהם בהמשך. גישה זו משלבת גמישות ויעילות, ומאפשרת דילוג על 40-70% מחישובי ה-Attention ללא פגיעה באיכות. התוצאה: הפחתת זמן ריצה משמעותית ויצירת וידאו מהירה ואיכותית.
בפרק של "MathyAIwithMike" אנו חוקרים כיצד בינה מלאכותית, במיוחד רשתות נוירונים מודעות לפיזיקה (PINNs), יכולה לפתור בעיות מדעיות מורכבות. PINNs משלבות למידה מנתונים עם חוקי פיזיקה, ומאפשרות להן לפעול ביעילות עם פחות נתונים. הן פותרות משוואות דיפרנציאליות חלקיות ומגלות פרמטרים של מודלים, אפילו בנוכחות רעש בנתונים. הדיון כולל פתרונות מבוססי נתונים וגילוי מבוסס נתונים של מד"חים, תוך שימוש במודלים רציפים ודיסקרטיים בזמן. מודלים דיסקרטיים, המשלבים פותרים נומריים קלאסיים, יעילים במיוחד עם נתונים מוגבלים.
הצטרפותה של הילה, מהנדסת AI ומומחית להנגשת ידע, לפודקאסט 'mathyaiwithmike' מסמנת שינוי מרענן. הפרק חושף כיצד היא משדרגת את הפודקאסט עם איכות סאונד ווידאו משופרים, ומביאה עומק חדש להבנת עולם ה-AI. הילה, מחברת הספר 'Supercharged Coding with GenAI', מסבירה על שימוש בכלי GenAI לשיפור תהליכי פיתוח, ועל חשיבות הורדת מימדים ב-AI. היא גם חולקת על הצלחתה בהנגשת נושאים טכניים בטיקטוק, ומדגישה את כוחו של הויזואליזציה בלמידה. הילה שואפת ליצור אינטראקציה אמיתית עם הקהל סביב הנושאים המדוברים.
בפרק זה נדון בשאלה האם מודלי AI מסוגלים לייצר כל פלט אפשרי, כולל המסוכן ביותר. נבחן מחקר חדש החושף כיצד תבניות צ'אט יכולות לשמש לחילוץ נתונים יקרי ערך ממודלים, ונבין איך מודלים "מפותים" לייצר מידע רגיש. נדון במתודולוגיה חדשה למדידת "זיכרון" של המודל, וכיצד היא משפיעה על הבנתנו לגבי פרטיות ואבטחה בעידן ה-AI.
דמיינו עולם שבו AI מנתח מחקרים על עצמו! הפרק צולל למחקר פורץ דרך, "לשכוח ביט, הכל על טוקן", ובוחן איך AI מבין שפה ברמה עמוקה יותר. מייק יצר סרטון AI המסכם סקירה שלו, ומזמין שיתופי פעולה. קצב פרסום מטורף של מעל 200 בלוגים ב-11 חודשים בלבד הופך אותו למגדלור בעולם ה-AI המתפתח. הצטרפו לדיון על עתיד הבינה המלאכותית!
השבוע ב-AI: האם מודלים יכולים לייצר כל פלט, כולל המסוכן ביותר? דיון על תורת המשחקים במודלים מרובי משימות ואיך ריבוי מטרות משפיע על הכללה. נבחן את הקשר בין שכחת תמונות, Jailbreaking והאם הכללה טובה היא חרב פיפיות. נעמיק ב"למידה מקוננת" ונבין האם למידה עמוקה היא רק מחסנית של אופטימייזרים. נגלה איך מורד הגרדיאנט עובד כאופטימיזציה מקוננת ואיך אפשר לשפר מומנטום עם DMGD.
האם מודלים גדולים של AI יכולים לייצר כל פלט אפשרי, כולל מסוכנים? מחקר חדש מציע תיאוריה חדשה המבוססת על 'טוקנים' ולא 'ביטים', ומשנה את תפיסתנו לגבי אבטחת AI. הדיון סוקר מדדים חדשים לאימון, יישור והסקה, ומציג את ארכיטקטורת הטרנספורמר כמקרה פשוט של מודל TV-VAR. הצטרפו אלינו לניתוח מעמיק של עתיד ה-AI וההשלכות על סטארטאפים וטכנולוגיה.
האורחת משתפת על כתיבת סקירות ספרים משותפות ועל היתרונות שבשיתוף פעולה. היא בוחרת ספרים מעניינים ומדגישה את החשיבות של ניתוח מעמיק לצד שיחה נעימה, במיוחד בתחום המתמטיקה. בלינקדאין, היא מתמקדת בנתונים בסקירות ושואפת ליצור תוכן מקצועי ואיכותי.
הפרק סוקר שני מחקרים פורצי דרך בתחום ה-AI. הראשון מראה כיצד ניתן 'להזריק' מחשבות לתוך מודל AI ולגרום לו להיות מודע לעצמו. השני טוען שטרנספורמרים לא מאבדים מידע, ואף פותח אלגוריתם לשחזור פרומפטים מקוריים. האם מודלי שפה הפיכים? הצטרפו לדיון על עתיד ה-AI!
בפרק הזה נדון במאמר שמציג בעיה באימון מודלים גדולים: 'אשליית הגרדיאנט'. המאמר מראה שהגרדיאנטים לא מאוזנים בין המשימות השונות, מה שגורם למודל לתת יותר חשיבות למשימות מסוימות על פני אחרות. החוקרים גילו שההבדלים בין הגרדיאנטים עצומים, עד כדי פי 33! המאמר לא מציע פתרון, אך הוא מהווה קריאת השכמה לקהילת המחקר ומדגיש את הצורך לחקור דרכים חדשות לאמן מודלים רב-משימתיים.
האם אפשר לדחוס טקסט לתמונה? מומחה מסביר על מחקר חדשני בתחום הדחיסה האופטית, המשתמש ב-DeepEncoder ובמודלים כמו SAM ו-CLIP-large. הדיון סוקר את שלושת השלבים העיקריים: תפיסה ברזולוציה גבוהה, דחיסה אופטית וחילוץ ידע. המפענח הוא מודל DeepSeek3B-MoE, שתפקידו לשחזר את הטקסט המקורי. האם DeepSeek-OCR הוא רק עוד מודל OCR, או פריצת דרך משמעותית? גלו איך הטכנולוגיה הזו יכולה לשנות את הדרך בה אנו חושבים על עיבוד שפה.
בפרק הזה, נצלול לעולם שיפור מודלי שפה גדולים (LLMs) עם טכניקה חדשנית. נדבר על שימוש בטרנספורמרים מבוססי אנקודרים בלבד כמנגנוני תגמול סמנטיים. השיטה מציעה שימוש במודל תגמול סמנטי ייעודי הפועל במרחב הלטנטי של שיכוני הטקסט, במקום לשפוט הסבר בשפה טבעית או לספור מילות מפתח. המודל מקבל תגמול על דיוק עובדתי, תקינות מבנית ושקיפות ההיגיון, כולל שרשרת הנמקה. זוהי דרך יעילה ופרגמטית לשפר את ההסברים של מודלי שפה גדולים.