
MathyAIwithMike-עברית
בפרק זה של Mathy AI with Mike, אנו צוללים לשאלה האם הדרך בה אנו מעריכים מודלי שפה גדולים (LLMs) היא שגויה מיסודה. השימוש ב-LLMs כדי להעריך LLMs אחרים הפך לסטנדרט, אך גישה זו עלולה להניב אומדנים מוטים שיטתית. הפרק מציג שיטה לתיקון ההטיה באמצעות משערך Rogan-Gladen מתחום האפידמיולוגיה, ודן בחשיבות של חישוב רווחי סמך הלוקחים בחשבון את אי-הוודאות של השופט עצמו. בנוסף, נבחנת הדרך האופטימלית להקצות תקציבי כיול אנושיים כדי למזער את רוחב רווח הסמך הסופי, ובכך להגביר את האמינות של מחקר ופיתוח בתחום הבינה המלאכותית.
Preparing player