מגזין

הסטודנט: ChatGPT. ציון במבחן הרישוי לרפואה: עובר!

השבוע התבשרנו כי ChatGPT, צ'אט בוט של בינה מלאכותית, עבר את בחינת לשכת עורכי הדין ואת בחינת הרישוי לרפואה בארה"ב, שכידוע דורשות מסטודנטים אנושיים שנות לימודים אקדמיות ארוכות ואינטנסיביות. איך כל זה ישפיע על עולם הרפואה?

צ'אט בוט. אילוסטרציה

לאחרונה התפרץ לחיינו תחום "הבינה המלאכותית היוצרת" (Generative AI) ושמות כ-ChatGPT או OpenAI מוזכרים בכל מקום. אחרי שהתוודענו למחוללי תמונות שיודעים להפיק ציורים במגוון סגנונות, למחולל קוד תוכנה אוטומטיים ולבוט-שיחה שמתקשר וכותב טקסטים, ברור כי התוכנות הופכות להיות יצירתיות יותר ויותר, עם תכונות כמו-אנושיות. התחום, שבו מחשבים מפיקים תוצרים כמו-אנושיים דוגמת תמונות, טקסטים, מוזיקה ועוד היה רחוק מבשלוּת שנים רבות, אבל נראה שמשהו קרה ופתאום זה בכל מקום, גם ברפואה.

השבוע התבשרנו כי ChatGPT, צ'אט בוט של בינה מלאכותית שהושק על ידי OpenAI אשתקד, עבר את בחינת לשכת עורכי הדין ואת בחינת הרישוי לרפואה,  שבדרך כלל דורשים מסטודנטים אנושיים שנים של לימודים אינטנסיביים והשכלה אקדמית. קבוצת חוקרים מארה"ב בדקו את הביצועים של ChatGPT בבחינת הרישוי הרפואי של ארה"ב ומצאו ש-ChatGPT הגיע לסף העובר בכל שלושת מרכיבי הבחינה, בלי כל הכשרה מוקדמת או תגבור מיוחד. ממצאי המחקר התפרסמו באתר medrivx.

בחינת הרישוי לעיסוק ברפואה בארה"ב, ה-USMLE, מורכבת משלוש בחינות נפרדות, כולל בחינה קלינית וידועה לשמצה בקושי שלה. תוצאות המחקר הראו ש-ChatGPT לא רק עבר את כל שלושת השלבים אלא גם הוכיח רמה גבוהה של התאמה ותובנה בהסברים שהציע לשאלות שנשאל. ממצאי המחקר מצביעים על פוטנציאל גבוה בסיוע של מודלים גדולים של שפה (Large Language Models) כגון ChatGPT בחינוך רפואי ואולי אפילו בקבלת החלטות קליניות.

המאמר מציין כי קלינאים ממרפאה וירטואלית בשם Ansible Health כבר החלו להסתייע בצ'אט בוט במשימות כתיבה כמו חיבור מכתבי ערעור ופישוט דו"חות רפואיים מסובכים. גם במקומותינו כבר עושים שימוש יומיומי ביכולת המלאכותית – ראו את עדותו בטוויטר של פרופ' עידו וולף מ"איכילוב".

צילום: מתוך טוויטר

בעשור האחרון, ההתקדמות במחקר של רשתות נוירונים, למידה עמוקה (Deep learning) ובינה מלאכותית (Artificial Intelligence) שינתה את הגישה למגוון רחב של משימות ותעשיות, החל מייצור ופיננסים ועד מוצרי צריכה. היכולת לבנות במהירות מודלים מסווגים שנותנים תוצאות מדויקות ללא קשר לסוג נתוני הקלט (למשל תמונות, טקסט או אודיו) אפשרה אימוץ נרחב של יישומים בתעשיות רבות ושונות, אך היישומים בטיפול קליני נשארו מוגבלים, אפילו בתחום ההדמיה הרפואית.

ChatGPT מסוגל לבצע מספר משימות מורכבות, רלוונטיות לטיפול במידע רפואי וקליני מורכב.  הוא עבר את כל שלבי הבחינה בצורה שאיננה רק נכונה, אלא גם יכולה לסייע לסטודנטים לרפואה לתקן את תשובותיהם הנובעות מחוסר הבנה אם ישתמשו בתשובותיו

עד כה ה"אשם" בכך היה שילוב בין העובדה שסיטואציות קליניות מחייבות חיפוש בטקסט חופשי, לעתים במקביל, לבין שיתוף הפעולה המוגבל בין מערכות IT לבין מערכות בריאות. התוצאה היתה מיעוט של נתונים מובנים, קריאים במכונה, שהם הבסיס הדרוש לפיתוח אלגוריתמים של למידה עמוקה. פן מאתגר נוסף היה הניסיון להחיל אלגוריתמים על טיפול קליני. נושא זה הניב תוצאות בעלות איכות משתנה. למעשה, בגלל שלל הסיבות האלו, עד להופעתו של ChatGPT, רוב יישומי הלמידה העמוקה והבינה המלאכותית בשדה הרפואה היו בשדות התומכים של המערך הרפואי והתמודדו עם סוגיות כמו תשלום, ניהול שרשראות אספקה ואיומי אבטחת סייבר.

מה מיוחד במודל שפה גדול?

בחודש האחרון, ChatGPT מעורר הדים ותופס תשומת לב משמעותית בשל יכולתו לבצע מגוון רחב של משימות שפה טבעית. ChatGPT הוא מודל שפה כללי גדול שפותח לאחרונה על ידי חברת Open AI. בעוד שמודלים קודמים של בינה מלאכותית היו בעיקר מודלים של למידה עמוקה אשר נועדו ללמוד ולזהות דפוסים בנתונים, ChatGPT מתבסס על סוג חדש של אלגוריתם AI שאומן לחזות את הסבירות לרצף נתון של מילים בהתבסס על ההקשר של המילים שבאות לפניו. קטגוריה זו של מודלים נקראת כאמור Large Language Models - LLMs, והם מסוגלים אף ליצור רצפים סבירים של מילים המבוססים על שפה אנושית טבעית. כל זאת בתנאי שהם מאומנים על כמויות גדולות מספיק של נתוני טקסט.

ChatGPT הוכשר על ידי כמות עצומה של נתונים: קורפוס גדול של נתוני טקסט מהאינטרנט שמיושם באמצעות שיטות חיזוק ולמידה מפוקחת. הודות לכמות הנתונים העצומה שבבסיס המודל, התשובות שמתקבלות מכל שימוש, אפילו פשוט, ב-ChatGPT ייראו כאילו יש מאחוריהן היגיון, היסק, שרשרת מחשבה ומיומנויות תלות ארוכות טווח. יכולות אלו של המודל מעוררות שאלות רבות הקשורות באתיקה ובמקומה של המכונה בפונקציות שעד עתה הוכרו כאנושיות בלבד. בשונה מעט משאלות אלו, המחקר הנוכחי בדק את הפוטנציאל של ChatGPT לסייע בלימודי רפואה ולהגביר את הלמידה האנושית בתחום החינוך הרפואי.

כדי לבדוק את התוצאות שיצר ChatGPT נסקרו התשובות לשאלות הבחינה וההסברים שנוצרו על ידי המודל באופן עצמאי על ידי סוקרים רופאים, שבדקו את התשובות וחיפשו תובנות משמעותיות שיכולות להעיד על חידוש, אי מובנות מאליה ותקפות. הנושאים העיקריים שהבינה המלאכותית נבחנה עליהם היו מוגבלים יחסית ובכך גם מוגבל המחקר כיוון שמיעוט נושאים עשוי להשפיע על מצבים כמו מתן אבחנה מבדלת בסיטואציות קליניות.

מחברי המחקר מציינים שהמחקר מוגבל בכך שזוהי סימולציה וכי הבינה המלאכותית לא מיומנת בכל קשת התרחישים שתלמיד אמיתי מעורב בהם, כך שלא ניתן להעריך באמת את התועלת של בינה מלאכותית בשפה גנרטיבית לחינוך רפואי לפני שהיישומים האלה נבחנים באופן יסודי.

עם זאת ולמרות הסייגים האלה, המחקר מספק ראיות חדשות ומפתיעות לכך ש-ChatGPT מסוגל לבצע מספר משימות מורכבות, רלוונטיות לטיפול במידע רפואי וקליני מורכב. ChatGPT עבר את כל שלבי הבחינה בצורה שאיננה רק נכונה, אלא גם יכולה לסייע לסטודנטים לרפואה לתקן את תשובותיהם הנובעות מחוסר הבנה אם ישתמשו בתשובותיו.

תוצאות המחקר

תוצאות המחקר הנוכחי הראו כי הגירסה האחרונה של ChatGPT השיגה דיוק של 46% בתשובות לשאלות בבחינה, זאת ללא הנחיה, ועם שיפור שולי ל-50% כאשר הוסיפו אימון מודל. "סף המעבר של בחינות הרישוי ברפואה בארה"ב אמנם משתנה לפי שנתון, אך הוא עומד כיום על כ-60% ולכן ChatGPT ממוקם בטווח המעבר. מדובר בניסוי הראשון שהגיע לרף הזה", אומרים החוקרים, "והתוצאה מפתיעה ומרשימה".

צוות החוקרים מציין כי ניתן יהיה לשפר את ביצועי המודל עם יותר הנחיה ואינטראקציה מוגברת. החוקרים סבורים כי כאשר ChatGPT ביצע ביצועים גרועים וסיפק תשובות פחות תואמות, הדבר נבע בחלקו ממידע חסר שהמודל טרם נתקל בו.

הקלינאים במרפאה מבקשים מ-ChatGPT לסייע במשימות כתיבה שנחשבות למכבידות, כגון פיענוח דו"חות רדיולוגיה ורשומות עמוסות בז'רגון רפואי, ואף בסיעור מוחות כאשר הם מתמודדים עם מקרים מאתגרים אבחנתית

עניין נוסף שעלה במחקר הוא של-ChatGPT היה יתרון על פני מודלים שהוכשרו על טקסט רפואי בלבד, כנראה כיוון שהחשיפה לידע גדול יותר אפשרה לו סקירה רחבה יותר של ההקשר הקליני. "באופן פרדוקסלי, ChatGPT גבר על PubMedGPT - מודל לימוד שפה שהוכשר אך ורק על ספרות בתחום הביורפואי - בדיוק של 50.8%.

"אנו משערים שייתכן שהכשרה ספציפית לתחום יצרה אמביוולנטיות גדולה יותר במודל PubMedGPT שכן הוא סופג טקסט מהעולם האמיתי משיח אקדמי מתמשך הנוטה להיות לא חד משמעי, סותר או מאוד שמרני או לא מחויב בשפתו", ציינו החוקרים.

הצוות מסכם וכותב שבינה מלאכותית עשויה להפוך בקרוב לנחלת הכלל במסגרות בריאות, לאור מהירות ההתקדמות של התעשיה, ולסייע בשיפור הערכת סיכונים או במתן סיוע ותמיכה בהחלטות קליניות.

יישומים קליניים בעולם האמיתי

בהשראת הביצועים המדהימים של ChatGPT בבחינות הרישוי לרפואה, קלינאים ב-AnsibleHealth, מרפאה וירטואלית למחלות ריאות כרוניות, החלו להתנסות ב-ChatGPT כחלק מתהליך העבודה. על ידי הזנת שאילתות בצורה מאובטחת ובלתי מזוהה, הקלינאים במרפאה מבקשים מ-ChatGPT לסייע במשימות כתיבה שנחשבות מכבידות, כגון חיבור מכתבי ערעור למשלמים, פיענוח דו"חות רדיולוגיה ורשומות עמוסות בז'רגון רפואי, ואף בסיעור מוחות כאשר הם מתמודדים עם מקרים מעורפלים ומאתגרים אבחנתית. מהמרפאה דווח על ירידה של 33% בזמן הדרוש במשימות תיעוד ובמשימות טיפול עקיפות בחולים.

מחברי המחקר מאמינים שזהו איתות מוקדם אך חשוב לכך שמחוללי שפה גדולים כגון ChatGPT מסוגלים להגיע לרמת בגרות שתשפיע בקרוב על יכולתם לנהוג בחמלה, לספק שירותי בריאות פרטניים ולהשפיע על הטיפול הקליני בכללותו.

מה כל זה אומר על מקצוע הרפואה?

במאמר דעה שפרסם לאחרונה ב"דה מרקר", פרופ' רן בליצר, ראש מערך החדשנות ב"כללית", הוא מתייחס לנושא וכותב: "דווקא באחד התחומים השמרניים ביותר, עולם מדעי הרפואה, הפוטנציאל של מודלים גנרטיביים לשנות את ההתנהלות המסורתית מסעיר את הדמיון. כבר כעת ניתן לראות כמה התפתחויות מרתקות בתחום... אבל מה כל זה אומר על מקצוע הרפואה ובעיקר על האופן שבו אנחנו בוחנים את הרופאים לעתיד? מהו הערך במשימה 'להקיא' חומר ששונן בעל פה אם היא כבר מבוצעת – לא פחות טוב מחלק מהנבחנים – על ידי מודל שפה 'טיפש' המתאמן על מאגר מידע מוגבל?".

לדברי בליצר, "הגרסה הנוכחית של ChatGPT עדיין בוסרית ונוטה להטעות לעתים קרובות מדי ובביטחון מופרז מדי. אבל מחלות ילדות אלה עשויים להשתפר דרמטית בגרסה 4, אשר לפי דיווחים מתאמנת על מידע עדכני ורחב יותר בשלושה סדרי גודל, ומשתמשת באלגוריתמים מתקדמים יותר.

"ההשפעה על מקצוע הרפואה חורגת מהצורך לארגון מחדש של לימודי הרפואה ובחינות הגמר. מספר מאמרים כבר מציגים הדגמות מרשימות של מודלים גנרטיביים המספקים מענה סדור לשאלות שעשויים להציג מטופלים, עם תשובות רפואיות מדויקות למדי בשפה שכל מטופל יכול להבין.

"לא רב המרחק מכאן ועד לנקודה שבה ברירת המחדל של מטופל עם שאלה רפואית תהיה פנייה למודלים אלה עבור התייעצות מיידית", כותב בליצר. "מענה של רופא אנושי יהיה כמעט תמיד בגדר חוות דעת נוספת, אשר יישמר למקרים בהם הבעיה מטרידה דיה, המטופל מודאג דיו, או שהמודל מייצר תשובה לא מתחייבת. למעשה, ייתכן שהכלים הגנרטיביים סוף-סוף יממשו את ההבטחה שמנועי החיפוש – המעמידים לרשות המשתמשים שטף לינקים מבלי לאמת את תוכנם – לא הצליחו עד כה לקיים".

פרופ' בליצר מתייחס לחשדנות המתבקשת לגבי הדיוק והמיקוד של תשובות המכונה ומציין כי "חשוב לזכור שבמקרים לא מעטים גם רופא אנושי עשוי לתת תשובה לא מתחייבת. למעשה, ברוב המקרים השגרתיים שלא מגיעים לבדיקות המשך ולאימות חד משמעי של האבחנה, איננו יודעים באיזה שיעור מדייק כיום הרופא הממוצע. עם זאת, הטעויות שמבצעים המודלים כיום שונות באופיין מאלו הנפוצות בקרב רופאים: הם ממציאים עובדות. בנוסף, אי אפשר להבדיל בתשובותיהם בין אמת לבדיה, שכן הם אינם מציגים ציון של 'רמת ביטחון' בכל אמירה. בסוף – זה מודל שפה, לא מודל תוכן".

לדבריו, "היכולת ליצור אבסטרקט או מאמר בלחיצת כפתור, כולל רשימת מובאות, כבר מייצרת מורכבות ומחלוקות עמוקות בעולם המדע. מאמרים שונים החלו לכלול במוצהר קטעי טקסט שיוצרו על ידי מודל שפה, וחלקם כבר התפרסמו בכתבי עת מדעיים. ‏הממסד האקדמי הגיב, לפחות בחלק מהמקרים, בהיסטריה קלה: כנסים ראשונים כבר אסרו על שימוש בכלי בעת כתיבת אבסטרקטים. איך יגיב עולם הרפואה להתפתחויות הללו?".

לסיום, עדות נלהבת לשימוש מקצועי ב-ChatGPT הופיעה לאחרונה בציוץ בטוויטר של פרופ' עידו וולף, מנהל המערך האונקולוגי במרכז הרפואי איכילוב, ראש בית הספר לרפואה באוניברסיטת תל אביב, וכך הוא כותב: "התחלתי להשתמש ב-ChatGPT אבל ממש לעבודה. מכתבי המלצה הפכו לקלי-קלות. בחמש דקות הכנתי טיוטה למבוא לשלושה מאמרים אקדמיים שונים. הרמה של הטיוטות ממש מפתיעה – בינונית פלוס פלוס. כל שנשאר זה לערוך, להעלות מבינוני למצטיין וזהו. מדהים! זה יהפוך לכולנו את החיים".

נושאים קשורים:  ChatGPT,  בינה מלאכותית,  מבחני רישוי ברפואה,  פרופ' עידו וולף,  פרופ' רן בליצר,  LLMs
תגובות

זה בעיה חמורה ביותר שלוקחים החלטות שכאלו בזמן מלחמה , ללא ידיעה ברורה של כול הרופאים .