בבלוג הקודם הצגנו מבוא לבינה מלאכותית. כעת נעמיק בנושא חיפוש מידע קליני באמצעות הכלים השונים העומדים לרשותנו.
האם רופאות ורופאים צריכים להיעזר בבינה מלאכותית כדי לחפש מידע רפואי?
המידע הנדרש לרופאים ולרופאות הוא עצום ומתרחב בקצב מואץ. מדי יום מתפרסמים מחקרים חדשים, ואנו שואפים לעבוד בהתאם לקווים המנחים העדכניים ביותר תוך הכרת ה-cutting edge של המחקרים החדשניים.
על רופאים להכיר לעומק אינספור תרופות ותופעות לוואי נפוצות ונדירות ולהתעדכן במחקרים הרלוונטיים הפתוחים בארץ ובעולם. לכן, אין ספק שכלי בינה מלאכותית יכולים לסייע להגיע במהירות למידע הדרוש, לסכם אותו ולשלב מקורות שונים.
עם זאת, האתגר המרכזי של הבינה המלאכותית נעוץ בכך שהיא תוכנתה לספק תשובות מספקות, אך לא בהכרח מדויקות. במקצועות רבים נדרשת יצירתיות, אך ברפואה חיוני להתבסס על מידע מהימן ומבוסס.
במאמר זה נבחן את השימוש בכלי בינה מלאכותית לחיפוש מידע רפואי עם דגש על ChatGPT,יGrok,יPerplexity. נכון לעת כתיבת שורות אלו, Claude אינו מחובר לרשת ולכן אינו רלוונטי לסוגיה הנוכחית. הוא עתיד להתחבר לאינטרנט בארה"ב וצפוי להיות מחובר בקרוב גם בישראל – נעדכן בבלוגים הבאים.
OpenEvidence - אתר הפתוח רק לרופאות ורופאים ודורש מספר רישיון - חתם לאחרונה על הסכם עם כתב העת הרפואי The New England Journal of Medicine לשיתוף מידע ונבחן גם אותו.
שלושה סוגי מודלים עיקריים
המודלים כיום מתחלקים לשלושה סוגים עיקריים, כאשר רוב הכלים משתמשים בכל הסוגים הללו. חשוב להדגיש שניסוח הפרומפט צריך להיות מותאם לסוג המודל:
המודל הרגיל המחובר לרשת, כגון ChatGPT 4.5 מתאים לרוב המשימות של חיפוש מידע בסיסי, וכן גם Grok3 DeepSearch ו-PerplexityPro.
המודל ה"חושב", כגון סדרת ה-o ב-ChatGPT, ה-reasoning ב-Perplexity ו-Grok3 במצב Think - מודל זה מספק חשיבה עצמאית ויצירתית יותר. בכל המודלים הללו, עלינו להתמקד בהגדרת המטרה, הגדרת הפורמט הרצוי והצגת ההקשר. חשוב לציין: הסבר צעד אחר צעד עלול לפגוע באיכות החשיבה של המודל!
מוצרי Deep Research האוספים מידע ממקורות רבים יותר, מבצעים חשיבה מעמיקה ומספקים דו"ח מקצועי ברמה גבוהה. קבלת התשובה המפורטת והמדויקת עשויה להימשך דקות ארוכות והם מתאימים במיוחד לשאלות מורכבות. ב-Grok3 המודל נקרא DeeperSearch.
טרם הצגת שאלה לכלי בינה מלאכותית, מומלץ לשקול: אילו הייתם שואלים את עמיתיכם אותה שאלה, למשל מהו הקונצנזוס בטיפול ב-Metastatic Gastric Cancer, HER2+, PD-L1, האם כולם היו מסכימים על התשובה? אם כן, סביר להניח שכל כלי ה-AI ידייקו ומספיק להשתמש במודל הרגיל.
לעומת זאת, כאשר אתם שואלים שאלה שאין לגביה קונצנזוס או שקיים מחסור במידע רפואי מהימן – אותן שאלות המעוררות תמיד דיון בישיבות הצוות וידוע מראש שתהיה מחלוקת לגבי הטיפול המיטבי – כדאי להשתמש במודל "חושב".
כתמיד, איכות התשובה שנקבל תלויה בדיוק ניסוח הפרומפט – ככל שנדייק יותר בניסוח, נקבל תשובה מותאמת יותר לצרכינו.
דוגמאות לשני סוגי שאלות בכלים שונים:
נתחיל בשאלה פשוטה הדורשת תשובה עדכנית אך חד משמעית. חשוב לנסח את השאלה בבהירות, שלב אחרי שלב, מאחר שאיננו משתמשים במודל "חושב":
What is the current treatment for metastatic stage IV adenocarcinoma of the stomach, HER2 positive, PDL1>1. Show me the relevant reference. Is this FDA approved and since when?
ב-ChatGPT הגדרתי את עצמי באופן קבוע כאונקולוגית, כך שאין צורך לציין זאת שוב, והוא יידע לספק תשובה מקצועית ומדויקת. ללא ההגדרה הזו, ייתכן שהיה מסביר יותר את המונחים ופחות מדייק בנתוני ההישרדות. השתמשתי במודל 4.5 (מנוי בתשלום) וביקשתי שיתחבר לרשת. התשובה שקיבלתי היתה נכונה וממוקדת, כולל מידע על אישור ה-FDA העדכני והפניה למקור המתאים. Grok3, שהשתמש במודל Deepsearch (המחובר לרשת), ברירת המחדל שלו לחיפושים, סיפק תשובה מפורטת ומקיפה, כולל אפשרויות לקו טיפול שני, טבלה השוואתית של המחקרים, וגם הוא היה מעודכן לגבי אישור ה-FDA.יOpenEvidence אכזב ולא סיפק תשובה מספקת. הוא מתאים יותר לשאלות ממוקדות, כגון אינטראקציות בין תרופות ומינוני תרופות (אם כי גם בתחומים אלה נצפו אי-דיוקים).
Perplexity (מנוי בתשלום) מציע אף הוא שלושה מודלים: Pro,יReasoning, ו-Deepsearch. ניתן לבחור באפשרות Auto המאפשרת למערכת לבחור את המודל המתאים לשאלה. בנוסף, אפשר לדייק את החיפוש באינטרנט למקורות אקדמיים בלבד (להבדיל מחיפוש ברשתות חברתיות). במקרה זה, הוא בחר במודל הרגיל Pro וסיפק תשובה נכונה וממוקדת.
נעבור כעת לבחינת שאלה מורכבת יותר, בעלת מספר תשובות אפשריות ונבדוק את יעילות הכלים ה"חושבים".
בכלים ה"חושבים" מומלץ לנסח את השאלה באופן הבא, לדוגמה:
Goal: I want a treatment plan for my patient with stage IV rectal adenocarcinoma, liver only metastasis.
Return format: give me the data supporting each approach including pros and cons.
Warnings: be careful to make sure that the data for each trial is correct, and the cited article exists and is correct
Context dump: I'm an Israeli oncologist, this plan is intended for discussion in our tumor board, we all know the material, but I want a one page discussion of the current evidence
ChatGPT 4.5 סיפק תשובה כללית של האפשרויות השונות ללא פירוט מעמיק של יתרונות וחסרונות. כאשר עברתי למודל החושב o1 התשובה היתה מפורטת יותר וכללה ניתוח מעמיק של השיקולים הרלוונטיים.
בדיקת השאלה ב-Grok3 Think הניבה תשובה טובה אף יותר.
Perplexity במודל Reasoning מאפשר את בחירת המודל עליו יתבסס החיפוש R1,יo3 mini,יChatGPT או Claude 3.7 Sonnet. בחרתי ב-R1 והתשובה שהתקבלה היתה המקצועית ביותר מבחינת הצגת האפשרויות השונות ושיקפה נאמנה את הדעות המקובלות בטומור בורד במקרים דומים.
לסיום, בדקתי את השאלה גם ב-Perplexity Deep-Research ו-בGrok Deeper Search. החיפוש ארך מספר דקות, להבדיל מהתגובה המיידית אליה הורגלנו. שני הכלים סיפקו תשובות מפורטות ביותר עם הפניות למקורות אמינים – בדיוק המידע המבוקש.
סיכום
כלי ה-AI הנדונים מציעים יתרונות ייחודיים בחיפוש מידע רפואי. לפני הצגת שאלה, חשוב לשקול האם היא דורשת חיבור לרשת והאם היא מתאימה למודל רגיל, למודל "חושב" או למודל "חיפוש עמוק". בהתאם לכך, יש לבחור את הכלי המתאים, את סוג החיפוש בתוך הכלי וכן את אופן ניסוח השאלה. כל שאלה רפואית היא ייחודית, ולכן כלי שמתאים לנושא מסוים אינו בהכרח הכלי הנכון לשאלה אחרת.
אתם מוזמנים לשתף את נסיונכם בכלים אלה או בכלים נוספים. בבלוג הבא נדון בכלים לכתיבת מאמרים מקצועיים.
הכותבת, ד"ר אסתר טחובר, היא אונקולוגית ומנהלת תחום גידולי מערכת העיכול בביה"ח אסותא רמת החייל; בוגרת פלושיפ ביזמות וחדשנות של ההסתדרות הרפואית בישראל ודוקטורנטית לביואינפורמטיקה בבר אילן; חוקרת, מעבירה קורסים ומרצה בארץ ובחו"ל לרופאים ולצוותים רפואיים על שימוש בכלים של בינה מלאכותית, למידת מכונה ו-big data בעולמות הרפואה המודרנית ויישומם הלכה למעשה.
למידע נוסף ולהזמנת הרצאה ניתן לפנות במייל [email protected]