醫療領域檢索式問答基準測試
用于衡量設備 AI 加速器推理性能的基準測試工具。
一種測試大語言模型在復雜社交博弈中智能性的基準測試框架,靈感來源于‘狼人殺’游戲。
用于多模態上下文中的檢索增強生成的基準測試代碼庫。
綜合表格數據學習工具箱和基準測試
OpenI AI助手在線工具硅基流動豆包Trae扣子Coze即夢繪蛙