MMBench-Ai平台模型-芯思考AI营销获客系统

MMBench是一个多模态基准测试，由上海人工智能实验室、南洋理工大学、香港中文大学、新加坡国立大学和浙江大学的研究人员推出。该体系开发了一个综合评估流程，从感知到认知能力逐级细分评估，覆盖20项细粒度能力，从互联网与权威基准数据集采集约3000道单项选择题。打破常规一问一答基于规则匹配提取选项进行评测，循环打乱选项验证输出结果的一致性，基于ChatGPT精准匹配模型回复至选项。

MMBench的特点和优势

基于感知与推理，将评估维度逐级细分。约 3000 道单项选择题，覆盖目标检测、文字识别、动作识别、图像
理解、关系推理等 20 个细粒度评估维度
更具鲁棒性的评估方式。相同单选问题循环选项提问，模型输出全部指向同一答案认定为通过，相比传统1次性通过评估 top-1 准确率平均下降 10% ~ 20%。最大程度减少各种噪声因素对评测结果的影响，保证了结果的可复现性。
更可靠的模型输出提取方法。基于 ChatGPT 匹配模型输出与选项，即使模型未按照指令输出也可准确匹配至最合理选项

相关网站

GPT-4

GPT-4（Generative Pre-trained Transformer）是 OpenAI 开发的自然语言处理模型 GPT 家族中的第四个版本，该模型依靠强大的神经网络来理解和生成类似人类的语言。

Auto-GPT

Auto-GPT是一个实验性开源应用程序，展示了GPT-4语言模型的真正潜力，GitHub上超10万人星标。该程序由 GPT-4 驱动，将LLM大语言模型思想链接在一起，以自主实现你设定的任何目标。作为GPT-4完全自主运行的首批例子之一，Auto-GPT突破了人工智能的极限，距离AGI通用人工智能又近了一步。

AgentGPT

在浏览器中组装、配置和部署自主人工智能的开源项目

悟道

2021年6月，北京智源研究院（BAAI）推出了悟道1.0的后续版本悟道2.0，作为中国第一个超大规模智能模型系统。悟道是一个语言模型，旨在在人类层面的思维上超越 OpenAI 的 GPT-3 和谷歌的 LaMDA。

腾讯混元大模型

腾讯混元大模型是由腾讯自主研发的大语言模型，拥有超千亿参数规模，预训练语料超2万亿tokens，具有强大的中文理解与创作能力、逻辑推理能力，以及可靠的任务执行能力。

Gradio

Gradio是一个开源的Python库，用于构建演示机器学习或数据科学，以及web应用程序。用户可以使用Gradio基于自己的机器学习模型或数据科学工作流快速创建一个漂亮的用户界面，让用户可以尝试拖放他们自己的图像、粘贴文本、录制他们自己的声音，并通过浏览器与您的演示程序进行交互。

DeepFloyd IF

DeepFloyd IF是由StabilityAI旗下的DeepFloyd研究团队推出的开源的文本到图像生成模型，IF是一个基于级联方法的模块化神经网络。

Cohere

Cohere是一个提供大语言模型的平台，帮助开发人员和企业构建高性能的AI产品。该平台主要提供AI驱动的搜索文本（多语言嵌入、神经搜索、搜索排名）、分类文本和生成文本等服务，可帮助企业快速部署对话式AI聊天机器人、生成式搜索引擎、文本摘要总结、增强向量检索等。

DALL·E 2

OpenAI旗下DALL·E 2图像生成模型

Codex

OpenAI旗下AI代码生成训练模型

文心大模型

百度推出的产业级知识增强大模型

序列猴子

序列猴子是出门问问推出的一款超大规模的语言模型，具有长序列、多模态、单模型、大数据等特点。利用其通用的表示能力与推理能力，用户能够进行多轮交互，从而在使用中获得更加便捷流畅的体验。

MOSS

MOSS是复旦大学团队开发的国内第一个发布的对话式大型语言模型，今年2月邀公众参与内测。它可以执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。4月21日，新版MOSS模型正式上线并宣布开源。

魔搭社区

阿里达摩院推出的AI模型社区，超过300+开源AI模型

讯飞星火认知大模型

「讯飞星火认知大模型」是科大讯飞于2023年5月6日在讯飞星火认知大模型成果发布会上发布的类ChatGPT产品。讯飞星火认知大模型是以中文为核心的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。从海量数据和大规模知识中持续进化，实现从提出、规划到解决问题的全流程闭环。

BLOOM

HuggingFace推出的大型语言模型（LLM）

商量SenseChat

商量SenseChat是由商汤科技研发的一款基于自然语言处理技术的人工智能大语言模型，具备超凡的语言理解、生成能力，将科技与人文相互交融。

阿里巴巴M6

M6是阿里巴巴达摩院推出的，中文社区最大的跨模态预训练模型，模型参数达到十万亿以上，具有强大的多模态表征能力。M6通过将不同模态的信息经过统一加工处理，沉淀成知识表征，为各个行业场景提供语言理解、图像处理、知识表征等智能服务

AI网址导航

MMBench

MMBench的特点和优势

相关网站