924阅读
2回复

[智能应用]AI预测神经学研究结论超过人类专家水平[10P] [复制链接]

上一主题下一主题查看指定楼层

在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 111680

金币: 3116

道行: 19523

原创: 29308

奖券: 17898

斑龄: 198

道券: 10550

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 22422(小时)
注册时间: 2007-11-29
最后登录: 2025-07-16

只看楼主倒序阅读使用道具楼主发表于: 2024-12-01

最近，来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准 BrainBench，登上了Nature子刊《自然人类行为（Nature human behavior）》。
结果显示，经过该基准训练的LLM在预测神经科学结果的准确度方面高达 81.4%，远超人类专家的63%。
在神经学常见的5个子领域：行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中，LLM的表现也都全方位超过了人类专家。
更重要的是，这些模型被证实对于数据没有明显的记忆。
也就是说，它们已经掌握了一般科研的普遍模式，可以做更多的前瞻性（Forward-looking）预测、预测未知的事物。

这立马引发科研圈的围观。
多位教授和博士后博士后也表示，以后就可以让LLM帮忙判断更多研究的可行性了，nice！

LLM预测能力全面超越人类专家
让我们先来看看论文的几个重要结论：
总体结果：LLMs在BrainBench上的平均准确率为81.4%，而人类专家的平均准确率63.4%。LLMs的表现显著优于人类专家

子领域表现：在神经科学的几个重要的子领域：行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中，LLMs在每个子领域的表现均优于人类专家，特别是在行为认知和系统/回路领域。

模型对比：较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当，而聊天或指令优化模型的表现不如其基础模型。
人类专家的表现：大多数人类专家是博士学生、博士后研究员或教职员工。当限制人类响应为自我报告专业知识的最高20%时，准确率上升到66.2%，但仍低于LLMS。
置信度校准：LLMs和人类专家的置信度都校准良好，高置信度的预测更有可能是正确的。

记忆评估：没有迹象表明LLMs记忆了BrainBench项目。使用zlib压缩率和困惑度比率的分析表明，LLMs学习的是广泛的科学模式，而不是记忆训练数据。
全新神经学基准
本论文的一个重要贡献，就是提出了一个前瞻性的基准测试 BrainBench，可以专门用于评估LLM在预测神经科学结果方面的能力。

那么，具体是怎么做到的呢？
数据收集
评估LLM和人类专家
其次，在上面收集的数据的基础上，团队为BrainBench创建了测试用例，主要通过修改论文摘要来实现。
具体来说，每个测试用例包括两个版本的摘要：一个是原始版本，另一个是经过修改的版本。修改后的摘要会显著改变研究结果，但保持整体连贯性。
测试者的任务是选择哪个版本包含实际的研究结果。
团队使用Eleuther Al Language Model EvaluationHaress框架，让LLM在两个版本的摘要之间进行选择，通过困惑度（perplexity）来衡量其偏好。困惑度越低，表示模型越喜欢该摘要。
对人类专家行为的评估也是在相同测试用例上进行选择，他们还需要提供自信度和专业知识评分。最终参与实验的神经科学专家有171名。
实验使用的LLM是经过预训练的Mistral-7B-v0.1模型。通过LoRA技术进行微调后，准确度还能再增加3%。

评估LLM是否纯记忆
为了衡量LLM是否掌握了思维逻辑，团队还使用zlib压缩率和困惑度比率来评估LLMs是否记忆了训练数据。公式如下：

其中，ZLIB（X）表示文本X的zlib压缩率，PPL（X）表示文本X的困惑度。
部分研究者认为只能当作辅助
这篇论文向我们展示了神经科学研究的一个新方向，或许未来在前期探索的时候，神经学专家都可以借助LLM的力量进行初步的科研想法筛选，剔除一些在方法、背景信息等方面存在明显问题的计划等。
但同时也有很多研究者对LLM的这个用法表示了质疑。
有人认为实验才是科研最重要的部分，任何预测都没什么必要：

还有研究者认为科研的重点可能在于精确的解释。
此外，也有网友指出实验中的测试方法只考虑到了简单的 AB假设检验，真实研究中还有很多涉及到平均值/方差的情况。

整体来看，这个研究对于神经学科研工作的发展还是非常有启发意义的，未来也有可能扩展到更多的学术研究领域。

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 169138

金币: 284020

道行: 2004

原创: 2405

奖券: 2855

斑龄: 36

道券: 1035

获奖: 0

座驾

设备

摄影级

在线时间: 38444(小时)
注册时间: 2008-10-01
最后登录: 2025-07-17

只看该作者沙发发表于: 2024-12-01

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

　　最近，伦敦大学学院、剑桥大学和牛津大学的研究团队发布了一项重要的研究，这一研究发表在《自然人类行为》杂志上。他们开发了一个名为BrainBench的神经学专用基准，用于评估大型语言模型（LLM）在预测神经科学结果方面的能力。

　　研究结果显示，经过BrainBench训练的LLM在预测神经科学结果的准确度方面高达81.4%，远超人类专家的63%。这一发现表明，LLM在神经科学的多个子领域（包括行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复）的表现都全面超过了人类专家。

　　值得注意的是，这些LLM模型被证实对训练数据没有明显的记忆。这意味着它们已经掌握了科研的普遍模式，能够进行前瞻性预测和预测未知的事物。这一成果引起了科研界的广泛关注，多位教授和博士后研究人员表示，未来可以利用LLM来帮助判断更多研究的可行性。

　　本研究的一个重要贡献是提出了BrainBench这个前瞻性的基准测试，专门用于评估LLM在预测神经科学结果方面的能力。研究团队利用PubMed获取了2002年至2022年间的大量神经科学研究相关的摘要和全文文章，创建了测试用例，并通过修改研究摘要来测试LLM和人类专家的选择能力。

　　这项研究不仅展示了LLM在神经科学领域的强大预测能力，也预示着未来LLM在科学研究中的潜在应用价值。

如何不发帖就快速得到金币和道行

在线天人地

UID: 1627269

精华: 2
级别: 上清仙尊

发帖: 295076

金币: 7210

道行: 40005

原创: 108

奖券: 87

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 34922(小时)
注册时间: 2012-09-03
最后登录: 2025-07-16

只看该作者板凳发表于: 2024-12-01

AI在神经学研究预测中的表现
根据最新的研究，人工智能（AI）在预测神经学研究结论方面已经展现出超越人类专家的水平。这项研究由来自伦敦大学学院、剑桥大学、牛津大学等机构的团队进行，并发表在《自然人类行为》子刊上。研究人员开发了一个名为BrainBench的神经学专用基准，用于评估大型语言模型（LLM）在预测神经科学结果方面的准确性。

LLM在神经学研究中的表现
经过BrainBench训练的LLM在预测神经科学结果的准确度方面达到了81.4%，这一数字远高于人类专家的平均准确率63.4%。在神经学的五个常见子领域——行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中，LLM的表现都全面超过了人类专家。

LLM的模型对比和人类专家的表现
在模型对比方面，较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当，而聊天或指令优化模型的表现不如其基础模型。至于人类专家，大多数是博士学生、博士后研究员或教职员工。当限制人类响应为自我报告专业知识的最高20%时，准确率上升到66.2%，但仍低于LLM。

LLM的置信度校准和记忆评估
LLM和人类专家的置信度都校准良好，这意味着高置信度的预测更有可能是正确的。此外，没有迹象表明LLM记忆了BrainBench项目。使用zlib压缩率和困惑度比率的分析表明，LLM学习的是广泛的科学模式，而不是记忆训练数据。

神经学基准的数据收集和评估
为了建立BrainBench，研究团队首先利用PubMed获取了2002年至2022年间332807篇神经科学研究相关的摘要，并从PubMed Central Open Access Subset (PMCOAS)中提取了123085篇全文文章，总计13亿个tokens。然后，团队在收集的数据基础上为BrainBench创建了测试用例，主要通过修改论文摘要来实现。测试者的任务是选择哪个版本的摘要包含实际的研究结果。团队使用EleutherAI Language Model Evaluation Harness框架，让LLM在两个版本的摘要之间进行选择，通过困惑度来衡量其偏好。对人类专家行为的评估也在相同测试用例上进行选择，他们还需要提供自信度和专业知识评分。最终参与实验的神经科学专家有171名。

AI预测神经学研究结论的意义
这项研究表明，AI在神经学研究预测方面的进步可能对未来科研工作的发展产生重大影响。神经学专家在未来可能会借助AI的力量进行初步的科研想法筛选，剔除一些在方法、背景信息等方面存在明显问题的计划。这不仅提高了科研效率，也为神经学研究开辟了新的方向。

结论
总的来说，AI在预测神经学研究结论方面的表现已经超过了人类专家，这标志着AI在科学研究中的应用迈出了重要的一步。随着技术的不断进步，我们可以期待AI将在未来的科学研究中扮演更加关键的角色。

如何不发帖就快速得到金币和道行

天人地

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]AI预测神经学研究结论超过人类专家水平[10P] [复制链接]