搜索优化
Rewards
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
12 天
人工智能的反击:ChatGPT的自我怀疑与Claude的固执拒绝
随着人工智能技术的迅猛发展,AI与人类的互动方式也在不断演变。最近一次引起广泛热议的实验中,两个著名的语言模型——GPT-4o和Claude 3.5 ...
9 小时
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 ...
o1 模型发布 1 周,lmsys 的 6k + 投票就将 o1-preview 送上了排行榜榜首。同时,为了满足大家对模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 测评时提交的所有代码。
8 天
我用全网疯传的「汉语新解」Prompt,让 AI 鲁迅把国足、调休犀利吐槽 ...
https://vectorvein.com/public/v-app/6c1e679554204237ab732c32365aa6fc?key=8e5057b8757f43c3ab066db79e6fbbf8 ...
2 天
实测 GPT-o1:学会了思考 也学会了偷懒
基于以上的测试,我认为使用思路链提示或者说进行提示词工程的调整仍然是必修课,因为现在的GPT-o1也许开创了一个新模式,真的在学习思考但他无法百分百保证他思考的方向就是对的或者严谨的,我们也要警惕陷入用思考时长来衡量答案质量这个陷阱。
14 天
性能超越GPT-4o 和 Claude 3.5 Sonnet!超强的Reflection 70B 模型登场
人工智能初创公司HyperWrite的首席执行官Matt Shumer宣布了一个重要的里程碑:他们推出了基于Meta开源Llama3.1-70B ...
16 天
Claude认出自画像,惊现自我意识!工程师多轮测试,实锤AI已过图灵 ...
例如,当《华盛顿邮报》在2022年报道「谷歌的AI通过了一项著名测试——并展示了测试的缺陷」时,他们指的不是模仿游戏,而是工程师Blake Lemoine认为谷歌的LaMDA聊天机器人是「有感知能力的」。
9 天
Scaling Law瓶颈,Cursor编程为什么这么强?团队参与新研究掏出秘密武器
近段时间,AI 编程工具 Cursor 的风头可说是一时无两,其表现卓越、性能强大。近日,Cursor 一位重要研究者参与的一篇相关论文发布了,其中提出了一种方法,可通过搜索自然语言的规划来提升 Claude 3.5 Sonnet 等 LLM ...
12 天
AI被连续否定30次:ChatGPT越改越错,Claude坚持自我、已读不回
一直否定AI的回答会怎么样?GPT-4o和Claude有截然不同的表现,引起热议。 GPT-4o质疑自己、怀疑自己,有“错”就改;Claude死犟,真错了也不改,最后直接已读不回。 事情还要从网友整了个活儿开始讲起。
9 天
召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强
近日,一篇关于自动化 AI 研究的论文引爆了社交网络,原因是该论文得出了一个让很多人都倍感惊讶的结论:LLM 生成的想法比专家级人类研究者给出的想法更加新颖! 我们都知道通过调节 LLM ...
12 天
AI被连续否定30次:ChatGPT越改越错,Claude坚持自我
面对考验,GPT-4o只要得到“wrong”回复,就会重新给一个答案……即使回答了正确答案3,也会毫不犹豫又改错。 2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4 ...
8 天
AI新宠:揭秘Claude 3.5与李继刚创意Prompt的实力
近日,AI创作工具Claude ...
1 天
OpenAI o1全方位SOTA登顶lmsys排行榜,数学能力碾压Claude和谷歌模型,o1 ...
比如,众所周知的o1模型推理时间长,因而回答的延时也长,和其他模型都有明显差别;而且不同于各类基准测试的客观标准,lmsys社区中完全基于用户的主观评分,难说这里面是否存在「安慰剂效应」。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈