当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
是否建议把int *p写作int* p?
程序员想搭建自己的服务器求指教。?
为什么 CRT 画质这么好也被淘汰,液晶反而发展的很好?
用K8s的公司有多少人会部署K8s?
VLC,Ubuntu,FFmpeg 这些软件究竟是什么人开发的?为什么免费?他们不求回报又何以生存?
很好奇,组NAS的玩家是如何解决上传速率的问题?
为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?
J***aScript 这种语言特性十分糟糕的语言流行起来是不是一场灾难?
怎么评价国内AI企业人肉背15块80TB硬盘,飞去马来西亚用英伟达训练数据,以规避美国禁令?
大家都喜欢用什么浏览器?
Golang vs Rust vs Dlang 哪个更有前途,哪位大牛这 3 门语言都用过?
你怎么看待剪映收费过高问题?
月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点?
据说go和c#的开发者都说自己比较节省内存,你们认为呢?
柳州能活下去吗?
如何评价华为最新长焦专利技术?能否颠覆手机长焦摄影的目前限制?
跟离异的女同事聊天时,她冒出一句:「你老婆还不如我,离了跟我过得了」,我该怎么回答?
请问有没有什么工具能够生成局域网的网络拓扑结构图?
中美会因台海开战吗?
体制内女老师,被关系户欺负,大吼——"不干就给老子滚",我该怎么办?
rust解决了什么问题?
什么是你去了台湾才知道的事?
一个程序员的水平能差到什么程度?
为什么大家不再提星链了(包括外网)?
新手平面设计师(方向美工)怎么有目的提升设计能力?
为什么欧美影视喜欢露点?
为什么 Linux 软件安装包会有依赖关系,而 Windows 软件安装包不需要?
如果世界是虚拟的,当两个镜子对面放,将会无限反射,会不会将 cpu 算力耗光?
2025 国内公司前端团队都在搞些什么?
duckdb的性能如何?