GPT-4o的词汇表里被挖出很多不可描述的单词

资讯
2024年7月31日
浏览：次
编辑

博趣

虽然中文互联网被污染了是一个既成事实，但是没想到会以这种方式呈现出来。

刚刚在X上看到有人挖掘GPT-4o的词汇表，然后发现里面有很多不可描述的词汇。原理是GPT-4o对多语言进行了针对训练，应该是增加了使用的互联网数据。然后在训练分词器的时候会把出现的频繁的词合并成一个词汇。

比如说之前中文数据少的时候每个词都是被分割成一个一个汉字了，所以日本电影被分割成日本电影四个字。但是现在因为此类表达出现的频率过大，大到模型认为值得为他它专门在词汇表里增加一个词汇有时间了给大家详细讲讲LLM的分词是怎么实现的）。

所以造成这种现象的原因是中文网络现在基本上被分割成一片一片的app的自留地。而互联网上则只剩下内容农场，垃圾站，以及为黄赌毒引流的网站了。

从某种意义上来说这也是国产LLM的崛起机会？因为国产app里面有大量Openai接触不到的训练数据。

声明：本站为个人网站，转载文章仅出于个人兴趣收集素材。如若本站内容侵犯了您的合法权益，请和我联系。

{{userData.name}}已认证

GPT-4o的词汇表里被挖出很多不可描述的单词

感觉大部分旅行博主都活在中产同温层里…

奇妙的中文

猛然抬起头你知道你和那个句子相遇了

就是崇洋媚外的标准好像在逐渐降低

情绪大于一切吃好喝好睡好适度发疯关我屁事关你屁事

在我身处的社会里，每个人都或多或少有着匮乏感

政治归政治，艺术归艺术

中国四大宽容

我们热爱这个世界时，才真正活在这个世界上

There is no improving the future without disturbing the present.

保持快乐的秘诀：不要太用力

他离开了，却散落四周

The only good nation is Imagination

渔夫出海前并不知道鱼在哪里

人类是很脆弱的

Sometimes, when you’re in a dark place you think you’ve been buried. But actually, you’ve been planted.

Your friends’ problems become your problems. The smaller your circle, the less bullshit you have to deal with.

{{userData.name}}已认证

感觉大部分旅行博主都活在中产同温层里…

奇妙的中文

奇妙的中文

电视是安卓系统，每隔10分钟扫一遍我全家连网的设备

谷歌前 CEO 放飞自我

互联网第一夫人

猛然抬起头 你知道你和那个句子相遇了

就是崇洋媚外的标准好像在逐渐降低

情绪大于一切 吃好喝好睡好适度发疯关我屁事关你屁事

在我身处的社会里，每个人都或多或少有着匮乏感

政治归政治，艺术归艺术

中国四大宽容

我们热爱这个世界时，才真正活在这个世界上

There is no improving the future without disturbing the present.

保持快乐的秘诀：不要太用力

他离开了，却散落四周

The only good nation is Imagination

渔夫出海前并不知道鱼在哪里

人类是很脆弱的

Sometimes, when you’re in a dark place you think you’ve been buried. But actually, you’ve been planted.

Your friends’ problems become your problems. The smaller your circle, the less bullshit you have to deal with.

猛然抬起头你知道你和那个句子相遇了

情绪大于一切吃好喝好睡好适度发疯关我屁事关你屁事