LogoThread Easy
  • Explorar
  • Componer hilo
LogoThread Easy

Tu compañero integral para hilos de Twitter

© 2025 Thread Easy All Rights Reserved.

Explorar

Newest first — browse tweet threads

Keep on to blur preview images; turn off to show them clearly

RT @seconds_0: There's an entire parallel scientific corpus most western researches never see.

Today i'm launching https://t.co/6FZMFpFvSb…

RT @seconds_0: There's an entire parallel scientific corpus most western researches never see. Today i'm launching https://t.co/6FZMFpFvSb…

ai agents @hud_evals | owned @AIHubCentral (1 million users,acq.) ex climate protester🦦 dont do the deferred life plan

avatar for Minh Nhat Nguyen
Minh Nhat Nguyen
Tue Dec 16 03:37:22
This is apparently a Navy PR shot, making the rounds on the tactical interwebs. LOL we're all doomed.

This is apparently a Navy PR shot, making the rounds on the tactical interwebs. LOL we're all doomed.

I get that these people are not combat soldiers, but how did the Navy as an institution look at these pictures and pass them through whatever chain of vetting & then publish them like, "Yes, these will adequately represent our branch!"

avatar for Jon Stokes
Jon Stokes
Tue Dec 16 03:35:06
#又要改算法 X/Twitter 将调整算法完全基于用户偏好和内容互动运行,也将失去关键词屏蔽或手动不感兴趣的技术能力。新算法重点是推荐用户感兴趣的内容,只要有互动那就是感兴趣 (黑粉也是粉),马斯克也希望重新吸引记者回到平台,这样可以让用户接触真相而不是被关键谣言的信息茧房里。

#又要改算法 X/Twitter 将调整算法完全基于用户偏好和内容互动运行,也将失去关键词屏蔽或手动不感兴趣的技术能力。新算法重点是推荐用户感兴趣的内容,只要有互动那就是感兴趣 (黑粉也是粉),马斯克也希望重新吸引记者回到平台,这样可以让用户接触真相而不是被关键谣言的信息茧房里。

查看全文:https://t.co/6Ar8yOv0r8

avatar for 蓝点网
蓝点网
Tue Dec 16 03:28:47
目前大家最大的争议还是,看不到太大的受益,以及,更长的序列意味着更多的 KV Cache,显存压力更大。以及,只有在字符理解这个单一任务上大幅领先,其它任务没太大亮点。

总之可以持续关注下。技术爆发时期的螺旋探索总是很有意思的,比如我就比较喜欢水银整流器(最后一张图),但是现在都被IGBT取代了。

目前大家最大的争议还是,看不到太大的受益,以及,更长的序列意味着更多的 KV Cache,显存压力更大。以及,只有在字符理解这个单一任务上大幅领先,其它任务没太大亮点。 总之可以持续关注下。技术爆发时期的螺旋探索总是很有意思的,比如我就比较喜欢水银整流器(最后一张图),但是现在都被IGBT取代了。

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

avatar for karminski-牙医
karminski-牙医
Tue Dec 16 03:26:08
而 Bolmo 这个模型取了个巧,他不是从0训练的,而是把现有的模型"字节化", 它内置了个Local Encoder/Decoder, 将字节序列压缩成"潜在 token",再送入传统 Transformer 处理。这样只需要少量的成本就能进行转换了。

而 Bolmo 这个模型取了个巧,他不是从0训练的,而是把现有的模型"字节化", 它内置了个Local Encoder/Decoder, 将字节序列压缩成"潜在 token",再送入传统 Transformer 处理。这样只需要少量的成本就能进行转换了。

目前大家最大的争议还是,看不到太大的受益,以及,更长的序列意味着更多的 KV Cache,显存压力更大。以及,只有在字符理解这个单一任务上大幅领先,其它任务没太大亮点。 总之可以持续关注下。技术爆发时期的螺旋探索总是很有意思的,比如我就比较喜欢水银整流器(最后一张图),但是现在都被IGBT取代了。

avatar for karminski-牙医
karminski-牙医
Tue Dec 16 03:26:07
大家都知道大模型是有个tokenizer的,记录着大模型使用的分词表,也是大模型理解语义和进行计算的最小单位。但不知道大家有没有过这样的脑洞?为啥要分词?按照UTF-8编码直接塞进去不是更好吗?

来看今天这个新模型,Bolmo-8B,他们就是直接抛弃了传统的方式,而是使用UTF-8 字节作为基本单位,把每个字符都看成字节序列来处理

大家都知道大模型是有个tokenizer的,记录着大模型使用的分词表,也是大模型理解语义和进行计算的最小单位。但不知道大家有没有过这样的脑洞?为啥要分词?按照UTF-8编码直接塞进去不是更好吗? 来看今天这个新模型,Bolmo-8B,他们就是直接抛弃了传统的方式,而是使用UTF-8 字节作为基本单位,把每个字符都看成字节序列来处理

这么做最大的好处是——"strawberry有几个r?"这样的问题就能轻松回答了!因为每个字母都是单独的utf8编码。 但是带来的问题也是实打实的,有的时候一个词可以很复杂,单有的时候一个词很简单,传统tokenizer能不同程度的平衡这个问题,但是轮到用utf8,每个词都要消耗单词长度的token,计算资源分配很不灵活。

avatar for karminski-牙医
karminski-牙医
Tue Dec 16 03:26:05
  • Previous
  • 1
  • More pages
  • 655
  • 656
  • 657
  • More pages
  • 5634
  • Next