yng
@yng.bsky.social
📤 95
📥 101
📝 587
機械学習をお仕事にしています
https://yng87.page/
coding agentとかskillsとかのおかげでローカルで開発しやすいような基盤作りが大事になっている気がする
about 17 hours ago
0
2
0
なんとなくハンターハンターを読み返し始めたら止まらなくなってしまった(n回目)
3 days ago
0
1
0
最近(以前から?)ZennにAI生成のアウトプットをわずかに手直ししただけのような記事が増えてる気がする
4 days ago
1
0
0
Netflixのtext-to-DSLの事例。hallucinationを防ぐために、使えるフィールド名や値を埋め込みを使ってretrieveして文脈を制約し、その範囲内でLLMにクエリを組み立てさせるという構成にしている
netflixtechblog.com/the-ai-evolu...
loading . . .
The AI Evolution of Graph Search at Netflix
From Structured Queries to Natural Language
https://netflixtechblog.com/the-ai-evolution-of-graph-search-at-netflix-d416ec5b1151
28 days ago
0
3
0
最近コーディングエージェントをできるだけ使って自分で書く量を減らす訓練をしてるけど、同じリポジトリにある依存先サービスの仕様を完全に理解しきれず細かい修正指示を繰り返さないといけなかったりする。でもgpt 5.1 codexとかopus 4.5でかなり良いコードが出てくるようになってきた
about 1 month ago
0
2
0
データ分析失敗事例集を読み返しているけどやっぱりすごく良い。生成AI時代になってより価値が増している
www.amazon.co.jp/dp/4320125673
loading . . .
データ分析失敗事例集: 失敗から学び、成功を手にする
Amazon.co.jp: データ分析失敗事例集: 失敗から学び、成功を手にする : 尾花山 和哉, 株式会社ホクソエム, 伊藤 徹郎, 江川 智啓, 大城 信晃, 川島 彩貴, 輿石 拓真, 新川 裕也, 竹久 真也, 丸山 哲太郎, 簑田 高志: Japanese Books
https://www.amazon.co.jp/dp/4320125673
about 1 month ago
1
8
3
The Batchのnew year issue、科学的発見のためには分布のtailの予測に強いモデルが必要というのは確かにと思った
www.deeplearning.ai/the-batch/is...
loading . . .
New Year Special! Hopes for 2026 from David Cox, Adji Bousso Dieng, Juan M. Lavista Ferres, Tanmay Gupta, Pengtao Xie, Sharon Zhou
The Batch AI News and Insights: Happy 2026! Will this be the year we finally achieve AGI? I’d like to propose a new version of the Turing Test...
https://www.deeplearning.ai/the-batch/issue-334/
about 2 months ago
0
3
0
あけましておめでとうございます。今年もよろしくお願いします
about 2 months ago
0
5
0
結局やるんだけど
2 months ago
0
0
0
埋め込みの更新とか考えるのめんどくさいので、最近はあまりベクトル検索作りたくなくなってきてる
2 months ago
1
2
0
テキストログをFAQに変換するパイプラインの構築事例。参考になる
www.m3tech.blog/entry/2025/1...
loading . . .
LLMによって非定形の会話ログを価値あるFAQデータにする話 - エムスリーテックブログ
AI・機械学習チームの鴨田です。 この記事はエムスリー Advent Calendar 2025の21日目の記事です。 20日目は星川さんのSlackワークフロー使いこなせてる?進化したトリガーとリストで実現するハックでした。 サムネ TL;DR 問い合わせログからFAQ記事を自動生成するパイプラインを構築 パイプラインはFAQ以外にも応用可能 日々、企業のシステムには膨大な「テキストデータ」が蓄...
https://www.m3tech.blog/entry/2025/12/21/100000
2 months ago
0
1
1
人手による検索関連度アノテーションをLLMで置き換えるというPinterest の事例。人手データをある程度集めた上でそれを使ってモデルを学習してスケールさせるというのがやっぱり王道っぽい
medium.com/pinterest-en...
loading . . .
LLM-Powered Relevance Assessment for Pinterest Search
Han Wang | Machine Learning Engineer; Alex Whitworth | Staff Data Scientist; Pak Ming Cheung | Sr. Staff Machine Learning Engineer; Zhenjie…
https://medium.com/pinterest-engineering/llm-powered-relevance-assessment-for-pinterest-search-b846489e358d
2 months ago
0
4
0
正しく作るのが結局一番早いというのはやはりあって、最近の新しいものをいろいろ試すために必要なものをスキップしますみたいなのはPoCの先に行くのに苦労しがち
2 months ago
0
2
1
reposted by
yng
Grahamian
2 months ago
規定のワークフローを通さなかったがために発生する問題を解決するために対処療法的な実装を追加するのではなく規定のワークフローを通せばその問題は起きないんだからちゃんとワークフローを通す仕組みにしましょう、みたいな話
0
2
1
社のアドベントカレンダー書きました
hack.nikkei.com/blog/advent2...
#HackTheNikkei
loading . . .
KedroとAWS Batchで作る実験から本番まで使える機械学習パイプライン — HACK The Nikkei
KedroとAWS Batchを使って機械学習の実験パイプラインから本番バッチまで構築する方法を紹介します
https://hack.nikkei.com/blog/advent20251217/
2 months ago
0
3
1
実際のサービス開発してる人達はLLMで合成データをたくさん作るより、少数でいいので実際のプロダクション環境から失敗例を集めたり、エキスパートの人間による評価を集めるべしと言っているのでそういうことだよね
3 months ago
0
2
0
LLM as judgeを作る上でのめちゃ実用的な記事だ…
eugeneyan.com/writing/prod...
loading . . .
Product Evals in Three Simple Steps
Label some data, align LLM-evaluators, and run the eval harness with each change.
https://eugeneyan.com/writing/product-evals/
3 months ago
1
4
0
RecSys 2025の論文で、ショート動画の試聴時間予測をするのに直接回帰するのではなく、分布を指数+Gaussian mixture と置いてそのパラメータをフィットしに行くというのがあって面白かった
arxiv.org/abs/2508.12665
loading . . .
Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network
Accurate watch time prediction is crucial for enhancing user engagement in streaming short-video platforms, although it is challenged by complex distribution characteristics across multi-granularity l...
https://arxiv.org/abs/2508.12665
3 months ago
0
1
0
django 6.0でFastAPIのバックグラウンドタスク的なものが実装されたのかと思ったが、ワーカーは自分で実装することが前提のようでちょっと違った
roam.be/notes/2025/a...
loading . . .
A first look at Django's new background tasks
Django 6.0 introduces a built-in background tasks framework in `django.tasks`. But don't expect to phase out Celery, Huey or other preferred solutions just yet.
https://roam.be/notes/2025/a-first-look-at-djangos-new-background-tasks/
3 months ago
0
1
0
素粒子現象論をやっていた者としては、天文の解析論文は同じ対象でも著者が変わって解析の仮定が変わればかなり結果が変わるという印象がある。あと例のプレスリリースはWIMPにしては消滅断面積が大きすぎると思うので、理論モデルとして解があるのか怪しい
3 months ago
0
3
0
reposted by
yng
Ko Arimatsu 有松亘
3 months ago
主に向こうのSNSで話題になっている例のWIMP検出(?)論文だけど、一般論として、観測波長によらず、ああいったdiffuseな輻射に対して観測機器由来のアーティファクトやゴースト、前景輻射を含む他のソースからのコンタミを適切に差し引いた上で評価するのは極めて難しいことは認識されておくべきだと思う。 (当該論文は斜め読みしただけだし専門外なので評価しないけど)少なくてもinstrumentationとデータ解析と想定されうるコンタミ輻射に対する極めて精緻な知見と慎重な態度を持った人が実施した研究でない限り、正直文言通り受け入れるのは難しい成果ではないだろうか。
1
14
4
自分が最近Xを見ないのは、技術界隈すらClickbait的な投稿が多くて見ていてキツいからというのがある。驚き屋だけではなく、不確実な事象に断定的な口調を取ることでポジションを取ろうみたいな投稿が多くあるように感じる
3 months ago
0
6
2
三井住友銀行アプリ、カード利用通知の許諾でOliveのキャンペーン頻繁に送ってきて本当に腹立つ
3 months ago
0
0
0
論文実装リポジトリを雑に信頼して使ってたらnn.ModuleListではなくただのリストに重みを入れている部分があって死んだ
3 months ago
0
1
0
uv で環境依存が激しいライブラリ(例えば特定cudaバージョンのtorch)を扱う時に、tool.uv の environments を指定すると対象となるOSとか制限できて、macでも uv lock を通しやすくなるというのを学んだ
3 months ago
0
2
0
rectools、implicit (開発が止まっている) に依存しているせいで、最近のバージョンのpythonでインストールする難易度が高すぎる
3 months ago
1
1
0
これ良くやるけど現職だとあまり一般的にやられてなくて驚いた
3 months ago
0
0
0
reposted by
yng
Grahamian
3 months ago
口頭で話した内容をメモとしてチャットに書くのってあんまり一般的ではないらしいがとても便利なのでみんなやったほうがいい
0
3
1
議事録って参加者で意思決定内容に齟齬がないか確認したり、next actionを明確化したりするためのものだから、AIに議事録取らせて事後共有みたいなやり方では代替できない
3 months ago
0
1
0
「AIの要約つけておきました!」と言われても誰も読んでいないのである
3 months ago
0
4
0
reposted by
yng
Tim Kellogg
3 months ago
truth hurts
2
127
26
今やってるタスクだと、2.5 proでthinking最小にするくらいが性能とレイテンシのバランスが良いんだよな
3 months ago
0
0
0
Gemini 3、thinking_level=low でflash 2.5くらいのレイテンシみたいに書いてあるけど本当?ちゃんと条件揃えて比べられてないけどもっと遅い気がする
3 months ago
0
2
0
自分がやってるタスクだとgemini 2.5 proが一番うまく指示を守ってくれてる
3 months ago
0
0
0
オレオレ実装を書かず、SDKのドキュメントを落ち着いて読んでから作業始めて欲しい
4 months ago
0
1
0
codex使い始めてclaude codeよりも良いコード書くなと思ってたけど、ある程度以上複雑なことをやらせると複雑でキモい本当に必要かもわからない独自実装を大量に入れてきたりするのでダメだ
4 months ago
0
1
0
Pixel 8aが壊れたので9aを買ったんですが、今の所何も違いを感じない
4 months ago
0
0
0
スマホが死んでいるので手の甲にペンでメモを取ったりしてる
4 months ago
0
0
0
良い話
speakerdeck.com/statditto/nd...
loading . . .
NDCG is NOT All I Need
LINEヤフー ABEMA Meetup ~データサイエンス~ で発表した資料です。 https://lycorptech-jp.connpass.com/event/370887/
https://speakerdeck.com/statditto/ndcg-is-not-all-i-need
4 months ago
0
4
1
時々ベイジアンABテストならいつでも結果を見て閾値を越えたら実験を止めて良いという主張を見かけるけど、それは間違いだよという話
www.alexmolas.com/2025/10/30/b...
loading . . .
Bayesian A/B testing is not immune to peeking
https://www.alexmolas.com/2025/10/30/bayesian-ab-test-peeking.html
4 months ago
0
1
1
通勤中pixel 8aが急にブラックアウトし全く反応しなくなった。充電ケーブルに繋いでもひんやりしたままだし電気系統がイかれてしまったか…。よく地面に落としたりだいぶ雑に扱ってたからな…
4 months ago
0
0
0
大AI時代、判定したい正例だけを集めたデータセットを作って改善などが横行してしまう(全部1と予測するヒューリスティックを超えられない)
4 months ago
0
1
0
強化学習あまりわかってないけど、LLMの文脈だと難しいことしすぎずREINFORCEでも良さそうってことなのかな
cameronrwolfe.substack.com/p/reinforce
loading . . .
REINFORCE: Easy Online RL for LLMs
How to get the benefits of online RL without the complexity of PPO...
https://cameronrwolfe.substack.com/p/reinforce
4 months ago
0
0
0
Amazon アプリ、画面がすごくゴチャついてるし購入画面に進もうとしてもレコメンド大量に挟んでくるし、検索は関連度の低いスポンサー商品ばかりだし、世界一のECがABテストを幾度も繰り返した末にできるプロダクトがこれかぁと思う
4 months ago
0
1
0
やっぱりネットワーキングにはあった方が良い気がするのでlinkedin復活させるか
4 months ago
0
0
0
結局実務のMLはデータセットと評価指標なんだよな
4 months ago
0
2
0
aws us-east-1 が死んでいる…
4 months ago
0
0
0
Claude Skill、MCPのようなトークンの大量消費がないし、シンプルなマークダウンベースだから作りやすいしでMCPを置き換えていくのではということらしい。新陳代謝が早い
simonwillison.net/2025/Oct/16/...
loading . . .
Claude Skills are awesome, maybe a bigger deal than MCP
Anthropic this morning introduced Claude Skills, a new pattern for making new abilities available to their models: Claude can now use Skills to improve how it performs specific tasks. Skills …
https://simonwillison.net/2025/Oct/16/claude-skills/#atom-entries
4 months ago
0
1
0
事前学習にそういうコードが多いと言われればそうな気もするし、強化学習で例外送出にペナルティがつけられるからと言われればそうな気もする
5 months ago
0
0
0
過剰な防御的プログラミング、プロンプトとか.mdとかで制御すればましになるけどそもそもそんな面倒をユーザに強いないでほしい
5 months ago
0
0
0
Load more
feeds!
log in