created: 2024-07-09T05:44:04.092Z

ローカルで LLM の画像認識を動かす

「適当に画像ファイルを渡したらファイル名をつけて所定の場所に保存して欲しいな」という思いでツールを作っていた。

画像のこれなんだ?を Chromium にさせれると思ってたらまだ大変そうだったので ollama ってのを使ったらかなり楽でちょっとびっくりしてしまった。未来はもうそこまで来ている。

$ brew install --cask ollama
$ ollama pull llava
$ npm i ollama ts-node

こんなんで動く

import { ollama } from "ollama";

const resp = await ollama.chat({
  model: "llava",
  messages: [
    {
      role: "user",
      content: `What is the main subject of this image?`,
      images: [process.argv[2]],
    },
  ],
});

参考

みんなの自己肯定感を高める 子育て言い換え事典
[ad] みんなの自己肯定感を高める 子育て言い換え事典
石田 勝紀, カワグチ マサミ (単行本)