created: 2024-07-09T05:44:04.092Z

ローカルで LLM の画像認識を動かす

「適当に画像ファイルを渡したらファイル名をつけて所定の場所に保存して欲しいな」という思いでツールを作っていた。

画像のこれなんだ?を Chromium にさせれると思ってたらまだ大変そうだったので ollama ってのを使ったらかなり楽でちょっとびっくりしてしまった。未来はもうそこまで来ている。

$ brew install --cask ollama
$ ollama pull llava
$ npm i ollama ts-node

こんなんで動く

import { ollama } from "ollama";

const resp = await ollama.chat({
  model: "llava",
  messages: [
    {
      role: "user",
      content: `What is the main subject of this image?`,
      images: [process.argv[2]],
    },
  ],
});

参考

入門 モダンLinux ―オンプレミスからクラウドまで、幅広い知識を会得する
[ad] 入門 モダンLinux ―オンプレミスからクラウドまで、幅広い知識を会得する
Michael Hausenblas, 武内 覚 (単行本(ソフトカバー))