created: 2024-07-09T05:44:04.092Z
ローカルで LLM の画像認識を動かす
「適当に画像ファイルを渡したらファイル名をつけて所定の場所に保存して欲しいな」という思いでツールを作っていた。
画像のこれなんだ?を Chromium にさせれると思ってたらまだ大変そうだったので ollama
ってのを使ったらかなり楽でちょっとびっくりしてしまった。未来はもうそこまで来ている。
$ brew install --cask ollama
$ ollama pull llava
$ npm i ollama ts-node
こんなんで動く
import { ollama } from "ollama";
const resp = await ollama.chat({
model: "llava",
messages: [
{
role: "user",
content: `What is the main subject of this image?`,
images: [process.argv[2]],
},
],
});