ya aslında database-algoritmalar ve learning ile çözülen bir şey.
yani şimdi layer layer düşün. girilen her kelime için bir layer ve o layerın sıralaması var.
engineer on the train
ile
engineer in the train
de algoritma databaseden farklı layerlardan seçim yapıyor ve kelimeye göre sıralıyor böylelikle image generate edilmiş oluyor
tabiki mantıklı resimler oluşturabilmek için belli bir süre algoritmaya bu iyi bu kötü demek gerekiyor
yani aslında öyle aman aman bir şey değil
"A pikachu fine dining with a view to the Eiffel Tower"
demiş mesela
pikachu layerı seç
fine dining layerı seç
pikachu table'ın üstünde mi? yanında mı? altında mı? önünde mi? eğer yazmamış ise yanında seç
view to the Eiffel Tower dediğine göre background layerı seç
tüm layerları tanımla ve görseli yarat.
işte database ne kadar genişse o kadar çok kombinasyon ortaya çıkar.
o sebeple database'i olmayan görsellerde bocalar bu sistemler.
edit:
bu da bonus
i.hizliresim.com 
huggingface.co kötüymüş baya mesela
i.hizliresim.com